Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Jailbreak (obejście zabezpieczeń)

obejście zabezpieczeń, złamanie zabezpieczeń modelu, jailbreak, jailbreaking

Jailbreak to prompt skonstruowany tak, by obejść reguły i zabezpieczenia modelu i skłonić go do odpowiedzi, których normalnie odmawia. Atakujący manipuluje samym poleceniem, a nie danymi przetwarzanymi przez model.

Jailbreak to celowe sformułowanie polecenia tak, aby model zignorował własne reguły i wytyczne bezpieczeństwa i wykonał to, czego w normalnych warunkach by odmówił. Atakujący nie wykorzystuje luki w kodzie, lecz manipuluje samym sposobem zadania pytania — na przykład każe modelowi wcielić się w fikcyjną postać bez ograniczeń, opisać sytuację jako czysto hipotetyczną albo stopniowo, krok po kroku, rozmiękcza jego zasady, aż ten zacznie udzielać zakazanych odpowiedzi.

Kluczowa jest różnica względem prompt injection. W jailbreaku atakujący steruje wprost poleceniem kierowanym do modelu i chce, by ten złamał swoje reguły wobec niego samego. W prompt injection szkodliwa instrukcja jest ukryta w danych, które model i tak przetwarza — w treści strony, dokumentu czy wiadomości — i to te dane przejmują jego zachowanie. Upraszczając: jailbreak działa przez polecenie użytkownika, a prompt injection przez zatrutą treść wejściową. Oba prowadzą do złamania zasad, lecz różną drogą i wymagają innych zabezpieczeń.

We wdrożeniu firmowym żadna pojedyncza metoda nie eliminuje ryzyka całkowicie. Stosuje się bariery bezpieczeństwa filtrujące wejście i wyjście, ogranicza uprawnienia modelu oraz prowadzi systematyczny red-teaming, czyli kontrolowane próby obejścia zabezpieczeń, które ujawniają podatności, zanim zrobi to ktoś z zewnątrz.

Powiązane pojęcia