Słownik AI
Jailbreak (obejście zabezpieczeń)
obejście zabezpieczeń, złamanie zabezpieczeń modelu, jailbreak, jailbreaking
Jailbreak to prompt skonstruowany tak, by obejść reguły i zabezpieczenia modelu i skłonić go do odpowiedzi, których normalnie odmawia. Atakujący manipuluje samym poleceniem, a nie danymi przetwarzanymi przez model.
- Jailbreak to prompt obchodzący reguły modelu, by uzyskać zakazaną lub niebezpieczną odpowiedź.
- Różni się od prompt injection: tu atakujący wpływa wprost na polecenie modelu, a nie ukrywa instrukcji w danych z zewnątrz.
- Typowe techniki to udawanie roli, hipotetyczne scenariusze i stopniowe rozmiękczanie zasad; obroną są bariery bezpieczeństwa i testy red-teamingowe.
Jailbreak to celowe sformułowanie polecenia tak, aby model zignorował własne reguły i wytyczne bezpieczeństwa i wykonał to, czego w normalnych warunkach by odmówił. Atakujący nie wykorzystuje luki w kodzie, lecz manipuluje samym sposobem zadania pytania — na przykład każe modelowi wcielić się w fikcyjną postać bez ograniczeń, opisać sytuację jako czysto hipotetyczną albo stopniowo, krok po kroku, rozmiękcza jego zasady, aż ten zacznie udzielać zakazanych odpowiedzi.
Kluczowa jest różnica względem prompt injection. W jailbreaku atakujący steruje wprost poleceniem kierowanym do modelu i chce, by ten złamał swoje reguły wobec niego samego. W prompt injection szkodliwa instrukcja jest ukryta w danych, które model i tak przetwarza — w treści strony, dokumentu czy wiadomości — i to te dane przejmują jego zachowanie. Upraszczając: jailbreak działa przez polecenie użytkownika, a prompt injection przez zatrutą treść wejściową. Oba prowadzą do złamania zasad, lecz różną drogą i wymagają innych zabezpieczeń.
We wdrożeniu firmowym żadna pojedyncza metoda nie eliminuje ryzyka całkowicie. Stosuje się bariery bezpieczeństwa filtrujące wejście i wyjście, ogranicza uprawnienia modelu oraz prowadzi systematyczny red-teaming, czyli kontrolowane próby obejścia zabezpieczeń, które ujawniają podatności, zanim zrobi to ktoś z zewnątrz.
Powiązane pojęcia