Co to jest Prompt injection?

Słownik AI

Prompt injection

wstrzyknięcie promptu, atak na prompt

Prompt injection to atak, w którym ukryte instrukcje w danych wejściowych przejmują zachowanie modelu i nakłaniają go do złamania własnych zasad. Groźny zwłaszcza dla agentów czytających treści z zewnątrz.

Polecenie atakującego ukryte jest w tekście, który model przetwarza (e-mail, strona, dokument).
Może prowadzić do ujawnienia danych, obejścia reguł lub niepożądanego użycia narzędzi.
Obrona to m.in. oddzielenie instrukcji od danych, bariery wejścia/wyjścia i ograniczenie uprawnień agenta.

Prompt injection wykorzystuje to, że model traktuje cały przekazany tekst jako kontekst. Atakujący umieszcza polecenie wewnątrz danych, które model i tak ma przeczytać, na przykład w treści strony, dokumencie czy wiadomości. Model może wtedy potraktować ukrytą instrukcję jako swoją i zignorować pierwotne zasady.

Ryzyko rośnie w systemach z pobieraniem treści z zewnątrz i u agentów z dostępem do narzędzi, bo skutkiem może być wyciek danych albo wykonanie niechcianej operacji. Nie ma jednego pełnego zabezpieczenia. Ogranicza się skutki: rozdziela instrukcje od danych, stosuje bariery bezpieczeństwa i zawęża uprawnienia, jakie ma model.

Powiązane pojęcia

W przewodnikach