Słownik AI
Prompt injection
wstrzyknięcie promptu, atak na prompt
Prompt injection to atak, w którym ukryte instrukcje w danych wejściowych przejmują zachowanie modelu i nakłaniają go do złamania własnych zasad. Groźny zwłaszcza dla agentów czytających treści z zewnątrz.
- Polecenie atakującego ukryte jest w tekście, który model przetwarza (e-mail, strona, dokument).
- Może prowadzić do ujawnienia danych, obejścia reguł lub niepożądanego użycia narzędzi.
- Obrona to m.in. oddzielenie instrukcji od danych, bariery wejścia/wyjścia i ograniczenie uprawnień agenta.
Prompt injection wykorzystuje to, że model traktuje cały przekazany tekst jako kontekst. Atakujący umieszcza polecenie wewnątrz danych, które model i tak ma przeczytać, na przykład w treści strony, dokumencie czy wiadomości. Model może wtedy potraktować ukrytą instrukcję jako swoją i zignorować pierwotne zasady.
Ryzyko rośnie w systemach z pobieraniem treści z zewnątrz i u agentów z dostępem do narzędzi, bo skutkiem może być wyciek danych albo wykonanie niechcianej operacji. Nie ma jednego pełnego zabezpieczenia. Ogranicza się skutki: rozdziela instrukcje od danych, stosuje bariery bezpieczeństwa i zawęża uprawnienia, jakie ma model.
Powiązane pojęcia
W przewodnikach