Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Prompt injection

wstrzyknięcie promptu, atak na prompt

Prompt injection to atak, w którym ukryte instrukcje w danych wejściowych przejmują zachowanie modelu i nakłaniają go do złamania własnych zasad. Groźny zwłaszcza dla agentów czytających treści z zewnątrz.

Prompt injection wykorzystuje to, że model traktuje cały przekazany tekst jako kontekst. Atakujący umieszcza polecenie wewnątrz danych, które model i tak ma przeczytać, na przykład w treści strony, dokumencie czy wiadomości. Model może wtedy potraktować ukrytą instrukcję jako swoją i zignorować pierwotne zasady.

Ryzyko rośnie w systemach z pobieraniem treści z zewnątrz i u agentów z dostępem do narzędzi, bo skutkiem może być wyciek danych albo wykonanie niechcianej operacji. Nie ma jednego pełnego zabezpieczenia. Ogranicza się skutki: rozdziela instrukcje od danych, stosuje bariery bezpieczeństwa i zawęża uprawnienia, jakie ma model.

Powiązane pojęcia

W przewodnikach