Co to jest Red teaming AI?

Słownik AI

Red teaming AI

red teaming, testy adwersarialne AI, testowanie ofensywne AI

Red teaming AI to celowo wrogie testowanie systemu, które ma znaleźć jego słabe punkty, obejścia zabezpieczeń i szkodliwe wyniki, zanim trafi on do użytkowników.

Polega na świadomym atakowaniu systemu, by ujawnić podatności przed wdrożeniem.
Szuka obejść zabezpieczeń, podatności na wstrzyknięcie promptu i szkodliwych odpowiedzi.
Uzupełnia zwykłą ocenę jakości, bo bada zachowanie pod presją, a nie typowe scenariusze.

Red teaming AI to metoda testowania, w której zespół celowo działa wrogo wobec systemu, żeby wymusić jego niepożądane zachowanie. Zamiast sprawdzać, czy model dobrze radzi sobie w typowych zadaniach, red teaming szuka granic: prób obejścia zasad, podatności na wstrzyknięcie promptu, wycieku danych czy wygenerowania treści szkodliwych. Nazwa pochodzi z praktyk bezpieczeństwa, gdzie „czerwony zespół” odgrywa rolę napastnika.

Różnica wobec standardowej oceny jakości modelu jest istotna: ewaluacja mierzy skuteczność na zaplanowanych przypadkach, a red teaming sprawdza, jak system zachowuje się pod presją i wobec użytkownika działającego w złej wierze. Jedno odpowiada na pytanie „czy działa dobrze”, drugie na „jak da się go złamać”.

We wdrożeniu firmowym red teaming poprzedza udostępnienie systemu i powtarza się po większych zmianach. Jego wyniki są bezpośrednim materiałem do projektowania barier ochronnych — każda znaleziona luka wskazuje, gdzie potrzebne jest dodatkowe zabezpieczenie. Bywa łączony z testami zautomatyzowanymi i pracą człowieka, bo część podatności ujawnia się dopiero przy kreatywnym, nieoczywistym ataku.

Powiązane pojęcia