Słownik AI
Red teaming AI
red teaming, testy adwersarialne AI, testowanie ofensywne AI
Red teaming AI to celowo wrogie testowanie systemu, które ma znaleźć jego słabe punkty, obejścia zabezpieczeń i szkodliwe wyniki, zanim trafi on do użytkowników.
- Polega na świadomym atakowaniu systemu, by ujawnić podatności przed wdrożeniem.
- Szuka obejść zabezpieczeń, podatności na wstrzyknięcie promptu i szkodliwych odpowiedzi.
- Uzupełnia zwykłą ocenę jakości, bo bada zachowanie pod presją, a nie typowe scenariusze.
Red teaming AI to metoda testowania, w której zespół celowo działa wrogo wobec systemu, żeby wymusić jego niepożądane zachowanie. Zamiast sprawdzać, czy model dobrze radzi sobie w typowych zadaniach, red teaming szuka granic: prób obejścia zasad, podatności na wstrzyknięcie promptu, wycieku danych czy wygenerowania treści szkodliwych. Nazwa pochodzi z praktyk bezpieczeństwa, gdzie „czerwony zespół” odgrywa rolę napastnika.
Różnica wobec standardowej oceny jakości modelu jest istotna: ewaluacja mierzy skuteczność na zaplanowanych przypadkach, a red teaming sprawdza, jak system zachowuje się pod presją i wobec użytkownika działającego w złej wierze. Jedno odpowiada na pytanie „czy działa dobrze”, drugie na „jak da się go złamać”.
We wdrożeniu firmowym red teaming poprzedza udostępnienie systemu i powtarza się po większych zmianach. Jego wyniki są bezpośrednim materiałem do projektowania barier ochronnych — każda znaleziona luka wskazuje, gdzie potrzebne jest dodatkowe zabezpieczenie. Bywa łączony z testami zautomatyzowanymi i pracą człowieka, bo część podatności ujawnia się dopiero przy kreatywnym, nieoczywistym ataku.
Powiązane pojęcia