Słownik AI
Guardrails (bariery bezpieczeństwa)
bariery bezpieczeństwa, zabezpieczenia modelu
Guardrails to reguły i filtry, które ograniczają, co model może przyjąć na wejściu i zwrócić na wyjściu. Blokują treści niedozwolone, wymuszają format odpowiedzi i utrzymują działanie w wyznaczonych granicach.
- Działają na wejściu (filtrowanie zapytań) i na wyjściu (kontrola odpowiedzi).
- Wymuszają zakres tematów, format i zasady, których model ma się trzymać.
- Nie zastępują nadzoru człowieka, lecz zmniejszają liczbę przypadków, które do niego trafiają.
Guardrails to warstwa zasad nałożona wokół modelu. Sprawdza, co użytkownik przysyła i co model odsyła: może odrzucić zapytanie poza zakresem, zablokować dane wrażliwe, wymusić ustaloną strukturę odpowiedzi albo zatrzymać działanie, które wykracza poza dozwolone operacje.
W praktyce bariery łączy się z innymi mechanizmami. Filtrują rutynowy ruch i ograniczają znaną klasę błędów, ale nie rozumieją kontekstu tak jak człowiek. Dlatego przy decyzjach o wyższym ryzyku zestawia się je z człowiekiem w pętli i z szerszym nadzorem nad systemem.
Powiązane pojęcia
W przewodnikach
Powiązane artykuły