Słownik AI
LLM jako sędzia (LLM-as-a-judge)
LLM-as-a-judge, model jako sędzia, ocena przez model
LLM jako sędzia to użycie modelu językowego do oceniania odpowiedzi innego modelu według zadanych kryteriów. Jest szybsze i tańsze niż ocena ludzka, ale obciążone własnymi błędami i nastawieniami.
- Model językowy ocenia odpowiedzi innego modelu według wcześniej zdefiniowanych kryteriów.
- Pozwala skalować ewaluację taniej i szybciej niż ocena przez ludzi.
- Ma własne ograniczenia: bywa stronniczy, faworyzuje dłuższe lub własne odpowiedzi i może się mylić.
LLM jako sędzia odpowiada na problem skali w ewaluacji modeli: ręczne ocenianie tysięcy odpowiedzi przez ludzi jest wolne i kosztowne. Zamiast tego wykorzystuje się drugi model językowy, któremu podaje się odpowiedź do oceny wraz z jasno opisanymi kryteriami — na przykład trafnością, kompletnością czy zgodnością z poleceniem — i prosi o ocenę lub wskazanie lepszego z dwóch wariantów. Dzięki temu można porównywać wersje promptów lub modeli na dużych zestawach przypadków.
Metoda ma jednak własne ograniczenia. Model-sędzia bywa stronniczy: potrafi faworyzować dłuższe odpowiedzi, teksty w określonym stylu lub odpowiedzi pochodzące z modelu tej samej rodziny. Może też sam się mylić albo popełniać halucynacje w uzasadnieniu oceny. Dlatego LLM jako sędzia nie zastępuje ludzkiej weryfikacji, lecz ją uzupełnia — sprawdza się jako szybki filtr i sposób na ocenę masową, którą następnie kalibruje się próbką sprawdzaną przez człowieka.
W praktyce firmowej podejście to łączy się z benchmarkami i regresyjnymi testami jakości: gdy firma zmienia prompt lub aktualizuje model, sędzia automatycznie sprawdza, czy odpowiedzi nie pogorszyły się na ustalonym zbiorze przykładów. Klucz to dobre kryteria oceny i okresowa kontrola, czy ocena sędziego pokrywa się z oceną ludzi.
Powiązane pojęcia