Co to jest LLM jako sędzia (LLM-as-a-judge)?

Słownik AI

LLM jako sędzia (LLM-as-a-judge)

LLM-as-a-judge, model jako sędzia, ocena przez model

LLM jako sędzia to użycie modelu językowego do oceniania odpowiedzi innego modelu według zadanych kryteriów. Jest szybsze i tańsze niż ocena ludzka, ale obciążone własnymi błędami i nastawieniami.

Model językowy ocenia odpowiedzi innego modelu według wcześniej zdefiniowanych kryteriów.
Pozwala skalować ewaluację taniej i szybciej niż ocena przez ludzi.
Ma własne ograniczenia: bywa stronniczy, faworyzuje dłuższe lub własne odpowiedzi i może się mylić.

LLM jako sędzia odpowiada na problem skali w ewaluacji modeli: ręczne ocenianie tysięcy odpowiedzi przez ludzi jest wolne i kosztowne. Zamiast tego wykorzystuje się drugi model językowy, któremu podaje się odpowiedź do oceny wraz z jasno opisanymi kryteriami — na przykład trafnością, kompletnością czy zgodnością z poleceniem — i prosi o ocenę lub wskazanie lepszego z dwóch wariantów. Dzięki temu można porównywać wersje promptów lub modeli na dużych zestawach przypadków.

Metoda ma jednak własne ograniczenia. Model-sędzia bywa stronniczy: potrafi faworyzować dłuższe odpowiedzi, teksty w określonym stylu lub odpowiedzi pochodzące z modelu tej samej rodziny. Może też sam się mylić albo popełniać halucynacje w uzasadnieniu oceny. Dlatego LLM jako sędzia nie zastępuje ludzkiej weryfikacji, lecz ją uzupełnia — sprawdza się jako szybki filtr i sposób na ocenę masową, którą następnie kalibruje się próbką sprawdzaną przez człowieka.

W praktyce firmowej podejście to łączy się z benchmarkami i regresyjnymi testami jakości: gdy firma zmienia prompt lub aktualizuje model, sędzia automatycznie sprawdza, czy odpowiedzi nie pogorszyły się na ustalonym zbiorze przykładów. Klucz to dobre kryteria oceny i okresowa kontrola, czy ocena sędziego pokrywa się z oceną ludzi.

Powiązane pojęcia