Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

LLM jako sędzia (LLM-as-a-judge)

LLM-as-a-judge, model jako sędzia, ocena przez model

LLM jako sędzia to użycie modelu językowego do oceniania odpowiedzi innego modelu według zadanych kryteriów. Jest szybsze i tańsze niż ocena ludzka, ale obciążone własnymi błędami i nastawieniami.

LLM jako sędzia odpowiada na problem skali w ewaluacji modeli: ręczne ocenianie tysięcy odpowiedzi przez ludzi jest wolne i kosztowne. Zamiast tego wykorzystuje się drugi model językowy, któremu podaje się odpowiedź do oceny wraz z jasno opisanymi kryteriami — na przykład trafnością, kompletnością czy zgodnością z poleceniem — i prosi o ocenę lub wskazanie lepszego z dwóch wariantów. Dzięki temu można porównywać wersje promptów lub modeli na dużych zestawach przypadków.

Metoda ma jednak własne ograniczenia. Model-sędzia bywa stronniczy: potrafi faworyzować dłuższe odpowiedzi, teksty w określonym stylu lub odpowiedzi pochodzące z modelu tej samej rodziny. Może też sam się mylić albo popełniać halucynacje w uzasadnieniu oceny. Dlatego LLM jako sędzia nie zastępuje ludzkiej weryfikacji, lecz ją uzupełnia — sprawdza się jako szybki filtr i sposób na ocenę masową, którą następnie kalibruje się próbką sprawdzaną przez człowieka.

W praktyce firmowej podejście to łączy się z benchmarkami i regresyjnymi testami jakości: gdy firma zmienia prompt lub aktualizuje model, sędzia automatycznie sprawdza, czy odpowiedzi nie pogorszyły się na ustalonym zbiorze przykładów. Klucz to dobre kryteria oceny i okresowa kontrola, czy ocena sędziego pokrywa się z oceną ludzi.

Powiązane pojęcia