Co to jest Ewaluacja modeli?

Słownik AI

Ewaluacja modeli

ocena modeli, evaluation, ewaluacja AI

Ewaluacja modeli to systematyczny pomiar jakości odpowiedzi modelu na ustalonym zbiorze przypadków i miarach. Pozwala porównywać wersje i wykrywać regresje zamiast oceniać na wyczucie.

Opiera się na stałym zbiorze przypadków testowych i jasnych miarach.
Pozwala porównać wersje promptu lub modelu i wychwycić regresje.
Łączy miary automatyczne z oceną człowieka tam, gdzie liczy się trafność.

W ewaluacji modeli budujesz stały zbiór przypadków testowych i miary, na których sprawdzasz każdą zmianę promptu, modelu lub konfiguracji. To zamienia ocenę "na wyczucie" — gdzie pojedynczy udany przykład niczego nie dowodzi — w powtarzalny pomiar jakości całego rozwiązania.

W praktyce łączy się miary automatyczne z oceną człowieka, bo część cech (trafność, ton, ryzyko halucynacji) trudno zmierzyć liczbą. Tak prowadzona ewaluacja pokazuje, czy fine-tuning lub nowa wersja faktycznie poprawiły wynik, czy tylko przesunęły błędy w inne miejsce.

Powiązane pojęcia

W przewodnikach

Powiązane artykuły