Słownik AI
Ewaluacja modeli
ocena modeli, evaluation, ewaluacja AI
Ewaluacja modeli to systematyczny pomiar jakości odpowiedzi modelu na ustalonym zbiorze przypadków i miarach. Pozwala porównywać wersje i wykrywać regresje zamiast oceniać na wyczucie.
- Opiera się na stałym zbiorze przypadków testowych i jasnych miarach.
- Pozwala porównać wersje promptu lub modelu i wychwycić regresje.
- Łączy miary automatyczne z oceną człowieka tam, gdzie liczy się trafność.
W ewaluacji modeli budujesz stały zbiór przypadków testowych i miary, na których sprawdzasz każdą zmianę promptu, modelu lub konfiguracji. To zamienia ocenę "na wyczucie" — gdzie pojedynczy udany przykład niczego nie dowodzi — w powtarzalny pomiar jakości całego rozwiązania.
W praktyce łączy się miary automatyczne z oceną człowieka, bo część cech (trafność, ton, ryzyko halucynacji) trudno zmierzyć liczbą. Tak prowadzona ewaluacja pokazuje, czy fine-tuning lub nowa wersja faktycznie poprawiły wynik, czy tylko przesunęły błędy w inne miejsce.
Powiązane pojęcia
W przewodnikach
Powiązane artykuły