Przewodnik
Decyzje i porównania
Jak ocenić, czy agent AI działa: ewaluacja zamiast wrażenia
Ocena agenta „na wyczucie” myli udane demo z działającym systemem. Stały zbiór przypadków i metryki dają dowód zamiast wrażenia.
- Udane demo to nie dowód działania — liczy się powtarzalny wynik na stałym zbiorze.
- Mierz trafność, halucynacje, koszt i opóźnienie razem; jedna metryka kłamie.
- Automat sprawdza regresje na każdej wersji; człowiek ocenia to, czego automat nie zmierzy.
Dlaczego „wow demo” to nie dowód
Udane demo pokazuje, że agent potrafi dobrze odpowiedzieć — raz, na wybrane pytanie, w sprzyjających warunkach. To nie to samo, co działa: powtarzalnie, na pełnym przekroju pytań, których naprawdę użyją ludzie.
Demo selekcjonuje przypadki, w których model wypada dobrze. Produkcja tego nie robi. Po wdrożeniu pojawiają się pytania nietypowe, źle sformułowane, na granicy wiedzy agenta — i to one decydują o tym, czy system jest użyteczny. Ocena „na wyczucie” po kilku ładnych odpowiedziach jest więc systematycznie zbyt optymistyczna.
Zasada jest prosta: dowód, nie wrażenie. Dowodem nie jest jedna dobra odpowiedź, lecz wynik na stałym, powtarzalnym zbiorze przypadków.
Jak zbudować zbiór ewaluacyjny
Punkt wyjścia każdej rzetelnej oceny to zbiór ewaluacyjny: zestaw realnych zapytań wraz z oczekiwanym wynikiem albo kryterium poprawności. Dobry zbiór ma trzy cechy.
- Realny. Pytania pochodzą z produkcji, supportu albo od pierwszych użytkowników — nie z wyobraźni zespołu.
- Reprezentatywny. Zawiera przypadki typowe, brzegowe i takie, które agent powinien odrzucić.
- Stały. Zamrażasz go, żeby kolejne wersje porównywać na tym samym materiale.
Na start wystarczy 30–50 przypadków, jeśli są dobrze dobrane. Część z nich możesz wykorzystać jako przykłady few-shot w samym prompcie, ale wtedy wyłącz je ze zbioru testowego — model widział te przykłady w promptcie, więc wynik na nich zawyża ocenę. Inaczej mierzysz dopasowanie do znanych przypadków, nie zdolność uogólniania.
Co mierzyć: cztery wymiary
Pojedyncza liczba zawsze kłamie. Agent może być bardzo trafny i jednocześnie tak wolny lub drogi, że nie nadaje się do użycia. Dlatego ewaluacja patrzy na cztery wymiary naraz.
| Metryka | Co mierzy | Jak |
|---|---|---|
| Trafność | Czy odpowiedź jest poprawna i kompletna | Porównanie z oczekiwanym wynikiem; ocena ludzka lub model-sędzia |
| Halucynacje | Jak często agent zmyśla fakty lub źródła | Sprawdzenie, czy każde twierdzenie ma oparcie w danych |
| Koszt | Ile kosztuje jedna odpowiedź | Liczba tokenów lub wywołań na zapytanie razy cennik |
| Opóźnienie | Jak długo użytkownik czeka | Czas od zapytania do pełnej odpowiedzi (mediana i ogon p95) |
Osobno warto śledzić halucynacje, bo to one najszybciej niszczą zaufanie do systemu. Jedna pewnie brzmiąca, zmyślona odpowiedź kosztuje więcej niż dziesięć szczerych „nie wiem”. W zbiorze ewaluacyjnym dobrze mieć więc pytania, na które poprawną odpowiedzią jest właśnie odmowa.
Rola człowieka w pętli
Nie wszystko da się sprawdzić skryptem. Ton, sens, takt, trafność merytoryczna w niuansach — to ocenia człowiek. Human-in-the-loop to nie awaryjny ratunek, lecz stały element oceny: na każdej wersji ktoś przegląda próbkę odpowiedzi i wystawia werdykt według tych samych kryteriów.
Żeby ta ocena była dowodem, a nie opinią, musi być ustandaryzowana:
- Ten sam zestaw kryteriów dla każdej odpowiedzi (np. trafność 0–2, halucynacja tak/nie).
- Ci sami oceniający lub jasna instrukcja, gdy oceniających jest wielu.
- Zapis wyników, żeby dało się je porównać między wersjami.
Człowiek w pętli pełni też drugą rolę — w produkcji zatwierdza działania o wysokiej stawce, zanim agent je wykona. To inna decyzja projektowa niż ewaluacja, ale oparta na tej samej zasadzie: tam, gdzie błąd jest kosztowny, potrzebny jest punkt kontroli.
Kiedy automat, a kiedy człowiek
Obie ścieżki są potrzebne, bo odpowiadają na różne pytania.
- Automat sprawdza regresje. Po każdej zmianie promptu, modelu lub danych puszczasz cały zbiór i widzisz, czy coś się zepsuło. Jest tani, szybki i powtarzalny, więc może działać przy każdym wdrożeniu.
- Człowiek ocenia jakość tam, gdzie liczy się sens i kontekst. Jest wolniejszy i droższy, więc działa na próbce, nie na całym zbiorze.
Praktyczny układ: automat na każdej wersji, człowiek na reprezentatywnej próbce przy większych zmianach i przed każdym wdrożeniem na produkcję. Coraz częściej w roli automatu występuje model-sędzia — drugi model oceniający odpowiedzi według instrukcji. To skaluje ocenę, ale sam sędzia też wymaga kalibracji na ludzkich werdyktach, inaczej przenosi własne błędy.
Zasada operatora: jeśli nie potrafisz porównać dwóch wersji agenta liczbą z tego samego zbioru, to jeszcze nie wiesz, czy nowa wersja jest lepsza — masz tylko wrażenie.
Od czego zacząć
Najtańszy pierwszy krok to nie nowe narzędzie, lecz zamrożenie 30–50 realnych pytań i jednorazowe ocenienie na nich obecnego agenta. Już to pokaże, gdzie zmyśla, gdzie jest wolny i ile kosztuje. Resztę — automatyzację, model-sędziego, regularne przeglądy — dokładasz dopiero wtedy, gdy ten zbiór zacznie zwracać konkretne liczby. Dowód buduje się przyrostowo, ale zaczyna się od jednej stałej listy przypadków.
Pojęcia w tym przewodniku
Powiązane artykuły
- Smak i osąd — co zasługuje na twoje nazwisko
- Jak pisać własne skille dla asystenta AI i ulepszać je testami
Projektujesz architekturę albo ład nad agentami? Opisz swój przypadek.
Opisz swój przypadek Zobacz, jak pomagamyNajczęstsze pytania
- Ile przypadków potrzebuję na start?
- Zacznij od 30–50 realnych zapytań z produkcji lub od użytkowników, w tym trudne i nietypowe. Lepszy mały zbiór z prawdziwymi przypadkami niż setki wymyślonych.
- Czy ewaluacja automatyczna wystarczy?
- Do regresji i porównań wersji tak. Ale trafność merytoryczną, ton i sens odpowiedzi nadal najlepiej ocenia człowiek na próbce.
- Jak często powtarzać ewaluację?
- Przy każdej zmianie promptu, modelu, danych lub konfiguracji. To jedyny sposób, żeby zauważyć regresję, zanim zobaczy ją użytkownik.