Ile przypadków potrzebuję na start?

Zacznij od 30–50 realnych zapytań z produkcji lub od użytkowników, w tym trudne i nietypowe. Lepszy mały zbiór z prawdziwymi przypadkami niż setki wymyślonych.

Czy ewaluacja automatyczna wystarczy?

Do regresji i porównań wersji tak. Ale trafność merytoryczną, ton i sens odpowiedzi nadal najlepiej ocenia człowiek na próbce.

Jak często powtarzać ewaluację?

Przy każdej zmianie promptu, modelu, danych lub konfiguracji. To jedyny sposób, żeby zauważyć regresję, zanim zobaczy ją użytkownik.

Przewodnik

Decyzje i porównania

Jak ocenić, czy agent AI działa: ewaluacja zamiast wrażenia

Ocena agenta „na wyczucie” myli udane demo z działającym systemem. Stały zbiór przypadków i metryki dają dowód zamiast wrażenia.

Udane demo to nie dowód działania — liczy się powtarzalny wynik na stałym zbiorze.
Mierz trafność, halucynacje, koszt i opóźnienie razem; jedna metryka kłamie.
Automat sprawdza regresje na każdej wersji; człowiek ocenia to, czego automat nie zmierzy.

Dlaczego „wow demo” to nie dowód

Udane demo pokazuje, że agent potrafi dobrze odpowiedzieć — raz, na wybrane pytanie, w sprzyjających warunkach. To nie to samo, co działa: powtarzalnie, na pełnym przekroju pytań, których naprawdę użyją ludzie.

Demo selekcjonuje przypadki, w których model wypada dobrze. Produkcja tego nie robi. Po wdrożeniu pojawiają się pytania nietypowe, źle sformułowane, na granicy wiedzy agenta — i to one decydują o tym, czy system jest użyteczny. Ocena „na wyczucie” po kilku ładnych odpowiedziach jest więc systematycznie zbyt optymistyczna.

Zasada jest prosta: dowód, nie wrażenie. Dowodem nie jest jedna dobra odpowiedź, lecz wynik na stałym, powtarzalnym zbiorze przypadków.

Jak zbudować zbiór ewaluacyjny

Punkt wyjścia każdej rzetelnej oceny to zbiór ewaluacyjny: zestaw realnych zapytań wraz z oczekiwanym wynikiem albo kryterium poprawności. Dobry zbiór ma trzy cechy.

Realny. Pytania pochodzą z produkcji, supportu albo od pierwszych użytkowników — nie z wyobraźni zespołu.
Reprezentatywny. Zawiera przypadki typowe, brzegowe i takie, które agent powinien odrzucić.
Stały. Zamrażasz go, żeby kolejne wersje porównywać na tym samym materiale.

Na start wystarczy 30–50 przypadków, jeśli są dobrze dobrane. Część z nich możesz wykorzystać jako przykłady few-shot w samym prompcie, ale wtedy wyłącz je ze zbioru testowego — model widział te przykłady w promptcie, więc wynik na nich zawyża ocenę. Inaczej mierzysz dopasowanie do znanych przypadków, nie zdolność uogólniania.

Co mierzyć: cztery wymiary

Pojedyncza liczba zawsze kłamie. Agent może być bardzo trafny i jednocześnie tak wolny lub drogi, że nie nadaje się do użycia. Dlatego ewaluacja patrzy na cztery wymiary naraz.

Metryka	Co mierzy	Jak
Trafność	Czy odpowiedź jest poprawna i kompletna	Porównanie z oczekiwanym wynikiem; ocena ludzka lub model-sędzia
Halucynacje	Jak często agent zmyśla fakty lub źródła	Sprawdzenie, czy każde twierdzenie ma oparcie w danych
Koszt	Ile kosztuje jedna odpowiedź	Liczba tokenów lub wywołań na zapytanie razy cennik
Opóźnienie	Jak długo użytkownik czeka	Czas od zapytania do pełnej odpowiedzi (mediana i ogon p95)

Osobno warto śledzić halucynacje, bo to one najszybciej niszczą zaufanie do systemu. Jedna pewnie brzmiąca, zmyślona odpowiedź kosztuje więcej niż dziesięć szczerych „nie wiem”. W zbiorze ewaluacyjnym dobrze mieć więc pytania, na które poprawną odpowiedzią jest właśnie odmowa.

Rola człowieka w pętli

Nie wszystko da się sprawdzić skryptem. Ton, sens, takt, trafność merytoryczna w niuansach — to ocenia człowiek. Human-in-the-loop to nie awaryjny ratunek, lecz stały element oceny: na każdej wersji ktoś przegląda próbkę odpowiedzi i wystawia werdykt według tych samych kryteriów.

Żeby ta ocena była dowodem, a nie opinią, musi być ustandaryzowana:

Ten sam zestaw kryteriów dla każdej odpowiedzi (np. trafność 0–2, halucynacja tak/nie).
Ci sami oceniający lub jasna instrukcja, gdy oceniających jest wielu.
Zapis wyników, żeby dało się je porównać między wersjami.

Człowiek w pętli pełni też drugą rolę — w produkcji zatwierdza działania o wysokiej stawce, zanim agent je wykona. To inna decyzja projektowa niż ewaluacja, ale oparta na tej samej zasadzie: tam, gdzie błąd jest kosztowny, potrzebny jest punkt kontroli.

Kiedy automat, a kiedy człowiek

Obie ścieżki są potrzebne, bo odpowiadają na różne pytania.

Automat sprawdza regresje. Po każdej zmianie promptu, modelu lub danych puszczasz cały zbiór i widzisz, czy coś się zepsuło. Jest tani, szybki i powtarzalny, więc może działać przy każdym wdrożeniu.
Człowiek ocenia jakość tam, gdzie liczy się sens i kontekst. Jest wolniejszy i droższy, więc działa na próbce, nie na całym zbiorze.

Praktyczny układ: automat na każdej wersji, człowiek na reprezentatywnej próbce przy większych zmianach i przed każdym wdrożeniem na produkcję. Coraz częściej w roli automatu występuje model-sędzia — drugi model oceniający odpowiedzi według instrukcji. To skaluje ocenę, ale sam sędzia też wymaga kalibracji na ludzkich werdyktach, inaczej przenosi własne błędy.

Zasada operatora: jeśli nie potrafisz porównać dwóch wersji agenta liczbą z tego samego zbioru, to jeszcze nie wiesz, czy nowa wersja jest lepsza — masz tylko wrażenie.

Od czego zacząć

Najtańszy pierwszy krok to nie nowe narzędzie, lecz zamrożenie 30–50 realnych pytań i jednorazowe ocenienie na nich obecnego agenta. Już to pokaże, gdzie zmyśla, gdzie jest wolny i ile kosztuje. Resztę — automatyzację, model-sędziego, regularne przeglądy — dokładasz dopiero wtedy, gdy ten zbiór zacznie zwracać konkretne liczby. Dowód buduje się przyrostowo, ale zaczyna się od jednej stałej listy przypadków.

Pojęcia w tym przewodniku

Powiązane artykuły

Projektujesz architekturę albo ład nad agentami? Opisz swój przypadek.

Opisz swój przypadek Zobacz, jak pomagamy

Najczęstsze pytania

Ile przypadków potrzebuję na start?: Zacznij od 30–50 realnych zapytań z produkcji lub od użytkowników, w tym trudne i nietypowe. Lepszy mały zbiór z prawdziwymi przypadkami niż setki wymyślonych.
Czy ewaluacja automatyczna wystarczy?: Do regresji i porównań wersji tak. Ale trafność merytoryczną, ton i sens odpowiedzi nadal najlepiej ocenia człowiek na próbce.
Jak często powtarzać ewaluację?: Przy każdej zmianie promptu, modelu, danych lub konfiguracji. To jedyny sposób, żeby zauważyć regresję, zanim zobaczy ją użytkownik.