Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Przewodnik

Decyzje i porównania

Jak ocenić, czy agent AI działa: ewaluacja zamiast wrażenia

Ocena agenta „na wyczucie” myli udane demo z działającym systemem. Stały zbiór przypadków i metryki dają dowód zamiast wrażenia.

Dlaczego „wow demo” to nie dowód

Udane demo pokazuje, że agent potrafi dobrze odpowiedzieć — raz, na wybrane pytanie, w sprzyjających warunkach. To nie to samo, co działa: powtarzalnie, na pełnym przekroju pytań, których naprawdę użyją ludzie.

Demo selekcjonuje przypadki, w których model wypada dobrze. Produkcja tego nie robi. Po wdrożeniu pojawiają się pytania nietypowe, źle sformułowane, na granicy wiedzy agenta — i to one decydują o tym, czy system jest użyteczny. Ocena „na wyczucie” po kilku ładnych odpowiedziach jest więc systematycznie zbyt optymistyczna.

Zasada jest prosta: dowód, nie wrażenie. Dowodem nie jest jedna dobra odpowiedź, lecz wynik na stałym, powtarzalnym zbiorze przypadków.

Jak zbudować zbiór ewaluacyjny

Punkt wyjścia każdej rzetelnej oceny to zbiór ewaluacyjny: zestaw realnych zapytań wraz z oczekiwanym wynikiem albo kryterium poprawności. Dobry zbiór ma trzy cechy.

Na start wystarczy 30–50 przypadków, jeśli są dobrze dobrane. Część z nich możesz wykorzystać jako przykłady few-shot w samym prompcie, ale wtedy wyłącz je ze zbioru testowego — model widział te przykłady w promptcie, więc wynik na nich zawyża ocenę. Inaczej mierzysz dopasowanie do znanych przypadków, nie zdolność uogólniania.

Co mierzyć: cztery wymiary

Pojedyncza liczba zawsze kłamie. Agent może być bardzo trafny i jednocześnie tak wolny lub drogi, że nie nadaje się do użycia. Dlatego ewaluacja patrzy na cztery wymiary naraz.

MetrykaCo mierzyJak
TrafnośćCzy odpowiedź jest poprawna i kompletnaPorównanie z oczekiwanym wynikiem; ocena ludzka lub model-sędzia
HalucynacjeJak często agent zmyśla fakty lub źródłaSprawdzenie, czy każde twierdzenie ma oparcie w danych
KosztIle kosztuje jedna odpowiedźLiczba tokenów lub wywołań na zapytanie razy cennik
OpóźnienieJak długo użytkownik czekaCzas od zapytania do pełnej odpowiedzi (mediana i ogon p95)

Osobno warto śledzić halucynacje, bo to one najszybciej niszczą zaufanie do systemu. Jedna pewnie brzmiąca, zmyślona odpowiedź kosztuje więcej niż dziesięć szczerych „nie wiem”. W zbiorze ewaluacyjnym dobrze mieć więc pytania, na które poprawną odpowiedzią jest właśnie odmowa.

Rola człowieka w pętli

Nie wszystko da się sprawdzić skryptem. Ton, sens, takt, trafność merytoryczna w niuansach — to ocenia człowiek. Human-in-the-loop to nie awaryjny ratunek, lecz stały element oceny: na każdej wersji ktoś przegląda próbkę odpowiedzi i wystawia werdykt według tych samych kryteriów.

Żeby ta ocena była dowodem, a nie opinią, musi być ustandaryzowana:

  1. Ten sam zestaw kryteriów dla każdej odpowiedzi (np. trafność 0–2, halucynacja tak/nie).
  2. Ci sami oceniający lub jasna instrukcja, gdy oceniających jest wielu.
  3. Zapis wyników, żeby dało się je porównać między wersjami.

Człowiek w pętli pełni też drugą rolę — w produkcji zatwierdza działania o wysokiej stawce, zanim agent je wykona. To inna decyzja projektowa niż ewaluacja, ale oparta na tej samej zasadzie: tam, gdzie błąd jest kosztowny, potrzebny jest punkt kontroli.

Kiedy automat, a kiedy człowiek

Obie ścieżki są potrzebne, bo odpowiadają na różne pytania.

Praktyczny układ: automat na każdej wersji, człowiek na reprezentatywnej próbce przy większych zmianach i przed każdym wdrożeniem na produkcję. Coraz częściej w roli automatu występuje model-sędzia — drugi model oceniający odpowiedzi według instrukcji. To skaluje ocenę, ale sam sędzia też wymaga kalibracji na ludzkich werdyktach, inaczej przenosi własne błędy.

Zasada operatora: jeśli nie potrafisz porównać dwóch wersji agenta liczbą z tego samego zbioru, to jeszcze nie wiesz, czy nowa wersja jest lepsza — masz tylko wrażenie.

Od czego zacząć

Najtańszy pierwszy krok to nie nowe narzędzie, lecz zamrożenie 30–50 realnych pytań i jednorazowe ocenienie na nich obecnego agenta. Już to pokaże, gdzie zmyśla, gdzie jest wolny i ile kosztuje. Resztę — automatyzację, model-sędziego, regularne przeglądy — dokładasz dopiero wtedy, gdy ten zbiór zacznie zwracać konkretne liczby. Dowód buduje się przyrostowo, ale zaczyna się od jednej stałej listy przypadków.

Pojęcia w tym przewodniku

Powiązane artykuły

Projektujesz architekturę albo ład nad agentami? Opisz swój przypadek.

Opisz swój przypadek Zobacz, jak pomagamy

Najczęstsze pytania

Ile przypadków potrzebuję na start?
Zacznij od 30–50 realnych zapytań z produkcji lub od użytkowników, w tym trudne i nietypowe. Lepszy mały zbiór z prawdziwymi przypadkami niż setki wymyślonych.
Czy ewaluacja automatyczna wystarczy?
Do regresji i porównań wersji tak. Ale trafność merytoryczną, ton i sens odpowiedzi nadal najlepiej ocenia człowiek na próbce.
Jak często powtarzać ewaluację?
Przy każdej zmianie promptu, modelu, danych lub konfiguracji. To jedyny sposób, żeby zauważyć regresję, zanim zobaczy ją użytkownik.