Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Etykietowanie danych (data labeling)

etykietowanie danych, data labeling, anotacja danych, adnotacja danych

Etykietowanie danych to nadawanie surowym danym etykiet lub adnotacji opisujących prawidłową odpowiedź, dzięki którym mogą one uczyć lub oceniać model. To podstawa uczenia nadzorowanego i wiarygodnej ewaluacji.

Etykietowanie danych to proces opisywania surowych przykładów informacją o tym, jaki jest dla nich prawidłowy wynik. Może to być przypisanie kategorii do tekstu, oznaczenie sentymentu opinii, zaznaczenie obiektu na obrazie albo wskazanie wzorcowej odpowiedzi na pytanie. Tak opisany zbiór staje się danymi treningowymi dla uczenia nadzorowanego — model uczy się odwzorowywać wejście na etykietę, którą nadał człowiek lub inny zaufany proces.

Różnica wobec samych danych treningowych jest istotna: dane treningowe to cały materiał, na którym model się uczy, a etykietowanie to konkretna czynność dołożenia do nich poprawnych odpowiedzi. Etykiety wykorzystuje się także poza treningiem — w ewaluacji modeli, gdzie odpowiedzi modelu porównuje się z oznaczonym wcześniej zbiorem wzorcowym, oraz przy fine-tuningu, gdy gotowy model dostraja się na mniejszym, starannie oznaczonym zbiorze pod konkretne zadanie.

Etykietowanie bywa kosztowne i pracochłonne, bo zwykle wymaga ludzi i jasnych instrukcji, a niespójne lub błędne etykiety przenoszą się wprost na błędy modelu. Dlatego w firmach pilnuje się powtarzalności oceny między anotatorami i kontroli jakości. Częściowym uzupełnieniem bywają dane syntetyczne, które generuje się automatycznie, ale tam, gdzie liczy się wierność rzeczywistości, ręczne lub weryfikowane przez człowieka etykietowanie pozostaje punktem odniesienia.

Powiązane pojęcia