Słownik AI
Etykietowanie danych (data labeling)
etykietowanie danych, data labeling, anotacja danych, adnotacja danych
Etykietowanie danych to nadawanie surowym danym etykiet lub adnotacji opisujących prawidłową odpowiedź, dzięki którym mogą one uczyć lub oceniać model. To podstawa uczenia nadzorowanego i wiarygodnej ewaluacji.
- Polega na dodaniu do danych etykiet opisujących prawidłowy wynik — kategorię, sentyment, zaznaczony obiekt czy poprawną odpowiedź.
- Bez etykiet dane są tylko zbiorem przykładów; etykieta mówi modelowi, czego ma się z nich nauczyć lub względem czego się go sprawdza.
- Jakość i spójność etykiet wprost ogranicza jakość wytrenowanego modelu — błędne etykiety uczą błędnych odpowiedzi.
Etykietowanie danych to proces opisywania surowych przykładów informacją o tym, jaki jest dla nich prawidłowy wynik. Może to być przypisanie kategorii do tekstu, oznaczenie sentymentu opinii, zaznaczenie obiektu na obrazie albo wskazanie wzorcowej odpowiedzi na pytanie. Tak opisany zbiór staje się danymi treningowymi dla uczenia nadzorowanego — model uczy się odwzorowywać wejście na etykietę, którą nadał człowiek lub inny zaufany proces.
Różnica wobec samych danych treningowych jest istotna: dane treningowe to cały materiał, na którym model się uczy, a etykietowanie to konkretna czynność dołożenia do nich poprawnych odpowiedzi. Etykiety wykorzystuje się także poza treningiem — w ewaluacji modeli, gdzie odpowiedzi modelu porównuje się z oznaczonym wcześniej zbiorem wzorcowym, oraz przy fine-tuningu, gdy gotowy model dostraja się na mniejszym, starannie oznaczonym zbiorze pod konkretne zadanie.
Etykietowanie bywa kosztowne i pracochłonne, bo zwykle wymaga ludzi i jasnych instrukcji, a niespójne lub błędne etykiety przenoszą się wprost na błędy modelu. Dlatego w firmach pilnuje się powtarzalności oceny między anotatorami i kontroli jakości. Częściowym uzupełnieniem bywają dane syntetyczne, które generuje się automatycznie, ale tam, gdzie liczy się wierność rzeczywistości, ręczne lub weryfikowane przez człowieka etykietowanie pozostaje punktem odniesienia.
Powiązane pojęcia