Co to jest Dane syntetyczne (synthetic data)?

Słownik AI

Dane syntetyczne (synthetic data)

synthetic data, dane syntetyczne, dane sztuczne

Dane syntetyczne to sztucznie wygenerowane przykłady, używane do trenowania lub oceny modeli, gdy realnych danych brakuje albo są wrażliwe. Wymagają kontroli jakości, bo mogą powielać i wzmacniać błędy źródła.

To dane wytworzone sztucznie, nie zebrane z rzeczywistości — od reguł i symulacji po przykłady generowane przez inne modele.
Stosuje się je, gdy realnych danych jest za mało lub są zbyt wrażliwe, by ich użyć wprost.
Ich jakość trzeba weryfikować: mogą powielać i wzmacniać błędy oraz stronniczość danych źródłowych.

Dane syntetyczne to przykłady wytworzone sztucznie zamiast zebrane z rzeczywistych zdarzeń. Powstają na różne sposoby — przez reguły i symulacje, przez przekształcanie istniejących rekordów albo przez generowanie nowych przykładów innym modelem. Łączy je to, że nie pochodzą bezpośrednio od realnych użytkowników ani z realnych pomiarów.

Najczęściej sięga się po nie z dwóch powodów. Po pierwsze, gdy danych treningowych zwyczajnie brakuje — na przykład rzadkich przypadków, których w prawdziwym zbiorze jest zbyt mało, by model się ich nauczył. Po drugie, gdy dane realne są wrażliwe: dane syntetyczne pozwalają budować i testować rozwiązania bez ujawniania danych osobowych, co bezpośrednio dotyka kwestii prywatności danych w AI. Bywają też używane do dostrajania modelu pod konkretne, wąskie zadanie.

Główne ryzyko jest takie, że dane syntetyczne dziedziczą wady swojego źródła. Jeśli generuje je model, który sam ma luki lub stronniczość, syntetyczny zbiór może te wady powielić, a nawet wzmocnić. Dlatego we wdrożeniu traktuje się je jako uzupełnienie, a nie zamiennik realnych danych, i weryfikuje, czy odpowiadają faktycznemu rozkładowi przypadków, na których model ma działać.

Powiązane pojęcia