Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Dane syntetyczne (synthetic data)

synthetic data, dane syntetyczne, dane sztuczne

Dane syntetyczne to sztucznie wygenerowane przykłady, używane do trenowania lub oceny modeli, gdy realnych danych brakuje albo są wrażliwe. Wymagają kontroli jakości, bo mogą powielać i wzmacniać błędy źródła.

Dane syntetyczne to przykłady wytworzone sztucznie zamiast zebrane z rzeczywistych zdarzeń. Powstają na różne sposoby — przez reguły i symulacje, przez przekształcanie istniejących rekordów albo przez generowanie nowych przykładów innym modelem. Łączy je to, że nie pochodzą bezpośrednio od realnych użytkowników ani z realnych pomiarów.

Najczęściej sięga się po nie z dwóch powodów. Po pierwsze, gdy danych treningowych zwyczajnie brakuje — na przykład rzadkich przypadków, których w prawdziwym zbiorze jest zbyt mało, by model się ich nauczył. Po drugie, gdy dane realne są wrażliwe: dane syntetyczne pozwalają budować i testować rozwiązania bez ujawniania danych osobowych, co bezpośrednio dotyka kwestii prywatności danych w AI. Bywają też używane do dostrajania modelu pod konkretne, wąskie zadanie.

Główne ryzyko jest takie, że dane syntetyczne dziedziczą wady swojego źródła. Jeśli generuje je model, który sam ma luki lub stronniczość, syntetyczny zbiór może te wady powielić, a nawet wzmocnić. Dlatego we wdrożeniu traktuje się je jako uzupełnienie, a nie zamiennik realnych danych, i weryfikuje, czy odpowiadają faktycznemu rozkładowi przypadków, na których model ma działać.

Powiązane pojęcia