Co to jest Model dyfuzyjny (diffusion model)?

Słownik AI

Model dyfuzyjny (diffusion model)

diffusion model, model dyfuzji

Model dyfuzyjny generuje obrazy lub wideo, ucząc się stopniowo usuwać szum z losowych danych aż do powstania spójnego wyniku. To architektura stojąca dziś za większością generatorów grafiki.

Tworzy obraz przez iteracyjne usuwanie szumu z losowego punktu startowego.
Trenowany jest na parach: zaszumiony obraz i przewidywany poziom szumu do usunięcia.
Stanowi podstawę większości współczesnych generatorów obrazu i wideo.

Model dyfuzyjny to typ modelu generatywnej AI, który powstaje przez nauczenie sieci neuronowej odwracania procesu zaszumiania. Podczas treningu do obrazów stopniowo dodaje się losowy szum, a model uczy się ten proces cofać. Przy generowaniu model startuje od czystego szumu i krok po kroku go usuwa, aż wyłoni się obraz odpowiadający opisowi.

W odróżnieniu od modeli językowych, które przewidują kolejne tokeny tekstu, model dyfuzyjny operuje na danych wizualnych i działa iteracyjnie — typowa generacja to od kilku do kilkudziesięciu kroków odszumiania. Często łączy się go z modelem rozumiejącym tekst, co daje system multimodalny: opis słowny steruje tym, co powstaje na obrazie.

Z punktu widzenia wdrożenia model dyfuzyjny jest dziś standardem przy generowaniu grafiki marketingowej, wizualizacji produktów czy materiałów wideo. Ma jednak ograniczenia: iteracyjny charakter sprawia, że generacja bywa kosztowna obliczeniowo, a kontrola nad szczegółami (tekst na obrazie, dokładna kompozycja) wymaga starannego promptowania i bywa zawodna.

Powiązane pojęcia