Słownik AI
Model dyfuzyjny (diffusion model)
diffusion model, model dyfuzji
Model dyfuzyjny generuje obrazy lub wideo, ucząc się stopniowo usuwać szum z losowych danych aż do powstania spójnego wyniku. To architektura stojąca dziś za większością generatorów grafiki.
- Tworzy obraz przez iteracyjne usuwanie szumu z losowego punktu startowego.
- Trenowany jest na parach: zaszumiony obraz i przewidywany poziom szumu do usunięcia.
- Stanowi podstawę większości współczesnych generatorów obrazu i wideo.
Model dyfuzyjny to typ modelu generatywnej AI, który powstaje przez nauczenie sieci neuronowej odwracania procesu zaszumiania. Podczas treningu do obrazów stopniowo dodaje się losowy szum, a model uczy się ten proces cofać. Przy generowaniu model startuje od czystego szumu i krok po kroku go usuwa, aż wyłoni się obraz odpowiadający opisowi.
W odróżnieniu od modeli językowych, które przewidują kolejne tokeny tekstu, model dyfuzyjny operuje na danych wizualnych i działa iteracyjnie — typowa generacja to od kilku do kilkudziesięciu kroków odszumiania. Często łączy się go z modelem rozumiejącym tekst, co daje system multimodalny: opis słowny steruje tym, co powstaje na obrazie.
Z punktu widzenia wdrożenia model dyfuzyjny jest dziś standardem przy generowaniu grafiki marketingowej, wizualizacji produktów czy materiałów wideo. Ma jednak ograniczenia: iteracyjny charakter sprawia, że generacja bywa kosztowna obliczeniowo, a kontrola nad szczegółami (tekst na obrazie, dokładna kompozycja) wymaga starannego promptowania i bywa zawodna.
Powiązane pojęcia