Co to jest Multimodalność?

Słownik AI

Multimodalność

model multimodalny, multimodality

Multimodalność to zdolność modelu do przetwarzania i łączenia różnych typów danych — tekstu, obrazów, dźwięku czy wideo — w obrębie jednego zapytania, zamiast pracy wyłącznie na tekście.

Łączy w jednym modelu różne formaty: tekst, obraz, dźwięk, wideo.
Pozwala pytać o obraz słowami lub opisywać dźwięk tekstem.
Różne typy danych są sprowadzane do wspólnej reprezentacji liczbowej.

Multimodalność opisuje modele, które przyjmują więcej niż jeden rodzaj danych. Taki model może na przykład dostać zdjęcie i pytanie tekstowe, a w odpowiedzi opisać, co widać na obrazie. Pod spodem każdy typ danych jest zamieniany na wspólną reprezentację liczbową, zbliżoną w roli do embeddingów.

Dzięki temu jeden duży model językowy może łączyć informacje z tekstu, obrazu i dźwięku, zamiast wymagać osobnych narzędzi do każdego formatu. W praktyce upraszcza to zadania takie jak analiza dokumentów ze skanami, opis zdjęć czy obsługa zapytań głosowych.

Powiązane pojęcia

Powiązane artykuły