Słownik AI
Multimodalność
model multimodalny, multimodality
Multimodalność to zdolność modelu do przetwarzania i łączenia różnych typów danych — tekstu, obrazów, dźwięku czy wideo — w obrębie jednego zapytania, zamiast pracy wyłącznie na tekście.
- Łączy w jednym modelu różne formaty: tekst, obraz, dźwięk, wideo.
- Pozwala pytać o obraz słowami lub opisywać dźwięk tekstem.
- Różne typy danych są sprowadzane do wspólnej reprezentacji liczbowej.
Multimodalność opisuje modele, które przyjmują więcej niż jeden rodzaj danych. Taki model może na przykład dostać zdjęcie i pytanie tekstowe, a w odpowiedzi opisać, co widać na obrazie. Pod spodem każdy typ danych jest zamieniany na wspólną reprezentację liczbową, zbliżoną w roli do embeddingów.
Dzięki temu jeden duży model językowy może łączyć informacje z tekstu, obrazu i dźwięku, zamiast wymagać osobnych narzędzi do każdego formatu. W praktyce upraszcza to zadania takie jak analiza dokumentów ze skanami, opis zdjęć czy obsługa zapytań głosowych.
Powiązane pojęcia
Powiązane artykuły