Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Multimodalność

model multimodalny, multimodality

Multimodalność to zdolność modelu do przetwarzania i łączenia różnych typów danych — tekstu, obrazów, dźwięku czy wideo — w obrębie jednego zapytania, zamiast pracy wyłącznie na tekście.

Multimodalność opisuje modele, które przyjmują więcej niż jeden rodzaj danych. Taki model może na przykład dostać zdjęcie i pytanie tekstowe, a w odpowiedzi opisać, co widać na obrazie. Pod spodem każdy typ danych jest zamieniany na wspólną reprezentację liczbową, zbliżoną w roli do embeddingów.

Dzięki temu jeden duży model językowy może łączyć informacje z tekstu, obrazu i dźwięku, zamiast wymagać osobnych narzędzi do każdego formatu. W praktyce upraszcza to zadania takie jak analiza dokumentów ze skanami, opis zdjęć czy obsługa zapytań głosowych.

Powiązane pojęcia

Powiązane artykuły