Co to jest Mieszanka ekspertów (Mixture of Experts, MoE)?

Słownik AI

Mieszanka ekspertów (Mixture of Experts, MoE)

Mixture of Experts, MoE, model z ekspertami

Mieszanka ekspertów to architektura, w której każdy token trafia tylko do wybranego podzbioru wyspecjalizowanych podsieci (ekspertów). Pozwala zwiększyć liczbę parametrów modelu przy niższym koszcie obliczeń na token.

Router kieruje każdy token tylko do kilku wyspecjalizowanych ekspertów, nie do całej sieci.
Model ma dużo parametrów łącznie, ale aktywuje tylko ich część przy jednym tokenie.
Daje wyższą pojemność modelu przy niższym koszcie inferencji niż model gęsty o tej samej wielkości.

Mieszanka ekspertów (Mixture of Experts, MoE) to wariant architektury transformer, w którym zamiast jednej wielkiej sieci stosuje się wiele mniejszych, wyspecjalizowanych podsieci zwanych ekspertami. Lekki komponent zwany routerem decyduje, do których ekspertów skierować dany token — zwykle aktywowanych jest tylko kilku z wielu dostępnych. Resztę pomija się, co odróżnia ten model od klasycznego, gęstego, gdzie każdy token przechodzi przez całą sieć.

Kluczowa zaleta wynika z rozdzielenia dwóch liczb. Łączna liczba parametrów modelu MoE może być bardzo duża, ale przy jednym tokenie aktywuje się tylko ułamek z nich. Dzięki temu model zyskuje pojemność dużego modelu, a koszt i czas inferencji pozostają bliższe modelowi znacznie mniejszemu. To jedna z głównych przyczyn, dla których wiele czołowych modeli z lat 2024–2026 ma architekturę MoE.

Z perspektywy wdrożenia warto rozumieć kompromisy. MoE obniża koszt na token, ale wymaga utrzymania w pamięci wszystkich ekspertów, więc zapotrzebowanie na pamięć GPU bywa wysokie. Jakość zależy też od trafności routera — źle dobrana specjalizacja ekspertów obniża wyniki. Dla większości firm te decyzje są niewidoczne, bo z modeli korzysta się przez API, ale wpływają na cenę i dostępność konkretnego modelu.

Powiązane pojęcia