Słownik AI
Mieszanka ekspertów (Mixture of Experts, MoE)
Mixture of Experts, MoE, model z ekspertami
Mieszanka ekspertów to architektura, w której każdy token trafia tylko do wybranego podzbioru wyspecjalizowanych podsieci (ekspertów). Pozwala zwiększyć liczbę parametrów modelu przy niższym koszcie obliczeń na token.
- Router kieruje każdy token tylko do kilku wyspecjalizowanych ekspertów, nie do całej sieci.
- Model ma dużo parametrów łącznie, ale aktywuje tylko ich część przy jednym tokenie.
- Daje wyższą pojemność modelu przy niższym koszcie inferencji niż model gęsty o tej samej wielkości.
Mieszanka ekspertów (Mixture of Experts, MoE) to wariant architektury transformer, w którym zamiast jednej wielkiej sieci stosuje się wiele mniejszych, wyspecjalizowanych podsieci zwanych ekspertami. Lekki komponent zwany routerem decyduje, do których ekspertów skierować dany token — zwykle aktywowanych jest tylko kilku z wielu dostępnych. Resztę pomija się, co odróżnia ten model od klasycznego, gęstego, gdzie każdy token przechodzi przez całą sieć.
Kluczowa zaleta wynika z rozdzielenia dwóch liczb. Łączna liczba parametrów modelu MoE może być bardzo duża, ale przy jednym tokenie aktywuje się tylko ułamek z nich. Dzięki temu model zyskuje pojemność dużego modelu, a koszt i czas inferencji pozostają bliższe modelowi znacznie mniejszemu. To jedna z głównych przyczyn, dla których wiele czołowych modeli z lat 2024–2026 ma architekturę MoE.
Z perspektywy wdrożenia warto rozumieć kompromisy. MoE obniża koszt na token, ale wymaga utrzymania w pamięci wszystkich ekspertów, więc zapotrzebowanie na pamięć GPU bywa wysokie. Jakość zależy też od trafności routera — źle dobrana specjalizacja ekspertów obniża wyniki. Dla większości firm te decyzje są niewidoczne, bo z modeli korzysta się przez API, ale wpływają na cenę i dostępność konkretnego modelu.
Powiązane pojęcia