Słownik AI
Transformer
architektura transformer, model transformer
Transformer to architektura sieci neuronowej oparta na mechanizmie uwagi (attention), która pozwala modelowi ważyć powiązania między wszystkimi tokenami w sekwencji. Jest podstawą dzisiejszych dużych modeli językowych.
- Wprowadzony w 2017 roku w pracy „Attention Is All You Need”.
- Mechanizm uwagi waży zależności między wszystkimi tokenami naraz.
- Stanowi bazę dla LLM oraz wielu modeli multimodalnych.
Transformer to typ sieci neuronowej opisany w 2017 roku. Jego kluczowym elementem jest mechanizm uwagi (attention), który pozwala modelowi sprawdzić, jak bardzo każdy token wiąże się z pozostałymi w tej samej sekwencji. Dzięki temu model lepiej radzi sobie z kontekstem i zależnościami na odległość.
W odróżnieniu od starszych architektur transformer przetwarza sekwencję równolegle, co dobrze wykorzystuje współczesny sprzęt i ułatwia trenowanie bardzo dużych modeli. To właśnie ta cecha sprawiła, że stał się fundamentem dzisiejszych dużych modeli językowych.
Powiązane pojęcia
Powiązane artykuły