Co to jest Mechanizm uwagi (attention)?

Słownik AI

Mechanizm uwagi (attention)

attention, self-attention, uwaga

Mechanizm uwagi pozwala modelowi ważyć, które tokeny wejścia są istotne przy generowaniu każdego elementu wyjścia. Jest rdzeniem architektury transformer i podstawą dzisiejszych modeli językowych.

Dla każdego tokena oblicza wagi określające, jak mocno wiąże się on z pozostałymi.
Stanowi rdzeń architektury transformer i odpowiada za rozumienie kontekstu.
Koszt obliczeń rośnie z kwadratem długości sekwencji, co ogranicza okno kontekstowe.

Mechanizm uwagi (attention) to operacja, dzięki której model na każdym kroku ocenia, które fragmenty wejścia są najważniejsze dla bieżącej decyzji. Dla każdego tokena model wylicza wagi wskazujące, jak silnie wiąże się on z pozostałymi tokenami w sekwencji, i na tej podstawie buduje kontekstową reprezentację. To właśnie pozwala odróżnić znaczenie tego samego słowa w różnych zdaniach.

Mechanizm uwagi jest sercem architektury transformer — to on zastąpił wcześniejsze, sekwencyjne podejścia i umożliwił równoległe przetwarzanie całej sekwencji naraz. W wariancie self-attention model porównuje każdy token z każdym innym, co daje mu pełny obraz zależności, także tych na dużą odległość.

Praktyczną konsekwencją jest koszt: liczba porównań rośnie z kwadratem długości tekstu, dlatego rozmiar okna kontekstowego jest ograniczony i kosztowny do powiększania. Większość badań nad efektywnością współczesnych modeli to próby przyspieszenia lub przybliżenia właśnie mechanizmu uwagi, bo to on w największym stopniu decyduje o tym, ile tekstu model może realnie objąć naraz.

Powiązane pojęcia