Co to jest Tokenizacja (tokenization)?

Słownik AI

Tokenizacja (tokenization)

tokenization, dzielenie na tokeny

Tokenizacja to proces dzielenia tekstu na tokeny — krótkie fragmenty, które model językowy potrafi przetworzyć. To krok wstępny, zamieniający surowy tekst na ciąg jednostek wejściowych modelu.

To proces dzielenia tekstu na tokeny, wykonywany zanim tekst trafi do modelu.
Tokenizacja jest procesem, a token jednostką, czyli jego wynikiem.
Sposób tokenizacji wpływa na to, ile tokenów zajmuje tekst, a więc na koszt i limit kontekstu.

Tokenizacja (tokenization) to proces dzielenia tekstu na tokeny — krótkie fragmenty, takie jak kawałki słów, całe wyrazy lub pojedyncze znaki — którym przypisuje się numery zrozumiałe dla modelu. Jest to krok wstępny: zanim duży model językowy cokolwiek przetworzy, tokenizer zamienia surowy ciąg znaków na ciąg jednostek wejściowych.

Kluczowe jest tu rozróżnienie między procesem a jednostką. Tokenizacja to czynność dzielenia tekstu, natomiast token to pojedynczy element będący jej wynikiem. Innymi słowy, tokenizacja produkuje tokeny — podobnie jak krojenie produkuje plasterki. Reguły tej operacji ustala wytrenowany tokenizer modelu, dlatego ten sam tekst może rozpaść się na różną liczbę tokenów w zależności od modelu i języka.

Sposób tokenizacji ma praktyczne konsekwencje. To w tokenach mierzone jest okno kontekstowe oraz koszt zapytania, więc tekst, który tokenizuje się na więcej fragmentów — częste w polskim z jego odmianą wyrazów — zajmuje więcej miejsca i kosztuje więcej. Po tokenizacji ciąg tokenów trafia do architektury transformera, która dopiero na tej reprezentacji wykonuje właściwe przetwarzanie języka.

Powiązane pojęcia