Słownik AI
Tokenizacja (tokenization)
tokenization, dzielenie na tokeny
Tokenizacja to proces dzielenia tekstu na tokeny — krótkie fragmenty, które model językowy potrafi przetworzyć. To krok wstępny, zamieniający surowy tekst na ciąg jednostek wejściowych modelu.
- To proces dzielenia tekstu na tokeny, wykonywany zanim tekst trafi do modelu.
- Tokenizacja jest procesem, a token jednostką, czyli jego wynikiem.
- Sposób tokenizacji wpływa na to, ile tokenów zajmuje tekst, a więc na koszt i limit kontekstu.
Tokenizacja (tokenization) to proces dzielenia tekstu na tokeny — krótkie fragmenty, takie jak kawałki słów, całe wyrazy lub pojedyncze znaki — którym przypisuje się numery zrozumiałe dla modelu. Jest to krok wstępny: zanim duży model językowy cokolwiek przetworzy, tokenizer zamienia surowy ciąg znaków na ciąg jednostek wejściowych.
Kluczowe jest tu rozróżnienie między procesem a jednostką. Tokenizacja to czynność dzielenia tekstu, natomiast token to pojedynczy element będący jej wynikiem. Innymi słowy, tokenizacja produkuje tokeny — podobnie jak krojenie produkuje plasterki. Reguły tej operacji ustala wytrenowany tokenizer modelu, dlatego ten sam tekst może rozpaść się na różną liczbę tokenów w zależności od modelu i języka.
Sposób tokenizacji ma praktyczne konsekwencje. To w tokenach mierzone jest okno kontekstowe oraz koszt zapytania, więc tekst, który tokenizuje się na więcej fragmentów — częste w polskim z jego odmianą wyrazów — zajmuje więcej miejsca i kosztuje więcej. Po tokenizacji ciąg tokenów trafia do architektury transformera, która dopiero na tej reprezentacji wykonuje właściwe przetwarzanie języka.
Powiązane pojęcia