Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Tokenizacja (tokenization)

tokenization, dzielenie na tokeny

Tokenizacja to proces dzielenia tekstu na tokeny — krótkie fragmenty, które model językowy potrafi przetworzyć. To krok wstępny, zamieniający surowy tekst na ciąg jednostek wejściowych modelu.

Tokenizacja (tokenization) to proces dzielenia tekstu na tokeny — krótkie fragmenty, takie jak kawałki słów, całe wyrazy lub pojedyncze znaki — którym przypisuje się numery zrozumiałe dla modelu. Jest to krok wstępny: zanim duży model językowy cokolwiek przetworzy, tokenizer zamienia surowy ciąg znaków na ciąg jednostek wejściowych.

Kluczowe jest tu rozróżnienie między procesem a jednostką. Tokenizacja to czynność dzielenia tekstu, natomiast token to pojedynczy element będący jej wynikiem. Innymi słowy, tokenizacja produkuje tokeny — podobnie jak krojenie produkuje plasterki. Reguły tej operacji ustala wytrenowany tokenizer modelu, dlatego ten sam tekst może rozpaść się na różną liczbę tokenów w zależności od modelu i języka.

Sposób tokenizacji ma praktyczne konsekwencje. To w tokenach mierzone jest okno kontekstowe oraz koszt zapytania, więc tekst, który tokenizuje się na więcej fragmentów — częste w polskim z jego odmianą wyrazów — zajmuje więcej miejsca i kosztuje więcej. Po tokenizacji ciąg tokenów trafia do architektury transformera, która dopiero na tej reprezentacji wykonuje właściwe przetwarzanie języka.

Powiązane pojęcia