Co to jest Kwantyzacja (quantization)?

Słownik AI

Kwantyzacja (quantization)

quantization, kwantyzacja modelu

Kwantyzacja to obniżenie precyzji liczbowej wag modelu (np. z 16 do 8 lub 4 bitów), aby zmniejszyć jego rozmiar i przyspieszyć inferencję. Odbywa się to kosztem niewielkiego spadku jakości.

Zmniejsza liczbę bitów na wagę modelu, redukując zużycie pamięci i przyspieszając obliczenia.
Umożliwia uruchamianie dużych modeli na słabszym lub tańszym sprzęcie.
Większa redukcja precyzji oznacza większy, choć zwykle akceptowalny, spadek jakości.

Kwantyzacja to technika kompresji modelu polegająca na zapisaniu jego parametrów z mniejszą precyzją liczbową — na przykład zamiast 16 bitów na wagę używa się 8 lub 4 bitów. Ponieważ rozmiar modelu i koszt obliczeń zależą wprost od liczby i precyzji wag, taka redukcja istotnie zmniejsza zużycie pamięci oraz przyspiesza inferencję, nie zmieniając samej architektury.

W odróżnieniu od fine-tuningu, który zmienia to, co model wie, kwantyzacja zmienia jedynie sposób zapisu już nauczonych wag. Efektem jest niewielki spadek jakości — przy umiarkowanej kwantyzacji często niezauważalny, a przy bardzo agresywnej (np. do 2–3 bitów) zwykle bardziej wyraźny. Dostępne są też metody, które ograniczają tę stratę, dobierając precyzję różnie dla różnych warstw.

Z punktu widzenia wdrożenia kwantyzacja jest tym, co często przesądza o uruchomieniu modelu lokalnie lub na własnej infrastrukturze. Pozwala zmieścić duży model językowy na pojedynczej karcie graficznej albo sprawić, że mały model językowy działa na zwykłym serwerze czy laptopie. To kluczowy element strategii, gdy w grę wchodzi prywatność danych i niezależność od zewnętrznego API.

Powiązane pojęcia