Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

Kwantyzacja (quantization)

quantization, kwantyzacja modelu

Kwantyzacja to obniżenie precyzji liczbowej wag modelu (np. z 16 do 8 lub 4 bitów), aby zmniejszyć jego rozmiar i przyspieszyć inferencję. Odbywa się to kosztem niewielkiego spadku jakości.

Kwantyzacja to technika kompresji modelu polegająca na zapisaniu jego parametrów z mniejszą precyzją liczbową — na przykład zamiast 16 bitów na wagę używa się 8 lub 4 bitów. Ponieważ rozmiar modelu i koszt obliczeń zależą wprost od liczby i precyzji wag, taka redukcja istotnie zmniejsza zużycie pamięci oraz przyspiesza inferencję, nie zmieniając samej architektury.

W odróżnieniu od fine-tuningu, który zmienia to, co model wie, kwantyzacja zmienia jedynie sposób zapisu już nauczonych wag. Efektem jest niewielki spadek jakości — przy umiarkowanej kwantyzacji często niezauważalny, a przy bardzo agresywnej (np. do 2–3 bitów) zwykle bardziej wyraźny. Dostępne są też metody, które ograniczają tę stratę, dobierając precyzję różnie dla różnych warstw.

Z punktu widzenia wdrożenia kwantyzacja jest tym, co często przesądza o uruchomieniu modelu lokalnie lub na własnej infrastrukturze. Pozwala zmieścić duży model językowy na pojedynczej karcie graficznej albo sprawić, że mały model językowy działa na zwykłym serwerze czy laptopie. To kluczowy element strategii, gdy w grę wchodzi prywatność danych i niezależność od zewnętrznego API.

Powiązane pojęcia