Co to jest Destylacja modelu (knowledge distillation)?

Słownik AI

Destylacja modelu (knowledge distillation)

knowledge distillation, destylacja wiedzy, distillation

Destylacja modelu to technika trenowania mniejszego modelu („ucznia”) tak, by naśladował większy model („nauczyciela”). Daje model mniejszy i tańszy w działaniu, zachowujący część jakości oryginału.

Mniejszy model „uczeń” uczy się odtwarzać odpowiedzi większego modelu „nauczyciela”.
Celem jest model lżejszy i tańszy w inferencji, kosztem części jakości oryginału.
To inny mechanizm niż kwantyzacja, która zmniejsza precyzję wag już istniejącego modelu.

Destylacja modelu (knowledge distillation) to technika, w której mniejszy model, nazywany „uczniem”, jest trenowany tak, aby naśladować zachowanie większego, mocniejszego modelu pełniącego rolę „nauczyciela”. Zamiast uczyć się wyłącznie z surowych danych, uczeń odtwarza odpowiedzi i rozkłady prawdopodobieństwa generowane przez nauczyciela, przejmując część jego wiedzy w znacznie mniejszej formie.

Efektem jest model lżejszy, szybszy i tańszy w inferencji, który zachowuje sporą część jakości oryginału, choć zwykle nie całą. To częsta droga do uzyskania małego modelu językowego o praktycznej skuteczności — uczeń przejmuje kompetencje dużego modelu w wąskim zakresie zadań, na które ma działać.

Destylację warto odróżnić od pokrewnych technik optymalizacji. Kwantyzacja zmniejsza wymagania sprzętowe przez obniżenie precyzji wag już istniejącego modelu, nie zmieniając jego rozmiaru w sensie liczby parametrów, a fine-tuning dostraja gotowy model do konkretnego zadania. Destylacja natomiast trenuje osobny, mniejszy model tak, by naśladował większego — najczęściej startując z gotowego, wstępnie wytrenowanego modelu, a nie od zera — i korzysta z nauczyciela jako źródła wiedzy. We wdrożeniu firmowym techniki te bywają łączone, by maksymalnie zmniejszyć koszt i zwiększyć szybkość działania.

Powiązane pojęcia