Słownik AI
Destylacja modelu (knowledge distillation)
knowledge distillation, destylacja wiedzy, distillation
Destylacja modelu to technika trenowania mniejszego modelu („ucznia”) tak, by naśladował większy model („nauczyciela”). Daje model mniejszy i tańszy w działaniu, zachowujący część jakości oryginału.
- Mniejszy model „uczeń” uczy się odtwarzać odpowiedzi większego modelu „nauczyciela”.
- Celem jest model lżejszy i tańszy w inferencji, kosztem części jakości oryginału.
- To inny mechanizm niż kwantyzacja, która zmniejsza precyzję wag już istniejącego modelu.
Destylacja modelu (knowledge distillation) to technika, w której mniejszy model, nazywany „uczniem”, jest trenowany tak, aby naśladować zachowanie większego, mocniejszego modelu pełniącego rolę „nauczyciela”. Zamiast uczyć się wyłącznie z surowych danych, uczeń odtwarza odpowiedzi i rozkłady prawdopodobieństwa generowane przez nauczyciela, przejmując część jego wiedzy w znacznie mniejszej formie.
Efektem jest model lżejszy, szybszy i tańszy w inferencji, który zachowuje sporą część jakości oryginału, choć zwykle nie całą. To częsta droga do uzyskania małego modelu językowego o praktycznej skuteczności — uczeń przejmuje kompetencje dużego modelu w wąskim zakresie zadań, na które ma działać.
Destylację warto odróżnić od pokrewnych technik optymalizacji. Kwantyzacja zmniejsza wymagania sprzętowe przez obniżenie precyzji wag już istniejącego modelu, nie zmieniając jego rozmiaru w sensie liczby parametrów, a fine-tuning dostraja gotowy model do konkretnego zadania. Destylacja natomiast trenuje osobny, mniejszy model tak, by naśladował większego — najczęściej startując z gotowego, wstępnie wytrenowanego modelu, a nie od zera — i korzysta z nauczyciela jako źródła wiedzy. We wdrożeniu firmowym techniki te bywają łączone, by maksymalnie zmniejszyć koszt i zwiększyć szybkość działania.
Powiązane pojęcia