Słownik AI
RLHF
Reinforcement Learning from Human Feedback, uczenie ze wzmocnieniem na podstawie informacji zwrotnej
RLHF to metoda dostrajania modelu, w której ludzie oceniają jego odpowiedzi, a model uczy się preferować te wyżej ocenione. Dzięki temu staje się bardziej pomocny i zgodny z oczekiwaniami użytkowników.
- Wykorzystuje ludzkie oceny odpowiedzi do dostrojenia modelu.
- Etap następujący po wstępnym treningu na dużych zbiorach tekstu.
- Poprawia użyteczność i bezpieczeństwo, ale nie usuwa halucynacji.
RLHF to etap dostrajania, który następuje po wstępnym treningu dużego modelu językowego. Ludzie oceniają lub porównują odpowiedzi modelu, a na podstawie tych ocen powstaje model nagrody. Następnie model języka jest dostrajany tak, by częściej generować odpowiedzi, które ludzie oceniliby wysoko.
Celem jest dopasowanie zachowania modelu do oczekiwań użytkowników: jaśniejsze, bezpieczniejsze i bardziej pomocne odpowiedzi. RLHF nie usuwa jednak halucynacji ani nie służy do dodawania nowej wiedzy faktograficznej — opiera się na ocenie człowieka (human-in-the-loop) zebranej wcześniej i nałożonej na wyuczone już wzorce.
Powiązane pojęcia