Słownik AI

RLHF

Reinforcement Learning from Human Feedback, uczenie ze wzmocnieniem na podstawie informacji zwrotnej

RLHF to metoda dostrajania modelu, w której ludzie oceniają jego odpowiedzi, a model uczy się preferować te wyżej ocenione. Dzięki temu staje się bardziej pomocny i zgodny z oczekiwaniami użytkowników.

Wykorzystuje ludzkie oceny odpowiedzi do dostrojenia modelu.
Etap następujący po wstępnym treningu na dużych zbiorach tekstu.
Poprawia użyteczność i bezpieczeństwo, ale nie usuwa halucynacji.

RLHF to etap dostrajania, który następuje po wstępnym treningu dużego modelu językowego. Ludzie oceniają lub porównują odpowiedzi modelu, a na podstawie tych ocen powstaje model nagrody. Następnie model języka jest dostrajany tak, by częściej generować odpowiedzi, które ludzie oceniliby wysoko.

Celem jest dopasowanie zachowania modelu do oczekiwań użytkowników: jaśniejsze, bezpieczniejsze i bardziej pomocne odpowiedzi. RLHF nie usuwa jednak halucynacji ani nie służy do dodawania nowej wiedzy faktograficznej — opiera się na ocenie człowieka (human-in-the-loop) zebranej wcześniej i nałożonej na wyuczone już wzorce.

Powiązane pojęcia