Aurora AIOpisz swój przypadek

Oferta

UsługiProduktyRealizacje

Dla kogo

Private EquityEnterpriseMŚP
UsługiProduktyRealizacjeO nasBlogKontakt

Baza wiedzy

Start tutajWikiSłownikPrzewodniki

Słownik AI

RLHF

Reinforcement Learning from Human Feedback, uczenie ze wzmocnieniem na podstawie informacji zwrotnej

RLHF to metoda dostrajania modelu, w której ludzie oceniają jego odpowiedzi, a model uczy się preferować te wyżej ocenione. Dzięki temu staje się bardziej pomocny i zgodny z oczekiwaniami użytkowników.

RLHF to etap dostrajania, który następuje po wstępnym treningu dużego modelu językowego. Ludzie oceniają lub porównują odpowiedzi modelu, a na podstawie tych ocen powstaje model nagrody. Następnie model języka jest dostrajany tak, by częściej generować odpowiedzi, które ludzie oceniliby wysoko.

Celem jest dopasowanie zachowania modelu do oczekiwań użytkowników: jaśniejsze, bezpieczniejsze i bardziej pomocne odpowiedzi. RLHF nie usuwa jednak halucynacji ani nie służy do dodawania nowej wiedzy faktograficznej — opiera się na ocenie człowieka (human-in-the-loop) zebranej wcześniej i nałożonej na wyuczone już wzorce.

Powiązane pojęcia