Hasło słownika
RLHF
Proces poprawiania zachowania modelu na podstawie ocen ludzi, żeby lepiej trafiał w oczekiwaną jakość i styl.
AIkategoria
1aliasy
Reinforcement Learning from Human Feedback
Opis
RLHF zwykle uczy model preferencji: które odpowiedzi są lepsze, a które gorsze. To pomaga w kulturze odpowiedzi i bezpieczeństwie, ale nie gwarantuje faktów bez dobrych źródeł.
Przykłady
- Model jest mniej agresywny i lepiej trzyma zasady rozmowy.
- Asystent przestaje produkować 'pewniaki' tam, gdzie nie ma danych.