Hasło słownika

RLHF

Proces poprawiania zachowania modelu na podstawie ocen ludzi, żeby lepiej trafiał w oczekiwaną jakość i styl.

AIkategoria
1aliasy
Kategoria: AI
Aliasy: Reinforcement Learning from Human Feedback

Opis

RLHF zwykle uczy model preferencji: które odpowiedzi są lepsze, a które gorsze. To pomaga w kulturze odpowiedzi i bezpieczeństwie, ale nie gwarantuje faktów bez dobrych źródeł.

Przykłady

  • Model jest mniej agresywny i lepiej trzyma zasady rozmowy.
  • Asystent przestaje produkować 'pewniaki' tam, gdzie nie ma danych.