Hasło słownika

RLHF

Proces poprawiania zachowania modelu na podstawie ocen ludzi, żeby lepiej trafiał w oczekiwaną jakość i styl.

AIkategoria

1aliasy

Kategoria: AI

Aliasy: Reinforcement Learning from Human Feedback

Opis

RLHF zwykle uczy model preferencji: które odpowiedzi są lepsze, a które gorsze. To pomaga w kulturze odpowiedzi i bezpieczeństwie, ale nie gwarantuje faktów bez dobrych źródeł.

Przykłady

Model jest mniej agresywny i lepiej trzyma zasady rozmowy.
Asystent przestaje produkować 'pewniaki' tam, gdzie nie ma danych.

RLHF

Opis

Przykłady

Zobacz też