Hasło słownika

Ewaluacje

Proces mierzenia jakości modelu na ustalonych testach, żeby wiedzieć, czy działa lepiej czy gorzej po zmianach.

AIkategoria
1aliasy
Kategoria: AI
Aliasy: Evals

Opis

Ewaluacje mogą być automatyczne (testy, metryki) i ręczne (ocena ludzi). Bez evali łatwo 'poprawić' model tak, że psuje inne rzeczy - klasyczny efekt uboczny.

Przykłady

  • Po zmianie promptu mierzysz: trafność, cytowanie, zgodność z polityką.
  • Testujesz RAG na zestawie pytań z prawidłowymi odpowiedziami i źródłami.