Hasło słownika
Ewaluacje
Proces mierzenia jakości modelu na ustalonych testach, żeby wiedzieć, czy działa lepiej czy gorzej po zmianach.
AIkategoria
1aliasy
Evals
Opis
Ewaluacje mogą być automatyczne (testy, metryki) i ręczne (ocena ludzi). Bez evali łatwo 'poprawić' model tak, że psuje inne rzeczy - klasyczny efekt uboczny.
Przykłady
- Po zmianie promptu mierzysz: trafność, cytowanie, zgodność z polityką.
- Testujesz RAG na zestawie pytań z prawidłowymi odpowiedziami i źródłami.