Hasło słownika

GPQA

Benchmark AI z trudnymi pytaniami wielokrotnego wyboru z poziomu studiów doktoranckich, zaprojektowany tak, by nie dało się go łatwo rozwiązać prostym wyszukiwaniem w Google.

AIkategoria
4aliasy
Kategoria: AI
Aliasy: Graduate-Level Google-Proof Q&A Graduate-Level Google-Proof Q&A Benchmark Google-Proof Q&A GPQA benchmark

Opis

GPQA mierzy zdolność modelu do rozumowania na specjalistycznych pytaniach z biologii, fizyki i chemii. Zbiór jest niewielki, ale celowo trudny: pytania przygotowali eksperci, a odpowiedzi wymagają wiedzy dziedzinowej i wnioskowania, nie tylko rozpoznania popularnego faktu. Dlatego wynik na GPQA warto czytać jako sygnał jakości w zadaniach eksperckich, a nie jako pełną miarę użyteczności modelu w produkcji.

Przykłady

  • Model z wysokim wynikiem GPQA lepiej radzi sobie z pytaniami naukowymi wymagającymi kilku kroków rozumowania.
  • W tabeli benchmarków GPQA nie mówi, czy agent dobrze klika w przeglądarce - do tego służą inne testy.