Hasło słownika
GPQA
Benchmark AI z trudnymi pytaniami wielokrotnego wyboru z poziomu studiów doktoranckich, zaprojektowany tak, by nie dało się go łatwo rozwiązać prostym wyszukiwaniem w Google.
AIkategoria
4aliasy
Graduate-Level Google-Proof Q&A Graduate-Level Google-Proof Q&A Benchmark Google-Proof Q&A GPQA benchmark
Opis
GPQA mierzy zdolność modelu do rozumowania na specjalistycznych pytaniach z biologii, fizyki i chemii. Zbiór jest niewielki, ale celowo trudny: pytania przygotowali eksperci, a odpowiedzi wymagają wiedzy dziedzinowej i wnioskowania, nie tylko rozpoznania popularnego faktu. Dlatego wynik na GPQA warto czytać jako sygnał jakości w zadaniach eksperckich, a nie jako pełną miarę użyteczności modelu w produkcji.
Przykłady
- Model z wysokim wynikiem GPQA lepiej radzi sobie z pytaniami naukowymi wymagającymi kilku kroków rozumowania.
- W tabeli benchmarków GPQA nie mówi, czy agent dobrze klika w przeglądarce - do tego służą inne testy.