Hasło słownika

GPQA

Benchmark AI z trudnymi pytaniami wielokrotnego wyboru z poziomu studiów doktoranckich, zaprojektowany tak, by nie dało się go łatwo rozwiązać prostym wyszukiwaniem w Google.

AIkategoria

4aliasy

Kategoria: AI

Aliasy: Graduate-Level Google-Proof Q&A Graduate-Level Google-Proof Q&A Benchmark Google-Proof Q&A GPQA benchmark

Opis

GPQA mierzy zdolność modelu do rozumowania na specjalistycznych pytaniach z biologii, fizyki i chemii. Zbiór jest niewielki, ale celowo trudny: pytania przygotowali eksperci, a odpowiedzi wymagają wiedzy dziedzinowej i wnioskowania, nie tylko rozpoznania popularnego faktu. Dlatego wynik na GPQA warto czytać jako sygnał jakości w zadaniach eksperckich, a nie jako pełną miarę użyteczności modelu w produkcji.

Przykłady

Model z wysokim wynikiem GPQA lepiej radzi sobie z pytaniami naukowymi wymagającymi kilku kroków rozumowania.
W tabeli benchmarków GPQA nie mówi, czy agent dobrze klika w przeglądarce - do tego służą inne testy.

GPQA

Opis

Przykłady

Zobacz też