OpenAI представила новий бенчмарк GDPval, що оцінює, наскільки добре AI-моделі справляються з економічно важливими завданнями у порівнянні з людьми. За результатами тестів, GPT-5 та Claude Opus 4.1 від Anthropic вже демонструють якість, близьку до роботи галузевих експертів.
GDPval охоплює дев’ять ключових секторів економіки США, включно з охороною здоров’я, фінансами, виробництвом і державним управлінням, та тестує 44 професії — від інженерів-програмістів до журналістів.
Модель GPT-5-high (потужніша версія GPT-5) була визнана кращою або рівною роботі експертів у 40,6% завдань, тоді як Claude Opus 4.1 показала результат 49%. Для порівняння, GPT-4o рік тому набрав лише 13,7%.
Попри прогрес, OpenAI визнає, що тест поки що охоплює обмежене коло завдань і не відображає всього спектру роботи людей. Проте компанія вважає GDPval важливим кроком у вимірюванні наближення до AGI — штучного загального інтелекту.