У сучасних умовах стрімкого розвитку штучного інтелекту (ШІ) постає потреба у створенні нових стандартів оцінювання його можливостей. Великі мовні моделі (LLM), зокрема GPT, Claude та Gemini, демонструють вражаючі результати у тестах, однак ці досягнення не завжди відображають реальний рівень їх інтелектуальної спроможності. Відповіддю на це стало впровадження нових, значно складніших бенчмарків, які мають на меті виявити справжні межі машинного інтелекту. Такі висновки зроблені у спільному аналітичному огляді Forbes та The Economist.
Еволюція методів оцінювання
Початкові тести на продуктивність LLM були зосереджені переважно на стандартних завданнях: заповнення пропусків у текстах, відповідь на фактичні запити, іспити у форматі multiple-choice. Сучасні мовні моделі демонструють у цих тестах результати, які іноді перевершують людські показники. У зв’язку з цим виникла потреба у створенні нових типів бенчмарків, що охоплюють складніші когнітивні виклики.
Основні нові бенчмарки
Серед найбільш інноваційних прикладів виділяються такі проєкти:
- ZeroBench (Університет Кембриджа) — мультимодальний бенчмарк, який включає як текстові, так і візуальні завдання. Жодна з протестованих моделей не змогла набрати навіть мінімальний бал.
- EnigmaEval (компанія Scale AI) — понад тисяча завдань, що поєднують текст, зображення та логічні головоломки. Успішно впоратись з одним із них змогла лише одна модель.
- ARC‑AGI 2 — тест, що перевіряє здатність до абстрактного та невербального мислення. Найсучасніші моделі ШІ досі не можуть подолати його з належним рівнем точності.
- Last Exam of Humanity — спеціально розроблений набір запитань зі складних академічних дисциплін, призначений для перевірки глибини наукового розуміння ШІ.
Причини оновлення тестів
Оновлення бенчмарків обумовлене кількома чинниками:
- Інфляція тестів — багато старих тестів стали частиною навчальних даних, що спотворює результати оцінювання.
- Феномен насичення — топові моделі наближаються до максимальних оцінок, унеможливлюючи подальше вимірювання поступу.
- Обхід і маніпуляції — моделі здатні “вгадувати” відповіді, не демонструючи при цьому справжнього розуміння.
У зв’язку з цим бенчмарки нового покоління орієнтовані на виявлення глибших когнітивних здібностей, гнучкості мислення та здатності до генералізації.
Альтернативні формати
Окрім формальних бенчмарків, зростає популярність середовищ на кшталт Chatbot Arena, де користувачі оцінюють відповіді моделей у сліпому режимі. Такі платформи дозволяють виявити переваги та недоліки ШІ в умовах живої комунікації, хоча і мають суб’єктивний характер.
Погляд на майбутнє
Попри численні досягнення, більшість нових тестів підтверджують: сучасні мовні моделі ще не досягли рівня загального штучного інтелекту (AGI). Дослідники наголошують на важливості розробки не лише потужних архітектур, а й об’єктивних методів їх оцінювання.
Видання GALERA дізналося, що один із дослідників, Саймон Віллісон зазначає, що користувачі можуть самостійно формувати власні набори «запитів-викликів», щоб перевіряти моделі на релевантність у конкретних контекстах. Такий підхід сприяє практичному розумінню сильних і слабких сторін ШІ.