Попри стрімкий розвиток штучного інтелекту у світі, сучасні популярні мовні моделі не змогли пройти українське зовнішнє незалежне оцінювання. Таких висновків дійшла команда українських дослідників, які протестували GPT‑4o, Claude 3.5, Gemini Pro та інші ШІ‑моделі за допомогою власного набору тестів ZNOVision – пише dev.ua.
Що таке ZNOVision?
ZNOVision — це перший масштабний український мультимодальний тестовий набір, що імітує структуру й тематику ЗНО. До нього увійшло понад 4 300 завдань із 13 предметів: від фізики й математики до історії та літератури. Більше половини запитань — візуально-текстові: вони включають графіки, діаграми, карти, малюнки, уривки з підручників тощо. Саме ці типи завдань виявилися найскладнішими для сучасних ШІ.
Як ШІ моделі справились із тестами?
Найкращий результат серед протестованих моделей показала Gemini Pro — 67,5 %. Проте навіть вона не подолала прохідний бар’єр у 70 %.
Інші результати виглядають так:
- Claude 3.5 — 64,3 %
- Qwen2VL — 51,2 %
- GPT‑4o — лише 47 %
Для оцінювання мультимодальних можливостей (обробка зображень і тексту одночасно) дослідники також створили окремий піднабір VQAUA. Тут ШІ показали ще гірші результати: лише 26–34 % правильних відповідей, тоді як в англомовних аналогах моделі демонструють понад 60 %.
У чому проблема?
Більшість моделей погано розпізнавали україномовний текст на зображеннях, плутали математичні символи, одиниці вимірювання та не розуміли контекст візуальної інформації. Ці недоліки вказують на загальні обмеження мультимодального розуміння та локалізації українською мовою навіть у найпотужніших AI‑моделях світу.
Чому це важливо?
ZNOVision відкриває нові можливості:
- Оцінка якості локалізованих AI‑рішень — наприклад, в освітніх застосунках, системах модерації або юридичних асистентах.
- Файнтюнінг українських моделей — навчання та адаптація ШІ для україномовного користувача.
- Мотивація до створення локальних мультимодальних рішень — враховуючи мовну специфіку й візуальну складність типових завдань у Східній Європі.
Видання GALERA зазначає, що результати дослідження показали, що навіть найсучасніші ШІ‑моделі сьогодні не готові ефективно працювати з україномовним освітнім контентом, особливо якщо він включає візуальні компоненти. Проте поява таких тестів, як ZNOVision, — важливий крок у напрямку розвитку та адаптації штучного інтелекту до потреб українського суспільства.