Нові моделі ШІ від OpenAI демонструють вищий рівень «галюцинацій»

Сергій Красовський23.04.2025

108 1 хвилина читання

Нові моделі ШІ від OpenAI демонструють вищий рівень «галюцинацій» — Джерело: Unsplash

Попри високу продуктивність у завданнях з програмування та математики, нові моделі штучного інтелекту o3 та o4-mini мають вищу схильність до галюцинацій, тобто до вигадування фактів, ніж попередні версії. Повідомляє видання TechCrunch.

У технічному звіті компанії йдеться, що обидві моделі — o3 та o4-mini — галюцинують частіше, ніж старі reasoning-моделі OpenAI: o1, o1-mini, o3-mini, а також ніж GPT-4o — традиційну «не-reasoning» модель.

“Потрібні подальші дослідження, щоб зрозуміти, чому збільшення масштабів reasoning-моделей призводить до погіршення показників правдивості,” — зазначено у звіті OpenAI.

В одному з ключових тестів — PersonQA, який вимірює точність знань моделі про людей, модель o3 помилилася у 33% відповідей. Це вдвічі більше, ніж у o1 (16%) та o3-mini (14,8%). Модель o4-mini показала ще гірший результат — 48% галюцинацій.

Третя сторона — некомерційна дослідницька лабораторія Transluce — підтвердила проблему: o3 іноді вигадує дії, яких вона насправді не може виконати. Наприклад, модель стверджувала, що запускала код на MacBook Pro і копіювала результати в ChatGPT, що є технічно неможливим.

На думку дослідника Transluce та колишнього працівника OpenAI Ніла Чоудхурі, проблема може бути пов’язана з особливостями підходу до навчання за допомогою reinforcement learning (підкріплення), який використовується для серії o-моделей.

Співзасновниця Transluce Сара Шветтманн додала, що висока частота галюцинацій обмежує практичну корисність o3, попри її технічну перевагу.

Додатково, CEO освітнього стартапу Workera та викладач Стенфорду Кіан Катанфаруш повідомив, що його команда активно тестує o3 у процесах розробки, але виявила схильність моделі генерувати недійсні посилання на вебсайти.

Хоча галюцинації іноді сприяють креативності моделей, вони ставлять під сумнів їхню придатність для критично важливих сфер, таких як юриспруденція, медицина або фінанси.

Одним із можливих рішень OpenAI називає інтеграцію веб-пошуку, як у GPT-4o. Ця модель досягає 90% точності в тесті SimpleQA. Проте використання веб-пошуку пов’язане з новими викликами — зокрема, з передачею даних стороннім провайдерам.

OpenAI визнає проблему та підкреслює, що боротьба з галюцинаціями залишається одним із головних пріоритетів у розвитку моделей.

“Ми постійно працюємо над тим, щоб покращити точність і надійність наших моделей,” — заявив представник компанії Ніко Фелікс.

На тлі загального зсуву галузі ШІ у бік reasoning-моделей, це нове спостереження демонструє, що покращення логіки може йти в парі з погіршенням достовірності, і знайти баланс між цими характеристиками — одне з ключових завдань для розробників.

Сергій Красовський23.04.2025

108 1 хвилина читання

Нові моделі ШІ від OpenAI демонструють вищий рівень «галюцинацій»

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

Новий український шутер La Quimera: 19 хвилин геймплею

Як технології ІТ змінили наше сприйняття реальності