Нові моделі ШІ від OpenAI демонструють вищий рівень «галюцинацій»
Попри високу продуктивність у завданнях з програмування та математики, нові моделі штучного інтелекту o3 та o4-mini мають вищу схильність до галюцинацій, тобто до вигадування фактів, ніж попередні версії. Повідомляє видання TechCrunch.
У технічному звіті компанії йдеться, що обидві моделі — o3 та o4-mini — галюцинують частіше, ніж старі reasoning-моделі OpenAI: o1, o1-mini, o3-mini, а також ніж GPT-4o — традиційну «не-reasoning» модель.
“Потрібні подальші дослідження, щоб зрозуміти, чому збільшення масштабів reasoning-моделей призводить до погіршення показників правдивості,” — зазначено у звіті OpenAI.
В одному з ключових тестів — PersonQA, який вимірює точність знань моделі про людей, модель o3 помилилася у 33% відповідей. Це вдвічі більше, ніж у o1 (16%) та o3-mini (14,8%). Модель o4-mini показала ще гірший результат — 48% галюцинацій.
Третя сторона — некомерційна дослідницька лабораторія Transluce — підтвердила проблему: o3 іноді вигадує дії, яких вона насправді не може виконати. Наприклад, модель стверджувала, що запускала код на MacBook Pro і копіювала результати в ChatGPT, що є технічно неможливим.
На думку дослідника Transluce та колишнього працівника OpenAI Ніла Чоудхурі, проблема може бути пов’язана з особливостями підходу до навчання за допомогою reinforcement learning (підкріплення), який використовується для серії o-моделей.
Співзасновниця Transluce Сара Шветтманн додала, що висока частота галюцинацій обмежує практичну корисність o3, попри її технічну перевагу.
Додатково, CEO освітнього стартапу Workera та викладач Стенфорду Кіан Катанфаруш повідомив, що його команда активно тестує o3 у процесах розробки, але виявила схильність моделі генерувати недійсні посилання на вебсайти.
Хоча галюцинації іноді сприяють креативності моделей, вони ставлять під сумнів їхню придатність для критично важливих сфер, таких як юриспруденція, медицина або фінанси.
Одним із можливих рішень OpenAI називає інтеграцію веб-пошуку, як у GPT-4o. Ця модель досягає 90% точності в тесті SimpleQA. Проте використання веб-пошуку пов’язане з новими викликами — зокрема, з передачею даних стороннім провайдерам.
OpenAI визнає проблему та підкреслює, що боротьба з галюцинаціями залишається одним із головних пріоритетів у розвитку моделей.
“Ми постійно працюємо над тим, щоб покращити точність і надійність наших моделей,” — заявив представник компанії Ніко Фелікс.
На тлі загального зсуву галузі ШІ у бік reasoning-моделей, це нове спостереження демонструє, що покращення логіки може йти в парі з погіршенням достовірності, і знайти баланс між цими характеристиками — одне з ключових завдань для розробників.