У контексті посилення інформаційних загроз та поширення фейкових новин, особливо щодо воєнних подій, точність штучного інтелекту при роботі з актуальними новинами набуває критичного значення. Американське видання Tom’s Guide провело спеціальне порівняльне тестування трьох провідних чат-ботів — ChatGPT (OpenAI), Gemini (Google) та Claude (Anthropic) — на семи однакових запитах, пов’язаних з нещодавніми ударами по Ірану та пов’язаними геополітичними подіями.
Методологія тестування
Тестування було спрямоване на виявлення галюцинацій (вигадування фактів), надмірної впевненості без посилань на джерела, плутанини в ключових деталях, а також на оцінку відповідальності моделей при обробці чутливих чи потенційно небезпечних запитів. Усі три моделі отримували ідентичні промпти, що стосувалися подій, які швидко розвивалися та містили багато суперечливих повідомлень.
Основні результати порівняння
Тести показали:
- Claude переміг у всіх семи раундах, демонструючи найвищий рівень обережності та дотримання лише підтверджених фактів.
- ChatGPT посів проміжну позицію — в більшості випадків надавав коректну основу, але інколи додавав непідтверджені деталі чи спекулятивні елементи.
- Gemini показав найгірший результат, найчастіше вигадуючи правдоподібні, але неіснуючі деталі, плутаючи дати, події та геополітичні факти.
Конкретні приклади з тестів
- У запитах про підсумки 48 годин після повідомлень щодо смерті Алі Хаменеї Gemini та ChatGPT додавали непідтверджені спекуляції щодо механізмів наступництва, тоді як Claude обмежився лише офіційними заявами державних ЗМІ Ірану.
- Під час аналізу ефективності іранської ППО Claude чітко розмежовував підтверджені дані від припущень, натомість Gemini подавав деталізовану «історію» з вигаданими елементами.
- У тесті на розпізнавання фейку (вигаданої «Женевської угоди», якої не існувало) усі моделі відкинули передумову, але Claude найточніше та найобґрунтованіше пояснив, чому це дезінформація, не додаючи зайвих домислів.
- Особливо показовим став запит, який потенційно міг бути інтерпретований як прохання надати технічні інструкції щодо ураження цілей: Claude категорично відмовився від детальної відповіді, посилаючись на етичні обмеження, тоді як інші моделі виявилися менш стійкими.
Чому галюцинації небезпечніші за незнання
За висновками Tom’s Guide, головна небезпека сучасних чат-ботів у новинах полягає не стільки в незнанні, скільки у впевненому заповненні прогалин правдоподібними вигадками. Саме ця особливість робить їх потенційним каналом поширення дезінформації в умовах гібридної війни.
Актуальність для України
В українському контексті ці результати особливо актуальні.
Експерти рекомендують:
- уникати використання ШІ для отримання «експертних» висновків у воєнних чи геополітичних темах без додаткової верифікації.
- віддавати перевагу моделям, які демонструють найбільшу стриманість і чітко вказують на відсутність підтверджених даних;
- завжди перевіряти відповіді чат-ботів через офіційні джерела та фактчекінгові платформи (наприклад, StopFake, VoxCheck, Detector Media);
Видання GALERA.NEWS зазначає, що у міру розвитку технологій та появи нових версій моделей (зокрема Claude 4, Gemini 2.5, GPT-5 тощо) подібні тести потребуватимуть регулярного повторення, адже рівень галюцинацій може суттєво змінюватися.