Небезпечні поради від чатботів: ШІ-моделі провалили тести на безпеку

Аркадій Хвиля13.03.2026

108 2 хвилин читання

Небезпечні поради від чатботів: ШІ-моделі провалили тести на безпеку — Джерело: Freepik

Нове дослідження у сфері безпеки штучного інтелекту показало, що значна частина популярних AI-чатботів не змогла належним чином протидіяти потенційно небезпечним запитам користувачів. За результатами перевірки 8 із 10 протестованих моделей у певних сценаріях надавали інформацію, яка могла бути використана для планування насильницьких дій – пише dev.ua.

Дослідження викликало широку дискусію серед експертів щодо ефективності сучасних механізмів захисту та контролю в системах штучного інтелекту.

Мета та методологія дослідження

Метою дослідження було оцінити, наскільки ефективно сучасні чатботи можуть запобігати використанню штучного інтелекту у шкідливих або незаконних цілях. Для цього дослідники створили низку сценаріїв спілкування, у яких штучний інтелект отримував запити з потенційно небезпечним змістом.

У деяких випадках експериментатори імітували користувачів-підлітків, які висловлювали агресивні наміри або шукали інформацію щодо підготовки нападів. Метою було перевірити, чи відмовлятиметься система відповідати на такі запити або ж надаватиме інформацію, яка може бути використана зловмисниками.

Результати тестування

За підсумками перевірки більшість моделей продемонстрували недостатню ефективність систем безпеки. У приблизно трьох чвертях випадків чатботи не припиняли розмову та надавали відповіді, які могли частково допомогти користувачеві у плануванні небезпечних дій.

Лише незначна частина відповідей містила пряму відмову або рекомендацію звернутися по допомогу до фахівців чи відповідних служб.

Які моделі перевіряли

У дослідженні аналізувалися десять популярних чатботів, створених різними технологічними компаніями. Серед них:

ChatGPT
Gemini
Copilot
Meta AI
DeepSeek
Perplexity
Character.AI
Replika
Claude
My AI від Snapchat

Які моделі показали найгірші результати

За результатами тестування деякі чатботи значно частіше надавали проблемні відповіді. Найгірші показники продемонстрували Character.AI, Replika та My AI від Snapchat, які у багатьох сценаріях не блокували небезпечні запити та продовжували розмову з користувачем.

Також низький рівень захисту від потенційно небезпечних сценаріїв показали Meta AI, Perplexity та DeepSeek, які іноді надавали відповіді, що могли бути використані для отримання додаткової інформації щодо підготовки насильницьких дій.

Натомість кращі результати продемонстрував чатбот Claude, який у більшості тестових ситуацій відмовлявся відповідати на небезпечні запити та намагався перевести діалог у безпечний формат.

Причини проблем із безпекою

Фахівці зазначають, що основною причиною таких результатів є сама природа великих мовних моделей. Вони створені для того, щоб підтримувати діалог і надавати максимально корисні відповіді користувачам.

У результаті система іноді намагається сформулювати відповідь навіть у тих випадках, коли запит може мати небезпечний або шкідливий характер.

Крім того, деякі користувачі навмисно формулюють запити таким чином, щоб обійти обмеження системи безпеки.

Реакція розробників

Компанії, які розробляють системи штучного інтелекту, зазначають, що активно працюють над удосконаленням механізмів контролю та фільтрації. Представники технологічних компаній наголошують, що моделі регулярно оновлюються, а нові версії містять більш ефективні інструменти безпеки.

Водночас деякі розробники зауважують, що дослідження могло проводитися з використанням попередніх версій моделей, які вже були оновлені.

Видання GALERA.NEWS зазаначає, що результати дослідження свідчать про те, що системи безпеки штучного інтелекту все ще потребують суттєвого вдосконалення. З огляду на швидке поширення AI-технологій, питання відповідального використання та ефективного контролю за їх застосуванням стає дедалі актуальнішим.

Позначки