OpenAI впровадила нову систему безпеки для захисту від біологічних загроз у своїх AI-моделях

Сергій Красовський18.04.2025

88 1 хвилина читання

OpenAI запустила систему захисту від біозагроз у своїх AI-моделях — Джерело: Unsplash

Компанія OpenAI повідомила про запуск спеціального моніторингового механізму безпеки, який контролює новітні моделі штучного інтелекту o3 та o4-mini на предмет потенційно небезпечних запитів, пов’язаних із біологічними та хімічними загрозами.

У своєму нещодавньому звіті з безпеки OpenAI зазначає, що нові моделі мають суттєво покращені здібності до логічного міркування, у порівнянні з попередніми версіями (зокрема o1 і GPT-4), що створює додаткові ризики, якщо моделі потраплять до рук зловмисників.

Як працює система захисту?

Система отримала назву “safety-focused reasoning monitor” — це спеціально навчена модель, яка працює поверх o3 та o4-mini. Вона здатна:

виявляти запити, пов’язані з біологічною чи хімічною небезпекою
інтерпретувати політику OpenAI щодо вмісту
блокувати відповіді, які можуть містити інструкції або шкідливу інформацію

Для тренування системи команда OpenAI задіяла “червону команду” (red team), яка протягом 1 000 годин виявляла потенційно небезпечні сценарії, щоб створити базу для розпізнавання ризиків.

У тестовому режимі нова система успішно блокувала 98,7% потенційно небезпечних запитів, хоча в компанії визнають: ця цифра не враховує повторних спроб з боку користувача, який намагається обійти фільтр.

Хоча OpenAI не класифікує o3 та o4-mini як моделі, що перетинають поріг «високого ризику» для біозагроз, компанія визнає: ці моделі виявились значно кориснішими для відповідей на делікатні запитання, ніж попередні. Саме тому контроль за ними став одним із перших кроків у реалізації оновленої стратегії безпеки — Preparedness Framework, яку OpenAI активно оновлює у відповідь на зростаючі загрози.

OpenAI також застосовує подібний моніторинг для інших продуктів, зокрема для запобігання створенню забороненого контенту у генераторі зображень GPT-4o, зокрема щодо захисту від дитячої експлуатації.

Позначки

Сергій Красовський18.04.2025

88 1 хвилина читання

OpenAI впровадила нову систему безпеки для захисту від біологічних загроз у своїх AI-моделях

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

Адміністрація Трампа розглядає можливу заборону китайської AI-компанії DeepSeek у США

Резиденти Дія.City сплатили понад 8 мільярдів гривень податків у першому кварталі 2025 року