Компанія OpenAI повідомила про запуск спеціального моніторингового механізму безпеки, який контролює новітні моделі штучного інтелекту o3 та o4-mini на предмет потенційно небезпечних запитів, пов’язаних із біологічними та хімічними загрозами.
У своєму нещодавньому звіті з безпеки OpenAI зазначає, що нові моделі мають суттєво покращені здібності до логічного міркування, у порівнянні з попередніми версіями (зокрема o1 і GPT-4), що створює додаткові ризики, якщо моделі потраплять до рук зловмисників.
Як працює система захисту?
Система отримала назву “safety-focused reasoning monitor” — це спеціально навчена модель, яка працює поверх o3 та o4-mini. Вона здатна:
- виявляти запити, пов’язані з біологічною чи хімічною небезпекою
- інтерпретувати політику OpenAI щодо вмісту
- блокувати відповіді, які можуть містити інструкції або шкідливу інформацію
Для тренування системи команда OpenAI задіяла “червону команду” (red team), яка протягом 1 000 годин виявляла потенційно небезпечні сценарії, щоб створити базу для розпізнавання ризиків.
У тестовому режимі нова система успішно блокувала 98,7% потенційно небезпечних запитів, хоча в компанії визнають: ця цифра не враховує повторних спроб з боку користувача, який намагається обійти фільтр.
Хоча OpenAI не класифікує o3 та o4-mini як моделі, що перетинають поріг «високого ризику» для біозагроз, компанія визнає: ці моделі виявились значно кориснішими для відповідей на делікатні запитання, ніж попередні. Саме тому контроль за ними став одним із перших кроків у реалізації оновленої стратегії безпеки — Preparedness Framework, яку OpenAI активно оновлює у відповідь на зростаючі загрози.
OpenAI також застосовує подібний моніторинг для інших продуктів, зокрема для запобігання створенню забороненого контенту у генераторі зображень GPT-4o, зокрема щодо захисту від дитячої експлуатації.