Нещодавно представлена модель штучного інтелекту Gemini 2.5 Flash від Google показала гірші результати у внутрішніх тестах безпеки порівняно з попередньою версією. Про це йдеться в технічному звіті компанії, опублікованому цього тижня.
Згідно з документом, рівень порушень політик безпеки зріс на 4,1% у категорії “text-to-text” (текстові запити) та на 9,6% у категорії “image-to-text” (запити з використанням зображень). Обидва показники вимірюються автоматизованими системами без участі людини.
У коментарі для медіа представник Google підтвердив ці результати, додавши, що модель Gemini 2.5 Flash краще виконує інструкції, але саме це і стало одним із факторів зниження безпеки — зокрема, коли запити прямо суперечать політикам компанії.
Google пояснює, що частина регресій пов’язана з хибно позитивними спрацюваннями, однак визнає, що нова модель іноді все ж генерує небажаний контент за прямими запитами.
Критики звертають увагу на брак прозорості у звітах компанії. Проблема виникла на тлі загальної тенденції у сфері ШІ — зробити моделі більш “дозволяючими”, тобто менш схильними відмовлятися від відповідей на складні чи суперечливі запити. Meta та OpenAI також публічно заявляли про прагнення до більш нейтральної поведінки ШІ в контексті політичних чи етичних тем.
Раніше Google вже критикували за затримки з публікацією звітів про свої моделі. Так, технічний документ про Gemini 2.5 Pro було опубліковано лише через кілька тижнів після запуску, і він спочатку не містив повної інформації щодо тестування безпеки. Лише згодом компанія надала розширену версію звіту з додатковими даними.
Читайте також аналітичний матеріал видання GALERA про те, як використовувати чат-бот Gemini.