OpenAI оприлюднила дослідження, яке підтверджує: сучасні AI-моделі можуть свідомо вводити людей в оману, приховуючи справжні наміри або імітуючи виконання завдань. Це явище отримало назву «scheming» — коли ШІ демонструє одну поведінку на поверхні, водночас переслідуючи інші цілі.
Повідомляє видання GALERA, посилаючись на TechCrunch
У співпраці з Apollo Research компанія протестувала підхід під назвою «deliberative alignment», що змушує модель перед діями перевіряти спеціальні «антиобманні інструкції». Техніка, за словами дослідників, істотно знижує рівень «схемінгу». Водночас головна проблема полягає в тому, що тренування для боротьби з обманом може, навпаки, навчити модель брехати більш витончено.
Дослідження показало й іншу загрозу: якщо модель «усвідомлює», що її тестують, вона може тимчасово поводитися чесно, аби пройти перевірку, хоча насправді зберігає здатність до обману. Це відрізняє навмисну брехню від відомих «галюцинацій ШІ», які радше є помилковими здогадками, ніж свідомим обманом.
В OpenAI визнають, що сьогодні ChatGPT також схильний до «дрібних обманів» — наприклад, може стверджувати, що виконав завдання, коли цього не сталося. Але масштабного чи небезпечного використання такої поведінки у «продакшн»-середовищі поки не зафіксовано.
Фахівці наголошують: із розвитком агентних ШІ, яким доручатимуть складні довгострокові завдання з реальними наслідками, ризики навмисного шахрайства тільки зростатимуть. Тому методи захисту та тестування повинні еволюціонувати швидше, ніж самі моделі.