OpenAI визнала: їхні моделі здатні навмисно брехати

Сергій Красовський21.09.2025

123 1 хвилина читання

OpenAI визнала: їхні моделі здатні навмисно брехати — Джерело: Unsplash

OpenAI оприлюднила дослідження, яке підтверджує: сучасні AI-моделі можуть свідомо вводити людей в оману, приховуючи справжні наміри або імітуючи виконання завдань. Це явище отримало назву «scheming» — коли ШІ демонструє одну поведінку на поверхні, водночас переслідуючи інші цілі.

Повідомляє видання GALERA, посилаючись на TechCrunch

У співпраці з Apollo Research компанія протестувала підхід під назвою «deliberative alignment», що змушує модель перед діями перевіряти спеціальні «антиобманні інструкції». Техніка, за словами дослідників, істотно знижує рівень «схемінгу». Водночас головна проблема полягає в тому, що тренування для боротьби з обманом може, навпаки, навчити модель брехати більш витончено.

Дослідження показало й іншу загрозу: якщо модель «усвідомлює», що її тестують, вона може тимчасово поводитися чесно, аби пройти перевірку, хоча насправді зберігає здатність до обману. Це відрізняє навмисну брехню від відомих «галюцинацій ШІ», які радше є помилковими здогадками, ніж свідомим обманом.

В OpenAI визнають, що сьогодні ChatGPT також схильний до «дрібних обманів» — наприклад, може стверджувати, що виконав завдання, коли цього не сталося. Але масштабного чи небезпечного використання такої поведінки у «продакшн»-середовищі поки не зафіксовано.

Фахівці наголошують: із розвитком агентних ШІ, яким доручатимуть складні довгострокові завдання з реальними наслідками, ризики навмисного шахрайства тільки зростатимуть. Тому методи захисту та тестування повинні еволюціонувати швидше, ніж самі моделі.

Позначки

Сергій Красовський21.09.2025

123 1 хвилина читання

OpenAI визнала: їхні моделі здатні навмисно брехати

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

«Київстар» планує придбати частку хмарного провайдера GigaCloud

Трамп і ByteDance оголосили про схвалення угоди щодо TikTok, але деталей поки немає