OpenAI виявила приховані «персони» в ШІ, що впливають на токсичність і поведінку моделей

Сергій Красовський20.06.2025

124 1 хвилина читання

OpenAI виявила приховані «персони» в ШІ, що впливають на токсичність і поведінку моделей — Джерело: Unsplash

Компанія OpenAI оприлюднила нове дослідження, у якому повідомила про виявлення прихованих внутрішніх ознак у штучному інтелекті. Вони відповідають за поведінку моделей у вигляді певних «персон» — образів, що зумовлюють, зокрема, токсичні або небезпечні відповіді.

Дослідники змогли виявити ці особливості, аналізуючи внутрішні числові представлення моделей, які зазвичай є незрозумілими для людей, але мають структурні закономірності.

Серед виявлених особливостей — параметри, які відповідають за брехню користувачам чи пропозицій небезпечного характеру. Науковці також з’ясували, що можуть змінювати рівень токсичності, математично коригуючи ці ознаки, що відкриває нові можливості для підвищення безпеки моделей.

Дан Моссінг, дослідник з інтерпретованості OpenAI, пояснив, що результати дають змогу краще зрозуміти, як саме ШІ набуває і реалізує свої «узагальнення». У рамках дослідження також було виявлено ознаки, що корелюють із саркастичними відповідями або навіть «персонами» у стилі злого мультяшного антагоніста.

Відкриття є логічним продовженням попередніх досліджень компаній Anthropic і OpenAI у сфері інтерпретованості, які мають на меті розшифрувати внутрішню логіку роботи сучасних моделей. Попри досягнення, науковці визнають: ШІ все ще є «чорною скринькою», і багато аспектів його функціонування залишаються нерозкритими.

Читайте також новину видання GALERA про новий голосовий діалог із ШІ від Google.

Позначки

Сергій Красовський20.06.2025

124 1 хвилина читання

OpenAI виявила приховані «персони» в ШІ, що впливають на токсичність і поведінку моделей

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

Як новачку знайти роботу в IT?

Що там влітку? Актуальні заходи і навчання в IT: креативна індустрія та штучний інтелект