Компанія OpenAI оприлюднила нове дослідження, у якому повідомила про виявлення прихованих внутрішніх ознак у штучному інтелекті. Вони відповідають за поведінку моделей у вигляді певних «персон» — образів, що зумовлюють, зокрема, токсичні або небезпечні відповіді.
Дослідники змогли виявити ці особливості, аналізуючи внутрішні числові представлення моделей, які зазвичай є незрозумілими для людей, але мають структурні закономірності.
Серед виявлених особливостей — параметри, які відповідають за брехню користувачам чи пропозицій небезпечного характеру. Науковці також з’ясували, що можуть змінювати рівень токсичності, математично коригуючи ці ознаки, що відкриває нові можливості для підвищення безпеки моделей.
Дан Моссінг, дослідник з інтерпретованості OpenAI, пояснив, що результати дають змогу краще зрозуміти, як саме ШІ набуває і реалізує свої «узагальнення». У рамках дослідження також було виявлено ознаки, що корелюють із саркастичними відповідями або навіть «персонами» у стилі злого мультяшного антагоніста.
Відкриття є логічним продовженням попередніх досліджень компаній Anthropic і OpenAI у сфері інтерпретованості, які мають на меті розшифрувати внутрішню логіку роботи сучасних моделей. Попри досягнення, науковці визнають: ШІ все ще є «чорною скринькою», і багато аспектів його функціонування залишаються нерозкритими.
Читайте також новину видання GALERA про новий голосовий діалог із ШІ від Google.