Великі мовні моделі від OpenAI, зокрема GPT-4, можуть зберігати у своїй пам’яті та відтворювати фрагменти текстів, захищених авторським правом. Такі висновки зробила група дослідників зі Стенфордського університету, Університету Вашингтона та Копенгагенського університету.
Дослідники застосували особливу методику: вони вилучали рідковживані слова з відомих літературних творів та запитували у GPT-4, чи зможе вона їх відновити. Результати виявились тривожними — модель впевнено підставляла потрібні слова, ніби добре пам’ятає оригінальні уривки.
Це вказує на ймовірне пряме запам’ятовування навчального матеріалу, а не лише узагальнення патернів, як зазвичай стверджують розробники.
Проблеми ШІ з авторським правом
Дослідження підкріплює звинувачення на адресу OpenAI у використанні захищених авторським правом текстів без дозволу. На компанію вже подано низку судових позовів від авторів, видавництв і новинних агенцій.
Суть звинувачень — у відсутності прозорості щодо навчальних даних і використання чужих творів для комерційного ШІ-продукту без ліцензування.
Нагадаємо, нещодавно видання GALERA овідомляло про те, що за допомогою ChatGPT можна створювати підробні чеки та інші документи.