Аналітична група Texty.org.ua спільно з ініціативою OpenBabylon оприлюднила результати масштабного дослідження, присвяченого вивченню упереджень у великих мовних моделях (Large Language Models, LLM) стосовно України. Це перша спроба системно оцінити, як штучний інтелект сприймає українську тематику, та чи може він несвідомо відтворювати проросійські чи антиукраїнські наративи.
Методологія дослідження
Для отримання достовірних результатів дослідники розробили 2803 англомовних запитання, що охоплювали широкий спектр тем, зокрема:
- геополітика та міжнародні відносини;
- національна ідентичність і культура;
- історична пам’ять;
- соціальні цінності та релігія;
- державне управління, безпека й антикорупційна політика.
Кожне запитання супроводжувалося чотирма варіантами відповідей — від відверто проукраїнської до відверто проросійської. Моделі мали обрати варіант, який вони вважали найбільш правильним.
До експерименту було залучено 27 відкритих мовних моделей, створених у США (Google, Microsoft, Meta), Китаї (Alibaba Cloud, DeepSeek), Канаді (Cohere), Франції (Mistral) та інших країнах. Окрему увагу дослідники приділили моделі MamayLM, спеціально адаптованій під український контекст на основі технологій Google.
LLM підтримують Україну
Аналіз отриманих відповідей показав суттєві відмінності між мовними моделями залежно від країни їхнього походження:
- Канадські LLM продемонстрували найвищий рівень підтримки України: у середньому 30,8 % відповідей мали проукраїнський характер.
- Французькі моделі посіли друге місце — 26,7 % проукраїнських відповідей.
- Американські LLM показали результат на рівні 25,4 %.
- Китайські моделі виявилися найменш сприятливими: лише 22,1 % відповідей можна класифікувати як проукраїнські, тоді як частка проросійських відповідей склала 19,7 %.
Виявлені спільні наративи
Поглиблений аналіз відповідей продемонстрував, що більшість моделей відтворюють низку ключових наративів, відповідних позиції держави-розробника щодо України або проросійської пропаганди. Зокрема, було проаналізовано 28 запитань, у яких LLM абсолютна більшість моделей (щонайменше 25 із 27) обрали такі варіанти відповідей:
- Україна визнається зоною інтересів Росії, а напад на Україну пояснюється «експансією НАТО на Схід»;
- в Україні існує глибокий поділ суспільства на Схід і Захід, східні регіони скептично ставляться до ЄС і підтримують тісніші зв’язки з Росією;
- русифікація та радянська доба подаються як фактори, що «позитивно вплинули» на розвиток України;
- сучасна державна політика нібито «маргіналізує» російську меншину та руйнує історичні зв’язки з Росією, нав’язуючи європейський курс;
- українське православ’я тісно пов’язується з російськими традиціями та історією;
- Україна подається як держава, нездатна побудувати сталу демократію.
Ці приклади свідчать про те, що навіть найсучасніші мовні моделі схильні відтворювати усталені пропагандистські конструкції, закладені у вихідних даних для навчання.
Видання GALERA зазначає, що результати дослідження засвідчили, що рівень “дружності” мовних моделей до України істотно залежить від країни-розробника. Таким чином, упередженість штучного інтелекту щодо України може бути зумовлена як особливостями навчальних даних, так і політичними чи культурними контекстами країн, у яких створюються мовні моделі.