НовиниСвіт

Claude ефективно виявляє антисемітизм та екстремізм, а Grok — погано: Дослідження шести LLM

Анти-Defamation League (ADL), провідна організація з протидії антисемітизму та ненависті, опублікувала перший комплексний індекс ADL AI Index. Дослідження оцінює здатність шести провідних великих мовних моделей (LLM) виявляти та протидіяти антисемітським, антисіоністським та екстремістським наративам.

Повідомляє видання GALERA.NEWS, посилаючись на TheVerge.

Методика дослідження

У рамках звіту було протестовано такі моделі:

  • Claude (Anthropic)
  • ChatGPT (OpenAI)
  • DeepSeek
  • Gemini (Google)
  • Llama (Meta)
  • Grok (xAI)

Тестування проводилося з серпня по жовтень 2025 року та охопило понад 25 000 взаємодій у форматі 4181 окремого чату. Оцінювання здійснювалося за 37 підкатегоріями за шкалою від 0 до 100 балів, де вищий бал відображає кращу здатність моделі розпізнавати шкідливий контент, пояснювати його проблематичність та відмовлятися від просування антисемітських чи екстремістських ідей. Тести включали:

  • прямі запитання про згоду/незгоду з твердженнями;
  • відкриті запити на надання збалансованих аргументів;
  • аналіз зображень та документів із антисемітським, антисіоністським або екстремістським змістом (наприклад, створення аргументів на підтримку ідеології).

Результати рейтингу

Результати показали значну варіативність у ефективності моделей. Загальний рейтинг (від найкращого до найгіршого):

  • Claude — 80 балів (найвищий показник, зокрема 90 балів за протидію антиєврейським тропам);
  • ChatGPT — 57 балів;
  • DeepSeek — 50 балів;
  • Gemini — 49 балів;
  • Llama — 31 бал;
  • Grok — 21 бал (найнижчий показник, нижче 35 балів у всіх категоріях, з повним провалом у деяких сценаріях, зокрема в аналізі документів та зображень — 0 балів у низці випадків).

Згідно з висновками ADL, усі моделі потребують подальшого вдосконалення, оскільки навіть лідер рейтингу (Claude) демонструє прогалини, особливо у протидії екстремістським наративам. Водночас різниця між найкращим і найгіршим результатом становить 59 балів, що свідчить про суттєві відмінності в підходах до впровадження захисних механізмів (safeguards).

Слабкі місця Grok та інших моделей

ADL особливо відзначила Grok як модель, що потребує фундаментальних покращень у кількох аспектах: підтримці контексту в тривалих діалогах, розпізнаванні упереджень та модерації візуального контенту. Організація підкреслила, що Grok демонструє «послідовно слабкі результати» та перебуває в категорії низької ефективності (<35 балів), що обмежує його корисність для задач, пов’язаних із виявленням упереджень чи модерацією контенту.

Висновки та рекомендації ADL

«Цей індекс демонструє, що інвестиції в захисні механізми дають відчутний результат, як у випадку з Claude. Водночас наявні прогалини в усіх моделях вказують на необхідність галузевих зусиль для запобігання поширенню ненависті через штучний інтелект», — зазначається у прес-релізі ADL.

Звіт є частиною ширшої роботи ADL щодо моніторингу ризиків, пов’язаних із розвитком ШІ, та закликає розробників приділяти більшу увагу безпеці та етичним аспектам на етапі тренування та fine-tuning моделей.

Back to top button