Створення національної великої мовної моделі (LLM) в Україні

Аркадій Хвиля10.04.2025

86 2 хвилин читання

Створення національної великої мовної моделі (LLM) в Україні: технічні аспекти, функціональність, бюджет, безпека та культурна відповідальність — Джерело: freepik

У 2025 році Україна офіційно приєдналася до країн, які активно працюють над створенням власних великих мовних моделей (LLM). Це стратегічна ініціатива, що має на меті не лише технологічну незалежність, але й посилення національної ідентичності в цифрову епоху. Під координацією Центру розвитку штучного інтелекту при Мінцифрі, проєкт національної LLM поступово набирає обертів – повідомляє Dou. Розгляньмо ключові аспекти цього амбітного проєкту.

Технічні аспекти: як створюється українська LL

Національна LLM створюється на базі відкритих архітектур, зокрема LLaMA (Meta) та Mistral, з адаптацією до української мови й реалій. Основні виклики — якісна вибірка текстових даних українською, інфраструктура для тренування моделі та локалізація сучасних алгоритмів.

Підготовка корпусу включає збір даних з відкритих джерел — Вікіпедія, ЗМІ, законодавство, наукові публікації — а також очищення, нормалізацію й фільтрацію для запобігання токсичності, фейкам і дезінформації. Розробка включає:

Пре-тренування на мільярдах токенів українською та англійською мовами;
Інструкційне донавчання (instruction tuning) — моделювання поведінки під запити користувачів;
RLHF — навчання з підкріпленням за допомогою людської оцінки відповідей.

Функціональність моделі: що зможе українська LLM

Модель буде мультифункціональною: від генерації тексту до аналізу документів, машинного перекладу, пошуку інформації, генерації коду, тощо. Особлива увага приділяється інтеграції з державними сервісами, освітою, оборонною та правовою сферами. Ціль — створити безпечного, культурно адекватного асистента, який може працювати офлайн, в умовах обмеженого інтернету або під час надзвичайних ситуацій.

Бюджет та ресурси

За словами Дмитра Овчаренка, CTO ШІ-центру Мінцифри, поточний бюджет оцінюється в 10 мільйонів гривень. Фінансування надходить з державних джерел та за підтримки приватних донорів та IT-компаній. Багато ресурсів надаються також у вигляді хмарних обчислювальних потужностей, включно з GPU для тренування.

Безпека: захист від маніпуляцій і фейків

Одна з головних задач — кібербезпека моделі, яку бідуть захищати від генерації шкідливих відповідей, маніпуляцій, пропаганди чи дезінформації. У моделі закладаються механізми фільтрації запитів, блокування токсичного контенту, уникнення конфліктогенних тем або відповідей, які можуть мати негативні наслідки.

Культурна відповідальність: український контекст і мова

Національна LLM повинна не просто “знати” українську мову, а бути культурно чутливою — розуміти контексти, історичні події, національні цінності. Наприклад, модель повинна правильно відповідати на запити про Голодомор, війну, релігію, традиції. Це вимагає глибокого залучення гуманітаріїв, філологів, істориків.

Цифрова незалежність і технологічна спроможність

Видання GALERA зазначає, що створення української LLM — не лише технологічний виклик, а й акт цифрової незалежності. В умовах глобальної конкуренції у сфері ШІ, власна модель — це гарантія безпеки, автономії й розвитку.

Позначки