У 2025 році Україна офіційно приєдналася до країн, які активно працюють над створенням власних великих мовних моделей (LLM). Це стратегічна ініціатива, що має на меті не лише технологічну незалежність, але й посилення національної ідентичності в цифрову епоху. Під координацією Центру розвитку штучного інтелекту при Мінцифрі, проєкт національної LLM поступово набирає обертів – повідомляє Dou. Розгляньмо ключові аспекти цього амбітного проєкту.
Технічні аспекти: як створюється українська LL
Національна LLM створюється на базі відкритих архітектур, зокрема LLaMA (Meta) та Mistral, з адаптацією до української мови й реалій. Основні виклики — якісна вибірка текстових даних українською, інфраструктура для тренування моделі та локалізація сучасних алгоритмів.
Підготовка корпусу включає збір даних з відкритих джерел — Вікіпедія, ЗМІ, законодавство, наукові публікації — а також очищення, нормалізацію й фільтрацію для запобігання токсичності, фейкам і дезінформації. Розробка включає:
- Пре-тренування на мільярдах токенів українською та англійською мовами;
- Інструкційне донавчання (instruction tuning) — моделювання поведінки під запити користувачів;
- RLHF — навчання з підкріпленням за допомогою людської оцінки відповідей.
Функціональність моделі: що зможе українська LLM
Модель буде мультифункціональною: від генерації тексту до аналізу документів, машинного перекладу, пошуку інформації, генерації коду, тощо. Особлива увага приділяється інтеграції з державними сервісами, освітою, оборонною та правовою сферами. Ціль — створити безпечного, культурно адекватного асистента, який може працювати офлайн, в умовах обмеженого інтернету або під час надзвичайних ситуацій.
Бюджет та ресурси
За словами Дмитра Овчаренка, CTO ШІ-центру Мінцифри, поточний бюджет оцінюється в 10 мільйонів гривень. Фінансування надходить з державних джерел та за підтримки приватних донорів та IT-компаній. Багато ресурсів надаються також у вигляді хмарних обчислювальних потужностей, включно з GPU для тренування.
Безпека: захист від маніпуляцій і фейків
Одна з головних задач — кібербезпека моделі, яку бідуть захищати від генерації шкідливих відповідей, маніпуляцій, пропаганди чи дезінформації. У моделі закладаються механізми фільтрації запитів, блокування токсичного контенту, уникнення конфліктогенних тем або відповідей, які можуть мати негативні наслідки.
Культурна відповідальність: український контекст і мова
Національна LLM повинна не просто “знати” українську мову, а бути культурно чутливою — розуміти контексти, історичні події, національні цінності. Наприклад, модель повинна правильно відповідати на запити про Голодомор, війну, релігію, традиції. Це вимагає глибокого залучення гуманітаріїв, філологів, істориків.
Цифрова незалежність і технологічна спроможність
Видання GALERA зазначає, що створення української LLM — не лише технологічний виклик, а й акт цифрової незалежності. В умовах глобальної конкуренції у сфері ШІ, власна модель — це гарантія безпеки, автономії й розвитку.