Міністерство цифрової трансформації України спільно з компанією «Київстар» оголосили про початок збору українського контенту для навчання національної великої мовної моделі (LLM). Проєкт має на меті створення сучасного штучного інтелекту, адаптованого до української мови та національного контексту – пише dev.ua.
Збір даних передбачає добровільну передачу матеріалів від представників медіа, наукових та освітніх установ, культурних організацій і бізнесу. Надані тексти використовуватимуться виключно для навчання штучного інтелекту за чіткими юридичними умовами, що забезпечують захист інтелектуальної власності їхніх авторів.
Серед матеріалів, які можуть бути передані для навчання LLM, Міністерство виділяє:
- публікації та новинні матеріали;
- наукові та навчальні тексти;
- літературні твори та критичні огляди;
- історичні документи та архівні матеріали;
- відкриту бізнес‑інформацію та технічну документацію.
Національна велика мовна модель розробляється як український аналог відомих міжнародних моделей, таких як ChatGPT або Google Gemini, з метою забезпечення якісного та безпечного доступу до сучасних технологій штучного інтелекту для громадян, державних установ та бізнесу.
Зазначається, що запуск національної LLM очікується у 2026 році. На даному етапі ключовим завданням є формування якісного та різноманітного корпусу українських даних, необхідного для тренування моделі.
Видання GALERA.NEWS зазаначає, що Міністерство цифрової трансформації України наголошує на важливості активної участі громадськості та партнерів у проєкті, що дозволить створити технологію, максимально адаптовану до потреб українського суспільства.