Державна архівна служба України (Укрдержархів) вперше передала значний обсяг архівних даних обсягом 10 терабайтів для тренування української великої мовної моделі «Сяйво». Про це повідомляє Міністерство цифрової трансформації України.
10 терабайтів інформації еквівалентні приблизно 70 тисячам книжок. Це унікальні історичні матеріали, державні документи, рукописи, наукові тексти, нормативно-правові акти, судові рішення, медіаматеріали різних епох, а також інші джерела українською та іншими мовами.
Мета передачі даних — забезпечити якісне навчання національної мовної моделі на автентичних українських джерелах. На відміну від більшості глобальних ШІ-моделей, які генерують відповіді переважно англійською мовою з подальшим перекладом, «Сяйво» зможе глибше розуміти український історичний, культурний та правовий контекст, точніше працювати з державними документами та уникати втрати сенсу при перекладі.
«Щоб “Сяйво” стало надійним джерелом інформації для громадян і бізнесу, ми тренуємо його саме на українських даних. Модель вивчатиме історичні джерела, рукописи, закони, судові рішення, медіаматеріали та словники», — зазначили в Міністерстві цифрової трансформації.
Видання GALERANEWS дізналося, що передача даних Укрдержархівом стала важливим кроком у реалізації державної політики цифрового суверенітету та розвитку штучного інтелекту в Україні. Наразі до проєкту «Сяйво» долучилося вже понад 50 партнерів, серед яких державні установи, медіа, університети, бібліотеки та наукові організації. До кінця 2026 року планується збільшити кількість оцифрованих архівних документів із 150 мільйонів до понад 200 мільйонів одиниць.