У контексті стрімкого розвитку технологій штучного інтелекту (ШІ), українські дослідники досягли значного прориву у створенні відкритих мовних моделей, адаптованих до української мови. Проєкт Lapa LLM, ініційований командою волонтерів, представляє собою одну з найефективніших великих мовних моделей (LLM), оптимізованих для обробки українського контенту – пише dev.ua.
У цьому матеріалі ми публікуємо ключові тези інтерв’ю з Юрієм Панівим, лідером проєкту. Розмова висвітлює технічні інновації, виклики розвитку та перспективи впровадження моделі в державному та комерційному секторах.
Огляд проєкту та його значення
Lapa LLM – це відкрита українськомовна велика мовна модель, розроблена з метою забезпечення високої ефективності обробки текстів українською мовою. Проєкт акцентує увагу на доступності: усі датасети, файли моделі та супровідні матеріали оприлюднено у відкритому доступі, з дозволом на комерційне використання. Модель призначена для застосування в таких сферах, як машинний переклад, підсумовування текстів, системи питання-відповідь та чат-боти.
Назва моделі віддає шану українському вченому Валентину Лапі, який у 1950-х роках разом з Олексієм Івахненком розробив метод групового врахування аргументів – один із перших кроків до сучасного глибокого навчання. Як зазначає Юрій Панів: “Ми назвали модель на честь Валентина Лапи – українського дослідника, який у 1950-х роках разом з Олексієм Івахненком створив метод групового врахування аргументів”. Цей проєкт не лише сприяє збереженню та розвитку української мови в цифровому просторі, але й демонструє потенціал національних ініціатив у глобальному ШІ-ландшафті.
Технічні аспекти та інновації
Одним із ключових досягнень Lapa LLM є оптимізація токенізації, адаптованої спеціально для української мови. Завдяки цій інновації модель обробляє текст у 1,5 раза швидше, ніж базова Gemma 3, без втрати якості. “Наша команда, зокрема Микола Гальтюк, розробила метод адаптації наявного токенізатора для української мови без втрати якості. У результаті ми можемо в півтора раза ефективніше перетворювати український текст у токени”, – пояснює Панів. Модель дотренована на обсязі 35 мільярдів токенів, включаючи спеціалізовані датасети для перекладів (зокрема, юридичні тексти на основі корпусів Європейського Союзу та України), підсумовування та діалогових систем.
Lapa LLM підтримує локальне розгортання, що забезпечує конфіденційність даних і робить її придатною для оборонного сектору. Для протидії дезінформації інтегровано унікальні датасети на основі перевірених джерел, таких як VoxCheck, з парами “пропаганда – контраргумент”, а також класифікатор для фільтрації маніпулятивного контенту. Ці елементи посилюють надійність моделі в умовах інформаційних загроз.
Команда розробників та процес створення
Проєкт реалізовано командою з близько 15 фахівців, з яких 12 працюють на постійній основі. Учасники – це провідні дослідники, старші інженери та студенти з українських університетів, об’єднані соціальним капіталом open-source-спільноти. Юрій Панів, аспірант Українського католицького університету за спеціальністю комп’ютерні науки та Data Scientist у компанії Nortal, очолює ініціативу. Розробка велася на волонтерських засадах у позаробочий час, без фінансової винагороди. Початкові обчислювальні ресурси – дві відеокарти A6000 на серверах УКУ – були надані за грантом від компанії Eleks. Додаткове фінансування отримано від французького стартапу Comand AI (для військових застосувань) та корпоративної підписки Hugging Face. “Уся команда працювала як волонтери у вільний від роботи час”, – підкреслює Панів.
Досягнення та практичний вплив
Lapa LLM визнана найкращою українськомовною моделлю на ринку, з перевагами в токенізації та перекладах з англійської на українську в різних доменах. Вона прискорює адаптацію українського законодавства до стандартів ЄС, потенційно скорочуючи терміни з дев’яти років до кількох місяців. Модель інтегрується з RAG-системами (Retrieval-Augmented Generation), чат-ботами та інструментами аналізу документів. Після релізу найпопулярнішими запитами стали “Хто тримає цей район?” (40% від загальної кількості) та генерація анекдотів. Співпраця з Міністерством цифрової трансформації України включає тестування моделі та надання зворотного зв’язку для подальших ітерацій.
Виклики у розробці
Серед основних труднощів – проблема галюцинацій, коли модель генерує некоректну інформацію. “Ми ще не знаємо, як це повністю виправити”, – визнає Панів, наводячи приклад вигаданих “хорор-казок” Тараса Шевченка. Ця проблема характерна для багатьох LLM, включаючи моделі від OpenAI та Gemma. Значну частину зусиль (близько 80%) витрачено на обробку даних: фільтрація 35 мільярдів токенів (виключення суржику та маніпулятивного контенту) тривала понад два місяці через обмеженість ресурсів – лише 64 GPU H100. Переклад датасетів для чат-компонентів зайняв 15 днів. Загалом, брак обчислювальних потужностей та волонтерський формат ускладнювали процес.
Перспективи розвитку
Видання GALERA.NEWS дізналося, що майбутні плани передбачають інтеграцію зворотного зв’язку від користувачів, впровадження reinforcement learning для оцінки відповідей без надмірного запам’ятовування, а також розширення на мультимодальність – обробку зображень, включаючи розпізнавання друкованого та рукописного тексту. Планується створення асистента для програмування українською мовою в закритих контурах. Команда прагне розвинути спільноту для внеску датасетів. “Ми не сприймаємо Lapa LLM як фінальну модель”, – заявляє Панів. За масштабуванням за законом Chinchilla Scaling Laws додано 37 мільярдів токенів, але потенціал для зростання залишається значним.