Нерозбірливий почерк лікарів залишається однією з найпоширеніших проблем української системи охорони здоров’я. Пацієнти, фармацевти та медичні працівники щодня стикаються з труднощами при розшифруванні рецептів, медичних довідок та історій хвороб. Це призводить до помилок у призначенні ліків, затримок у лікуванні та зайвого навантаження на персонал. Сьогодні держава пропонує сучасне рішення: Міністерство економіки України разом із Державним архівом та іншими відомствами запустило проєкт зі створення національного датасету рукописного тексту для навчання штучного інтелекту – пише happymonday.
Сутність державного проєкту
Ініціатива спрямована на створення якісного україномовного корпусу розміченого рукописного тексту. За словами розробників, в відкритому доступі досі бракувало достатньої кількості якісних даних українською мовою, необхідних для ефективного навчання моделей штучного інтелекту.
Головні цілі проєкту:
- Навчити ШІ якісно розпізнавати складний рукописний текст, включно зі «старими» документами та медичними довідками.
- Поліпшити розпізнавання почерку лікарів, рецептів і медичних записів.
- Створити основу для подальшої цифровізації архівних матеріалів і поточних медичних документів.
Про деталі проєкту розповідав, зокрема, ML Lead застосунку «Мрія» Дмитро Войтех. Робота ведеться спільно з державними установами, що підкреслює стратегічний характер ініціативи для розвитку цифрової інфраструктури України.
Чому це важливо саме для України
Українські лікарі, як і їхні колеги в багатьох країнах, часто пишуть швидко, використовуючи скорочення, латинські терміни та специфічні позначення. У результаті фармацевти витрачають багато часу на уточнення, а пацієнти ризикують неправильно зрозуміти призначення.
Впровадження спеціалізованої моделі ШІ дозволить:
- Зменшити кількість медикаментозних помилок і підвищити безпеку пацієнтів.
- Пришвидшити обробку документів у поліклініках, лікарнях та аптеках.
- Сприяти переходу до електронної медицини, зберігаючи можливість працювати з паперовими носіями.
- Полегшити життя пацієнтам, особливо людям похилого віку, які часто отримують рукописні рецепти.
Крім медичної сфери, технологія буде корисною для оцифрування історичних архівів, рукописних документів радянського періоду та інших матеріалів державних установ.
Як працює технологія
Сучасні системи розпізнавання рукописного тексту (Handwritten Text Recognition, HTR) базуються на глибоких нейронних мережах. Вони аналізують не лише окремі символи, а й контекст: медичну термінологію, типові скорочення, дозування препаратів та особливості українського письма.
Моделі тренуються на великих масивах даних. Чим якісніший і різноманітніший датасет (з урахуванням різних стилів почерку, якості паперу та умов зйомки), тим вища точність розпізнавання. У майбутньому такі системи можна буде інтегрувати в мобільні додатки, щоб користувач просто сфотографував рецепт і отримав чіткий цифровий текст.
Світовий досвід (зокрема, функція Google Lens для розпізнавання рецептів) показує, що спеціально навчені моделі значно перевершують загальні OCR-системи при роботі з медичними записами.
Перспективи та виклики
Видання GALERA.NEWS зазаначає, що проєкт Мінекономіки та Держархіву — важливий крок до створення національної бази даних для ШІ в українській мові.
Серед основних викликів:
- Збір і якісне розмічування великого обсягу даних.
- Забезпечення конфіденційності медичної інформації.
- Досягнення високої точності для найскладніших варіантів почерку.
- Інтеграція рішень у наявні електронні системи охорони здоров’я.
У перспективі проєкт дозволить розробити власні інструменти, адаптовані до особливостей українського правопису, медичної термінології та регіональних варіантів почерку.