Компанія Microsoft анонсувала новий відкритий інструмент ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), який допомагає розробникам перевіряти поведінку систем штучного інтелекту на відповідність заданим правилам і вимогам.
Повідомляє видання GALERANEWS, посилаючись на TechCrunch.
Новий фреймворк дозволяє перетворювати текстові описи бажаної поведінки ШІ на автоматизовані тести. Розробник може описати природною мовою політики, обмеження або цілі системи, після чого ASSERT створює набір сценаріїв для перевірки та оцінює результати роботи моделі.
Наприклад, компанія може вказати, що корпоративний ШІ-агент не повинен надсилати електронні листи за межі організації або розкривати конфіденційну інформацію співробітникам без відповідного рівня доступу. ASSERT автоматично сформує тестові кейси для перевірки дотримання цих правил.
Інструмент також здатний відстежувати проміжні кроки роботи агентів, виклики зовнішніх сервісів та використання інструментів, що допомагає розробникам знаходити причини помилок або небажаної поведінки.
За словами головної директорки з продуктів напряму Responsible AI у Microsoft Сари Берд, традиційні універсальні бенчмарки часто не враховують специфіку окремих застосунків. Саме тому компанії потребують механізмів перевірки, адаптованих до конкретного бізнес-контексту.
У Microsoft зазначають, що ASSERT можна використовувати на всіх етапах життєвого циклу ШІ-систем: під час розробки, після запуску продукту та для постійного моніторингу роботи моделей.