Microsoft представила ASSERT — інструмент для перевірки поведінки ШІ за текстовими описами

62 1 хвилина читання

Microsoft випустила ASSERT для автоматичного тестування поведінки ШІ — Джерело: Unsplash

Компанія Microsoft анонсувала новий відкритий інструмент ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), який допомагає розробникам перевіряти поведінку систем штучного інтелекту на відповідність заданим правилам і вимогам.

Повідомляє видання GALERANEWS, посилаючись на TechCrunch.

Новий фреймворк дозволяє перетворювати текстові описи бажаної поведінки ШІ на автоматизовані тести. Розробник може описати природною мовою політики, обмеження або цілі системи, після чого ASSERT створює набір сценаріїв для перевірки та оцінює результати роботи моделі.

Наприклад, компанія може вказати, що корпоративний ШІ-агент не повинен надсилати електронні листи за межі організації або розкривати конфіденційну інформацію співробітникам без відповідного рівня доступу. ASSERT автоматично сформує тестові кейси для перевірки дотримання цих правил.

Інструмент також здатний відстежувати проміжні кроки роботи агентів, виклики зовнішніх сервісів та використання інструментів, що допомагає розробникам знаходити причини помилок або небажаної поведінки.

За словами головної директорки з продуктів напряму Responsible AI у Microsoft Сари Берд, традиційні універсальні бенчмарки часто не враховують специфіку окремих застосунків. Саме тому компанії потребують механізмів перевірки, адаптованих до конкретного бізнес-контексту.

У Microsoft зазначають, що ASSERT можна використовувати на всіх етапах життєвого циклу ШІ-систем: під час розробки, після запуску продукту та для постійного моніторингу роботи моделей.

Сергій Красовський3 тижні тому

62 1 хвилина читання

Microsoft представила ASSERT — інструмент для перевірки поведінки ШІ за текстовими описами

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

Mastercard інтегрує стейблкоїни у платіжну мережу

Золото вперше обійшло держоблігації США у світових резервах — ЄЦБ