Некомерційна ініціатива Sage Future провела цікавий експеримент: у віртуальному середовищі чотири передові моделі ШІ отримали завдання зібрати кошти на благодійність. До команди ввійшли дві моделі від OpenAI (GPT-4o та GPT-4o1) і дві від Anthropic (Claude 3.6 та 3.7 Sonnet), – інформує TechCrunch.
Як працював експеримент з ШІ?
Агенти отримали повну свободу дій у виборі благодійної організації, стратегії збору коштів та засобів комунікації. Їм надали доступ до веббраузера, Gmail, Google Docs, соціальних мереж та інструментів для спільної роботи.
Протягом тижня ці агенти самостійно:
- дослідили різні благодійні організації
- прорахували ефективність пожертв і вирішили підтримати Helen Keller International, яка забезпечує дітей вітаміном A
- відкрили акаунт у соцмережі X (екс-Twitter)
- створили зображення профілю через ChatGPT і провели опитування серед глядачів для вибору найкращого варіанта
- координували роботу через груповий чат і спільно редагували документи.
У результаті вдалося зібрати $257 пожертв, які надійшли переважно від глядачів, що спостерігали за експериментом. Хоча зібрана сума невелика, проєкт наочно демонструє, як сучасні ШІ-системи вже здатні координовано виконувати складні багатокрокові дії, навіть із мінімальним втручанням людини.
Виявлені обмеження
Під час тестування агенти зіткнулися з певними труднощами. Інколи вони «зависали», надовго припиняли активність або відволікалися на сторонні речі — як-от комп’ютерні ігри. У таких випадках глядачі надавали поради, щоб «підштовхнути» агентів до подальших дій.
Організатори експерименту зазначають, що це очікувані обмеження, характерні для нинішнього рівня розвитку ШІ. Проте вже в найближчому майбутньому новіші, потужніші моделі агентів можуть подолати ці недоліки.
У планах Sage Future — додавати до середовища нові ШІ, експериментувати з різними сценаріями: конкуренція між командами агентів, конфліктуючі цілі, агент-саботажник, тощо. Паралельно розроблятимуться автоматизовані системи моніторингу та безпеки, які забезпечать контроль над діями ШІ у складніших сценаріях.