Компанія Meta могла застосувати не зовсім чесні прийоми у публічному порівнянні продуктивності своєї нової ШІ-моделі. Йдеться про модель Maverick, яка нещодавно показала високі результати в популярному тесті LM Arena, посівши друге місце після GPT-4 Turbo.
Проте, як зазначають журналісти видання TechCrunch, модель, яку Meta використала для тесту, не є ідентичною тій, що доступна розробникам через API. Замість стандартної версії компанія застосувала експериментальну чат-версію, яка була спеціально оптимізована для кращих результатів у розмовних сценаріях.
Бенчмарки відіграють ключову роль у просуванні ШІ-продуктів. Вони створюють перше враження, впливають на інвесторів і розробників. Якщо компанія використовує спеціально підготовлену версію для тесту, це може вводити в оману щодо реальних можливостей моделі у практичному використанні.
Користувачі, які спробували Maverick через Meta API, уже зазначили, що продуктивність моделі суттєво відрізняється від продемонстрованих результатів. Це посилило сумніви у прозорості підходу Meta.
Meta наразі не дала чітких коментарів щодо технічних відмінностей між версіями моделі. Проте цей інцидент уже привернув увагу ШІ-спільноти, яка закликає до більшої відкритості у тестуванні й публічних звітах.
У гонці між OpenAI, Google, Meta та іншими гравцями, довіра до даних стає не менш важливою, ніж самі алгоритми.