НовиниСвіт

Тестування та порівняння ШІ-моделей стає надто дорогим

У міро того, як розвивається штучний інтелект, його тестування, аналіз та порівняння стає дедалі дорожчим. Видання TechCrunch наголошує, що бенчмаркування  моделей ШІ, які здатні мислити крок за кроком, стає дедалі дорожчим. 

Вартість бенчмаркінгу: приклади з ринку

Згідно з даними незалежної дослідницької організації Artificial Analysis, перевірка можливостей моделі OpenAI o1 на 7 популярних тестах обійшлася у $2 767,05. Тестування моделі Claude 3.7 Sonnet від Anthropic коштувало $1 485,35. Найдешевшим виявилося тестування OpenAI o1-mini — $141,22.

Загалом Artificial Analysis витратила близько $5 200 на аналіз приблизно 12 reasoning-моделей. Для порівняння, тестування понад 80 моделей без reasoning-здатностей коштувало лише $2 400.

Чому витрати на ШІ зростають?

Основна причина — велика кількість токенів, які генерують reasoning-моделі. Один токен — це частинка тексту, наприклад, слово «фантастично» розбивається на «фан», «тас», «тично». У тестах OpenAI o1 згенерувала понад 44 мільйони токенів, що в 8 разів більше, ніж GPT-4o.

Враховуючи, що більшість компаній ШІ беруть оплату за кількість токенів, витрати на тестування зростають пропорційно складності завдань.

Як пояснює Жан-Станіслас Дене, старший дослідник Epoch AI, сучасні тести стали менш чисельними, але більш складними: вони перевіряють здатність ШІ до реальних завдань — написання коду, аналізу даних, навіть симуляції користування комп’ютером.

Під питання опинилася і прозорість тестів. Хоча деякі AI-компанії, як-от OpenAI, надають безкоштовний або пільговий доступ до моделей для тестування, це також викликає занепокоєння щодо нейтральності результатів. Навіть без прямих маніпуляцій, сам факт залученості розробника моделі може впливати на об’єктивність аналізу.

Back to top button