Американський стартап Odyssey представив нову ШІ-модель, яка дозволяє транслювати та досліджувати інтерактивні відеосцени в реальному часі. Рання демонстраційна версія вже доступна у вебінтерфейсі, повідомляє видання TechCrunch.
Система транслює відеокадри кожні 40 мілісекунд та дозволяє користувачеві переміщатися по сцені так, як у відеогрі, використовуючи прості засоби керування.
В основі моделі — world model, яка прогнозує зміни середовища на основі історії попередніх дій і станів. За словами Odyssey, модель здатна генерувати реалістичні пікселі, зберігати просторову логіку, вивчати дії з відео та стабільно створювати відеопотоки тривалістю понад 5 хвилин.
Хоча демонстраційна версія поки має недоліки, компанія обіцяє швидке вдосконалення моделі. Технологія наразі підтримує трансляцію до 30 кадрів за секунду з використанням кластерів GPU Nvidia H100. Вартість — близько $1–2 на годину використання на одного користувача.
Odyssey використовує унікальний підхід до збору даних: власну 360-градусну камеру на рюкзаку, яка фіксує реальні пейзажі — це, на думку компанії, дозволяє створювати якісніші моделі, ніж ті, що тренуються лише на відкритих даних.
Інші стартапи й великі компанії, зокрема DeepMind, Microsoft, World Labs та Decart, також працюють над подібними world models. Передбачається, що такі моделі стануть основою для створення інтерактивного контенту нового покоління: ігор, фільмів, симуляцій та навчальних середовищ для роботів.
Компанія заявляє, що не прагне замінити творчих фахівців, а навпаки — надасть їм інструменти: вже створюється програмне забезпечення для експорту сцен у Unreal Engine, Blender та Adobe After Effects для подальшої ручної обробки.