Компанія Google намагається зміцнити свої позиції в області штучного інтелекта. Днями було анонсировано низку оновлень генеративних медіа-AI моделей, доступних через хмарну платформу Vertex AI. Про це повідомляє видання TechCrunch.
ШІ-модель Lyria перетворює текст на музику
Найбільш очікуваним релізом стала модель Lyria, яка перетворює текстові підказки на музику. Вона вже доступна в режимі попереднього перегляду для обраних клієнтів. За допомогою моделі можна створювати композиції в різноманітних стилях — від джазових фортепіанних соло до lo-fi треків.
ШІ-модель Chirp 3 — голос і розпізнавання
Також компанія презентувала Chirp 3, нову версію своєї моделі для обробки аудіо. Вона здатна синтезувати мовлення приблизно 35 мовами. Основна функція — Instant Custom Voice, яка може клонувати голос на основі всього 10 секунд запису. Інструмент вже доступний для широкого загалу, однак використання передбачає процедуру перевірки прав на голос, щоби уникнути зловживань.
Окрім цього, на базі Chirp 3 запущено в тестовому режимі ще один інструмент — Transcription with Diarization, що розпізнає й розрізняє голоси різних учасників у записах багатоголосих розмов.
ШІ-модель Veo 2 — відео зі спецефектами
Отримала оновлення і ШІ-модель, яка покликана створювати відео із спецефектами. ШІ-модель Veo 2 від Google вміє:
- видаляти фони, логотипи та об’єкти з відео
- переформатовувати відео з горизонтального в вертикальне (і навпаки)
- змінювати ракурси та темп сцени
- створювати таймлапси, кліпи в стилі дрон-зйомки та анімувати переходи між початковими й фінальними кадрами
Усі ці функції наразі доступні в режимі попереднього перегляду.
ШІ-модель Imagen 3 — редагування зображень
Нова версія генератора зображень Imagen 3 тепер значно краще справляється з видаленням об’єктів та реконструкцією пошкоджених або втрачених фрагментів зображень.
Google наголошує, що всі медіа, згенеровані Lyria, Veo та Imagen, маркуються за допомогою фірмової технології SynthID, яка забезпечує невидиме водяне маркування контенту. Модель Chirp 3 не підпадає під цей обов’язок.
Компанія також зазначає, що всі моделі мають вбудовані механізми захисту від створення шкідливого контенту. Однак питання даних для навчання моделей залишається відкритим — Google традиційно не розкриває, на яких конкретно джерелах базується тренування їх моделей. Це викликає занепокоєння у творців контенту, зокрема в контексті авторських прав.
Читайте також новину видання GALERA про дослідження загроз ШІ від Google та Microsoft.