Google представил нейросеть для создания видео со звуком

Google представила Veo 3 — новый генератор видео на основе искусственного интеллекта, способный создавать не только видеоряд, но и звуковые эффекты, фоновый шум и даже диалоги, сообщает CNBC.

Veo 3 позиционируется как конкурент популярной платформы Sora от OpenAI, однако ключевым отличием продукта Google стала возможность интеграции аудиосопровождения непосредственно в создаваемые ролики. Генеральный директор подразделения Google DeepMind Демис Хассабис заявил, что с запуском Veo 3 заканчивается "безмолвная эра" ИИ-генерации видео. Теперь пользователи могут не только задавать описание персонажей и их окружения, но и прописывать диалоги, определяя интонацию и характер звучания. На пресс-конференции Хассабис подчеркнул значимость новых функций для развития креативных технологий.

В Google DeepMind также рассказали о внедрении собственной технологии SynthID, позволяющей встраивать невидимые водяные знаки в сгенерированные видеоролики — эта мера должна снизить риски распространения дипфейков. По данным TechCrunch, для обучения Veo 3 компания, вероятно, использовала контент с YouTube.

Помимо Veo 3, Google анонсировала ИИ-модель Imagen 4 для генерации изображений, а также сервис Flow для создания видеоконтента. При этом, как отмечает CNBC, у компании неоднозначная репутация в сфере генеративных разработок: ранее работу Imagen 3 приостанавливали из-за жалоб на неточности и искажения исторического контекста. Сооснователь Google Сергей Брин признал, что компания столкнулась с проблемами качества, сославшись на недостаточно тщательное тестирование продуктов.