Специалисты из института интеллектуального анализа данных Alibaba создали систему искусственного интеллекта EMO, которая оживляет статические изображения людей, позволяя им реалистично разговаривать или петь.
Система имитирует мимику и движение головы, которые соответствуют эмоциональному контексту озвученного текста, создавая анимацию.
«Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», - пояснил руководитель группы разработчиков Линьжуй Тянь.
В основе работы EMO лежит технология диффузионных моделей ИИ, способная создавать реалистичные визуальные образы. Разработчики обучили систему на большом объеме данных, включающих более 250 часов записей «говорящих голов»: выступлений, фрагментов кино, телешоу и музыкальных клипов.
Microsoft создала искусственный интеллект для финансистов.