Азиатское отделение Microsoft Research опубликовало свой фреймворк VASA-1, который создает реалистичное видео говорящего персонажа из одной фотографии или просто нарисованного изображения и звуковой дорожки.
Главное нововведение — расширенные возможности анимации, передающие эмоции и движения головы для создания естественного видео. Microsoft не использовала реальных людей для своих демонстраций, а только несуществующие лица, созданные искусственным интеллектом:
Следует сразу сказать, что у Microsoft нет коммерческих планов по этому проекту и она не намерена выпускать публичную демо-версию или какой-либо API. Это чисто внутренние исследования, которые из-за опасений злоупотреблений не хотят предоставлять бесплатно или за плату.
Недавно мы писали об AI EMO от Alibaba, которая пытается сделать нечто подобное, но столь резкого мнения не последовало, и она может попасть в коммерческое внедрение.
Судя по демо-версиям Microsoft, хотя они и выглядят очень реалистично, все же можно сказать, что это искусственно созданное видео. Зубы по-разному изгибаются вместе с лицом, хотя на самом деле они, конечно, не являются гибкими. Вы не пропустите подозрительно фиксированное расстояние между глазами, которое не уменьшается даже при незначительном повороте лица. Лучше всего это видно в предпоследнем блоке встроенного сюда образца с лицом на зеленом фоне, которое движется очень нереалистично. Здесь тот факт, что генераторы лиц ИИ в настоящее время используют фиксированное расстояние между глазами, также облегчает Microsoft генерацию. Больше образцов видео, в том числе рэп Моны Лизы, вы можете найти на странице проекта.
Вы также можете анимировать нереалистично выглядящие лица.
Однако преимуществом решения Microsoft является возможность генерации непосредственно в реальном времени, на данный момент в документе они заявляют, что управляют 40 FPS на RTX 4090. Так что мы еще не на том этапе, когда легкий ноутбук в кофейне мог бы справиться с этим, но акцент на реальном времени здесь указывает на запланированное развертывание.
В случае с Microsoft реальное использование будет предложено, например, внутри Teams, где для передачи эмоций в видеочате легко может быть достаточно только анимированной фотографии и передачи голоса, а также значительная экономия пропускной способности передачи при сохранении изображения. качество. Таким образом, вы можете присоединиться к конференции с помощью всего лишь голосового вызова, а ваша фотография, хранящаяся в сети компании, позаботится о передаче формы на видео.
Он обязательно найдет применение в анимационных постановках, когда сможет анимировать лица в стиле мультфильма и обеспечить синхронизацию губ с произносимой дорожкой. Это также облегчит возможную тонкую настройку под разные языковые версии дубляжа.
Но публикация здесь только образцов, а не самого движка, подчеркивает новую тенденцию, когда исследователи в достаточной степени осознают угрозу злоупотреблений, и хотя это не останавливает их от дальнейших расследований, они указывают на дырявую законодательную базу, которая пока не позволяет для такого дела.
2024-04-18 12:46:35
1713453000
#Microsoft #может #перемещать #фотографию #реальном #времени #соответствии #со #звуком #Оно #настолько #хорошо #что #он #предпочел #бы #его #никому #не #отдавать #Živě.cz