Home » Microsoft может перемещать фотографию в реальном времени в соответствии со звуком. Оно настолько хорошо, что он предпочел бы его никому не отдавать – Živě.cz

Microsoft может перемещать фотографию в реальном времени в соответствии со звуком. Оно настолько хорошо, что он предпочел бы его никому не отдавать – Živě.cz

Азиатское отделение Microsoft Research опубликовало свой фреймворк VASA-1, который создает реалистичное видео говорящего персонажа из одной фотографии или просто нарисованного изображения и звуковой дорожки.

Главное нововведение — расширенные возможности анимации, передающие эмоции и движения головы для создания естественного видео. Microsoft не использовала реальных людей для своих демонстраций, а только несуществующие лица, созданные искусственным интеллектом:

Следует сразу сказать, что у Microsoft нет коммерческих планов по этому проекту и она не намерена выпускать публичную демо-версию или какой-либо API. Это чисто внутренние исследования, которые из-за опасений злоупотреблений не хотят предоставлять бесплатно или за плату.

Недавно мы писали об AI EMO от Alibaba, которая пытается сделать нечто подобное, но столь резкого мнения не последовало, и она может попасть в коммерческое внедрение.

Судя по демо-версиям Microsoft, хотя они и выглядят очень реалистично, все же можно сказать, что это искусственно созданное видео. Зубы по-разному изгибаются вместе с лицом, хотя на самом деле они, конечно, не являются гибкими. Вы не пропустите подозрительно фиксированное расстояние между глазами, которое не уменьшается даже при незначительном повороте лица. Лучше всего это видно в предпоследнем блоке встроенного сюда образца с лицом на зеленом фоне, которое движется очень нереалистично. Здесь тот факт, что генераторы лиц ИИ в настоящее время используют фиксированное расстояние между глазами, также облегчает Microsoft генерацию. Больше образцов видео, в том числе рэп Моны Лизы, вы можете найти на странице проекта.

Вы также можете анимировать нереалистично выглядящие лица.

Однако преимуществом решения Microsoft является возможность генерации непосредственно в реальном времени, на данный момент в документе они заявляют, что управляют 40 FPS на RTX 4090. Так что мы еще не на том этапе, когда легкий ноутбук в кофейне мог бы справиться с этим, но акцент на реальном времени здесь указывает на запланированное развертывание.

Read more:  Элс Доттерманс: «За кулисами мы притворялись, что насилуем друг друга. А если мне это не нравилось, я говорил: «Не сейчас».

В случае с Microsoft реальное использование будет предложено, например, внутри Teams, где для передачи эмоций в видеочате легко может быть достаточно только анимированной фотографии и передачи голоса, а также значительная экономия пропускной способности передачи при сохранении изображения. качество. Таким образом, вы можете присоединиться к конференции с помощью всего лишь голосового вызова, а ваша фотография, хранящаяся в сети компании, позаботится о передаче формы на видео.

Он обязательно найдет применение в анимационных постановках, когда сможет анимировать лица в стиле мультфильма и обеспечить синхронизацию губ с произносимой дорожкой. Это также облегчит возможную тонкую настройку под разные языковые версии дубляжа.

Но публикация здесь только образцов, а не самого движка, подчеркивает новую тенденцию, когда исследователи в достаточной степени осознают угрозу злоупотреблений, и хотя это не останавливает их от дальнейших расследований, они указывают на дырявую законодательную базу, которая пока не позволяет для такого дела.

2024-04-18 12:46:35


1713453000
#Microsoft #может #перемещать #фотографию #реальном #времени #соответствии #со #звуком #Оно #настолько #хорошо #что #он #предпочел #бы #его #никому #не #отдавать #Živě.cz

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.