Home » Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из изображений — что может пойти не так?

Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из изображений — что может пойти не так?

VLOGGER может сделать одну фотографию кого-либо и создать видеоролики с высокой точностью и различной продолжительностью, с точным выражением лица и движениями тела, вплоть до моргания, что превосходит предыдущие виды программного обеспечения «говорящей головы».

Google

Сообщество искусственного интеллекта (ИИ) настолько хорошо научилось создавать фальшивые движущиеся изображения (взгляните на Sora от OpenAI, представленную в прошлом месяце, с ее изящными воображаемыми пролетами), что приходится задаться интеллектуальным и практическим вопросом: что что нам делать со всеми этими видео?

Также: OpenAI представляет модель преобразования текста в видео, и результаты ошеломляют. Взгляните на себя

На этой неделе исследователь Google Энрик Корона и его коллеги ответили: контролируйте их с помощью нашего инструмента VLOGGER. VLOGGER может создавать видео разговаривающих людей в высоком разрешении на основе одной фотографии. Что еще более важно, VLOGGER может анимировать видео в соответствии с образцом речи, то есть технология может анимировать видео как контролируемое подобие человека — «аватар» высокой точности.

Этот инструмент может позволить создавать любые виды творчества. На самом простом уровне команда Corona предполагает, что VLOGGER может оказать большое влияние на аватары службы поддержки, поскольку более реалистично выглядящие синтетические говорящие люди могут «развивать эмпатию». Они предполагают, что технология может «открыть совершенно новые варианты использования, такие как улучшенное онлайн-общение, образование или персонализированные виртуальные помощники».

VLOGGER также может привести к новому рубежу в области дипфейков, реальных подобий, которые говорят и делают то, чего реальный человек на самом деле никогда не делал. Команда Corona намерена учесть социальные последствия VLOGGER в дополнительных вспомогательных материалах. Однако этот материал недоступен на странице проекта на GitHub. ZDNET обратился в Corona, чтобы узнать о вспомогательных материалах, но не получил ответа на момент публикации.

Также: По мере распространения агентов ИИ растут и риски, говорят ученые

Как описано в официальном документе «VLOGGER: Мультимодальное распространение для синтеза воплощенных аватаров», команда Corona стремится преодолеть неточности современного состояния аватаров. «Создание реалистичных видео людей по-прежнему сложно и изобилует артефактами», — пишет команда Короны.

Read more:  Memorial Hermann внедряет платформу искусственного интеллекта Laudio для автоматизации рабочих процессов

Команда отметила, что существующие видео-аватары часто обрезают тело и руки, показывая только лицо. ВЛОГГЕР может показывать туловище целиком вместе с движениями рук. Другие инструменты обычно имеют ограниченные вариации выражений лица или поз, предлагая лишь элементарную синхронизацию губ. VLOGGER может генерировать «видео высокого разрешения о движениях головы и верхней части тела». […] демонстрирует значительно разнообразные выражения лица и жесты» и является «первым подходом к созданию говорящих и движущихся людей с учетом речевых данных».

Как объяснила исследовательская группа, «именно автоматизация и поведенческий реализм [are] К чему мы стремимся в этой работе: VLOGGER — это мультимодальный интерфейс для воплощенного диалогового агента, оснащенный аудио- и анимированным визуальным представлением, демонстрирующий сложные выражения лица и возрастающий уровень движений тела, предназначенный для поддержки естественных разговоров с пользователем-человеком. .”

На основе одной фотографии (слева) программное обеспечение VLOGGER прогнозирует кадры видео (справа), которые должны сопровождать каждый момент звукового файла, в котором кто-то говорит, используя процесс, известный как «диффузия», а затем генерирует эти кадры видео в высоком разрешении. – качество определения.

Google

VLOGGER объединяет несколько последних тенденций в области глубокого обучения.

Мультимодальность объединяет множество режимов, которые инструменты ИИ могут поглощать и синтезировать, включая текст и аудио, изображения и видео.

Большие языковые модели, такие как GPT-4 от OpenAI, позволяют использовать естественный язык в качестве входных данных для выполнения различных действий, будь то создание абзацев текста, песни или изображения.

В последние годы исследователи также нашли множество способов создания реалистичных изображений и видео, усовершенствовав «диффузию». Этот термин пришел из молекулярной физики и обозначает, как при повышении температуры частицы материи переходят от высокой концентрации в определенной области к более рассеянным. По аналогии, биты цифровой информации можно рассматривать как «размытые», чем более бессвязными они становятся из-за цифрового шума.

Также: Подвиньтесь, Gemini, у искусственного интеллекта с открытым исходным кодом есть свои собственные видео-трюки

Диффузия ИИ вводит шум в изображение и реконструирует исходное изображение, чтобы обучить нейронную сеть находить правила, по которым оно было построено. Диффузия лежит в основе впечатляющего процесса генерации изображений в Stable Diffusion от Stability AI и DALL-E от OpenAI. Точно так же OpenAI создает красивые видеоролики в Sora.

Для VLOGGER команда Corona обучила нейронную сеть связывать звук говорящего с отдельными кадрами видео этого говорящего. Команда объединила диффузионный процесс восстановления видеокадра из аудио, используя еще одну недавнюю инновацию — Transformer.

Read more:  Банк Канады снова сохранил ключевую процентную ставку на уровне 5%, заявив, что для снижения ставок еще слишком рано

Transformer использует метод внимания для прогнозирования видеокадров на основе кадров, произошедших в прошлом, в сочетании со звуком. Прогнозируя действия, нейронная сеть учится отображать точные движения рук и тела, а также выражения лица, кадр за кадром, синхронно со звуком.

Последний шаг — использовать прогнозы этой первой нейронной сети для последующей генерации кадров видео высокого разрешения с использованием второй нейронной сети, которая также использует диффузию. Этот второй шаг также является высшей точкой в ​​данных.

Также: Генеративный ИИ не справляется с этой очень распространенной способностью человеческого мышления.

Чтобы сделать изображения с высоким разрешением, команда Corona собрала MENTOR — набор данных, содержащий 800 000 «личностей» видео говорящих людей. MENTOR состоит из 2200 часов видео, что, по утверждению команды, делает его «самым большим набором данных, используемым на сегодняшний день с точки зрения идентичности и длины», и в 10 раз больше, чем предыдущие сопоставимые наборы данных.

Авторы считают, что они могут улучшить этот процесс с помощью последующего шага, называемого «тонкая настройка». Отправив в VLOGGER полноразмерное видео после того, как оно уже было «предварительно обучено» на MENTOR, они смогут более реалистично уловить особенности движения головы человека, например моргание: «Путем точной настройки нашей диффузионной модели с использованием большего количества данных На монокулярном видео VLOGGER может научиться лучше фиксировать личность, например, когда на эталонном изображении глаза закрыты», — процесс, который команда называет «персонализацией».

Нейронная сеть VLOGGER представляет собой комбинацию двух разных нейронных сетей. Первый использует «замаскированное внимание» через преобразователь, чтобы предсказать, какие позы должны произойти в кадре видео, на основе звука, исходящего из записанного аудиосигнала динамика. Вторая нейронная сеть использует диффузию для генерации последовательной последовательности видеокадров, используя признаки движения и выражения тела из первой нейронной сети.

Read more:  Что «Никс» нужно от Эр Джей Барретта, Иммануэля Квикли, Квентина Граймса

Google

Главный смысл этого подхода (связывание прогнозов в одной нейронной сети с изображениями высокого разрешения, что делает VLOGGER провокационным) заключается в том, что программа не просто генерирует видео, как это делает Сора. VLOGGER связывает это видео с действиями и выражениями лиц, которыми можно управлять. Его реалистичными видеороликами можно манипулировать по мере их разворачивания, как марионетками.

Также: Генеральный директор Nvidia Дженсен Хуанг представил семейство чипов Blackwell следующего поколения на выставке GTC

«Наша цель — преодолеть разрыв между недавними усилиями по синтезу видео», — написала команда Короны, — «которые могут генерировать динамические видео без контроля над личностью или позой, и контролируемыми методами генерации изображений».

VLOGGER может быть не только голосовым аватаром, но также может выполнять функции редактирования, такие как изменение рта или глаз говорящего субъекта. Например, виртуального человека, который много моргает в видео, можно изменить на моргающего мало или вообще не моргать. Манера речи с широким ртом могла быть сведена к более дискретному движению губ.

Получив возможность управлять видео высокого разрешения с помощью голосовых подсказок, VLOGGER открывает путь к манипуляциям, таким как изменение движений губ говорящего на каждом участке видео, чтобы они отличались от исходного исходного видео.

ВЛОГЕР

Достигнув нового уровня развития моделирования людей, команда Короны не решает вопрос: чего миру следует ожидать от любого неправильного использования этой технологии. Легко представить образ политического деятеля, говорящего что-то абсолютно катастрофическое, скажем, о неминуемой ядерной войне.

Предположительно, следующим этапом в этой игре с аватарами станут нейронные сети, которые, подобно «тесту Войта-Кампфа» в фильме «Бегущий по лезвию», смогут помочь обществу определить, какие говорящие настоящие, а какие — просто дипфейки с удивительно реалистичными манерами.

2024-03-23 19:45:00


1711227062
#Модель #искусственного #интеллекта #VLOGGER #от #Google #может #создавать #видеоаватары #из #изображений #что #может #пойти #не #так

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.