OpenAI разрушает медиа-реальность с помощью Sora, фотореалистичного видеогенератора с искусственным интеллектом

Увеличить / Снимки из трех видеороликов, созданных с помощью Sora от OpenAI.

В четверг OpenAI объявила Сора, модель искусственного интеллекта для преобразования текста в видео, которая может генерировать 60-секундное фотореалистичное HD-видео на основе письменных описаний. Хотя это всего лишь исследовательский предварительный просмотр, который мы не тестировали, он, как сообщается, создает синтетическое видео (но пока не аудио) с точностью и согласованностью, превосходящими любую доступную на данный момент модель преобразования текста в видео. Это также пугает людей.

«Было приятно познакомиться со всеми вами. Пожалуйста, расскажите своим внукам о моих видео и о том, как долго мы приложили усилия, чтобы их записать», написал Технический репортер Wall Street Journal Джоанна Стерн о X.

«Это может быть момент «черт побери» для ИИ», написал Том Уоррен из The Verge.

«Каждое из этих видео создано искусственным интеллектом, и если вас это хоть немного не касается, то ничего не будет», — сказал он. написал в Твиттере Технический журналист YouTube Маркес Браунли.

Для справки на будущее — поскольку когда-нибудь такая паника покажется смешной — существует поколение людей, выросших с убеждением, что фотореалистичное видео должно создаваться с помощью фотоаппаратов. Когда видео подделывали (скажем, для голливудских фильмов), на это уходило много времени, денег и усилий, а результаты не были идеальными. Это давало людям базовый уровень уверенности в том, что то, что они видели удаленно, скорее всего, было правдой или, по крайней мере, отражало какую-то основную истину. Даже когда ребенок перепрыгнул через лавубыл хотя бы ребенок и комната.

Подсказка, которая создала видео выше: “Трейлер фильма, рассказывающий о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снятый на 35-мм пленку, яркие цвета.“

Такие технологии, как Сора, выбивают почву из-под такой системы взглядов СМИ. Очень скоро каждое фотореалистичное видео, которое вы видите в Интернете, может оказаться на 100 процентов фальшивым во всех отношениях. Более того, каждое историческое видео, которое вы видите, также может быть ложным. То, как мы противостоим этому как общество и обходим его, сохраняя доверие к удаленным коммуникациям, выходит далеко за рамки этой статьи, но я попробовал свои силы в этом. предлагая некоторые решения еще в 2020 году, когда все технологии, которые мы видим сейчас, казались большинству людей далекой фантазией.

В этой статье я назвал момент, когда правда и вымысел в средствах массовой информации становятся неразличимыми, «культурной сингулярностью». Похоже, что OpenAI находится на пути к тому, чтобы этот прогноз сбылся немного раньше, чем мы ожидали.

Быстрый: Отражения в окне поезда, едущего по пригороду Токио.

OpenAI обнаружила, что, как и другие модели ИИ, использующие архитектуру трансформатора, Sora масштабируется с доступными вычислительными ресурсами. Учитывая, что за кулисами стоят гораздо более мощные компьютеры, точность видео AI может со временем значительно улучшиться. Другими словами, это «худшее» видео, созданное искусственным интеллектом, которое когда-либо будет выглядеть. Синхронизированного звука пока нет, но это может быть решено в будущих моделях.

Как (мы думаем) им это удалось

За последние два года синтез видео с помощью искусственного интеллекта продвинулся семимильными шагами. Впервые мы рассмотрели модели преобразования текста в видео в сентябре 2022 г. Видео Make-A-Video от Meta. Месяц спустя Google продемонстрировал Изображение Видео. И всего 11 месяцев назад созданная ИИ версия Уилл Смит ест спагетти стал вирусным. В мае прошлого года Runway Gen-2, ранее считавшаяся лидером в области преобразования текста в видео, помогла создать фальшивая реклама пива полный извращенных чудовищ, генерируемых с интервалом в две секунды. В более ранних моделях генерации видео люди с легкостью появлялись и выходили из реальности, конечности сливались вместе, как макароны, а физика, похоже, не имела значения.

Сора (что по-японски означает «небо») кажется чем-то совершенно другим. Он имеет высокое разрешение (1920×1080), может генерировать видео с временной последовательностью (сохраняя один и тот же объект с течением времени), которое длится до 60 секунд, и, кажется, следует текстовым подсказкам с большой точностью. Итак, как OpenAI справилась с этим?

OpenAI обычно не делится инсайдерскими техническими подробностями с прессой, поэтому нам остается строить предположения, основываясь на теориях экспертов и информации, предоставленной общественности.

OpenAI утверждает, что Sora — это диффузная модель, во многом похожая на ОТ-Е 3 и Стабильная диффузия. Он генерирует видео, начиная с шума, и «постепенно преобразует его, удаляя шум на протяжении многих шагов», поясняет компания. Он «распознает» объекты и понятия, перечисленные в письменной подсказке, и, так сказать, вытаскивает их из шума, пока не возникнет связная серия видеокадров.

Sora способна создавать видео одновременно из текстовой подсказки, расширять существующие видео или создавать видео из неподвижных изображений. Он достигает временной согласованности, предоставляя модели «предвидение» сразу многих кадров, как это называет OpenAI, решая проблему обеспечения того, чтобы сгенерированный объект оставался неизменным, даже если он временно выпадает из поля зрения.

OpenAI представляет видео как набор небольших групп данных, называемых «патчами», которые, по словам компании, аналогичны токенам (фрагментам слова) в GPT-4. «Объединив способ представления данных, мы можем обучать диффузионные преобразователи более широкому спектру визуальных данных, чем это было возможно раньше, охватывая различную продолжительность, разрешение и соотношение сторон», — пишет компания.

Важным инструментом в арсенале OpenAI является то, что он использует модели ИИ. начисление процентов. Более ранние модели помогают создавать более сложные. Сора хорошо следует подсказкам, потому что: как ДАЛЛ-И 3он использует синтетические подписи, которые описывают сцены в обучающих данных, сгенерированных другой моделью ИИ, например ГПТ-4В. И компания не останавливается на достигнутом. «Sora служит основой для моделей, которые могут понимать и моделировать реальный мир», — пишет OpenAI, — «эта возможность, по нашему мнению, станет важной вехой на пути к достижению AGI».

У многих людей возникает вопрос: какие данные OpenAI использовал для обучения Соры? OpenAI не раскрыла свой набор данных, но, судя по тому, что люди видят в результатах, возможно, что OpenAI использует синтетические видеоданные, сгенерированные в движке видеоигры, в дополнение к источникам реального видео (скажем, взятого с YouTube или лицензированного из стокового видео). библиотеки). Доктор Джим Фан из Nvidia, специалист по обучению ИИ на синтетических данных, написал на X: «Я не удивлюсь, если Сора будет обучаться на большом количестве синтетических данных с использованием Unreal Engine 5. Так и должно быть!» Однако до тех пор, пока OpenAI не подтвердит это, это всего лишь предположение.

2024-02-16 17:23:10

1708172755
#OpenAI #разрушает #медиареальность #помощью #Sora #фотореалистичного #видеогенератора #искусственным #интеллектом

OpenAI разрушает медиа-реальность с помощью Sora, фотореалистичного видеогенератора с искусственным интеллектом

Как (мы думаем) им это удалось

Related

Leave a Comment Cancel reply

Как (мы думаем) им это удалось

Share this:

Related

Leave a Comment Cancel reply