Sora от OpenAI превращает подсказки ИИ в фотореалистичные видеоролики

Мы уже знаем это Чат-боты OpenAI может сдать экзамен на адвоката не посещая юридический факультет. Теперь, как раз к церемонии вручения премии «Оскар», новое приложение OpenAI под названием Sora надеется освоить кино, не посещая киношколу. На данный момент Sora является исследовательским продуктом и передается нескольким избранным создателям и ряду экспертов по безопасности, которые объединят его для выявления уязвимостей безопасности. OpenAI планирует сделать его доступным для всех желающих стать авторами в неопределенную дату, но решила предварительно просмотреть его.

Другие компании, от таких гигантов, как Google стартапам, таким как ВППуже выявили проекты искусственного интеллекта по преобразованию текста в видео. Но OpenAI утверждает, что Sora отличается поразительным фотореализмом — чего я не видел у ее конкурентов — и способностью создавать более длинные видеоролики, чем короткие фрагменты, которые обычно делают другие модели, до одной минуты. Исследователи, с которыми я разговаривал, не сказали, сколько времени требуется для рендеринга всего этого видео, но когда их спросили, они описали это скорее как «пойти за буррито», чем «взять несколько выходных». € Если верить тщательно подобранным примерам, которые я видел, то усилия того стоят.

OpenAI не позволял мне вводить собственные подсказки, но использовал четыре экземпляра силы Соры. (Ни один из них не приблизился к предполагаемому пределу в одну минуту; самый длинный составил 17 секунд.) Первый исходил из подробной подсказки, которая звучала как установка навязчивого сценариста: «Красивый, снежный город Токио суетится». Камера движется по оживленной городской улице, следя за несколькими людьми, наслаждающимися прекрасной снежной погодой и делающими покупки в близлежащих ларьках. Великолепные лепестки сакуры летят по ветру вместе со снежинками».

Видео, созданное искусственным интеллектом и созданное с помощью Sora от OpenAI.

С разрешения OpenAI

Результатом является убедительный вид на то, что безошибочно представляет собой Токио, в тот волшебный момент, когда сосуществуют снежинки и цветущая вишня. Виртуальная камера, словно прикрепленная к дрону, следует за парой, медленно прогуливающейся по улице. Один из прохожих в маске. Слева от них по прибрежной дороге с грохотом проезжают машины, а справа покупатели влетают и выходят из ряда крошечных магазинчиков.

Это не идеально. Лишь просмотрев клип несколько раз, понимаешь, что главные герои — пара, прогуливающаяся по заснеженному тротуару — столкнулись бы с дилеммой, если бы виртуальная камера продолжала работать. Тротуар, который они занимают, кажется тупиком; им пришлось бы переступить через небольшое ограждение и попасть в странный параллельный проход справа. Несмотря на этот небольшой сбой, пример Токио представляет собой ошеломляющее упражнение в построении мира. В дальнейшем художники-постановщики будут спорить, является ли это влиятельным сотрудником или убийцей рабочих мест. Кроме того, люди в этом видео, полностью созданные цифровой нейронной сетью, не показаны крупным планом и не выражают никаких эмоций. Но команда Соры говорит, что в других случаях у них были фальшивые актеры, демонстрирующие настоящие эмоции.

Другие клипы также впечатляют, в частности, один требует «анимационной сцены невысокого пушистого монстра, стоящего на коленях возле красной свечи», а также некоторых подробных сценических указаний («широко раскрытые глаза и открытый рот») и описания желаемая атмосфера клипа. Сора создает существо в стиле Pixar, в котором, кажется, есть ДНК Фёрби, Гремлина и Салли. Корпорация монстров. Я помню, когда вышел последний фильм, Pixar много говорил о том, насколько сложно было создавать сверхсложная текстура меха монстра пока существо двигалось. Всем волшебникам Pixar потребовались месяцы, чтобы сделать все правильно. Новая машина преобразования текста в видео OpenAI… только что сделала это.

«Он изучает трехмерную геометрию и ее согласованность», — говорит об этом достижении Тим Брукс, научный сотрудник проекта. «Мы не закладывали это в основу — это просто появилось в результате просмотра большого количества данных».

Видео, созданное с помощью искусственного интеллекта, было создано с помощью быстрой «анимированной сцены: крупным планом невысокого пушистого монстра, стоящего на коленях рядом с тающей красной свечой». Художественный стиль трехмерный и реалистичный, с упором на освещение и текстуру. Настроение картины – удивление и любопытство, поскольку монстр смотрит на пламя широко раскрытыми глазами и открытым ртом. его поза и выражение лица передают ощущение невинности и игривости, как будто он впервые исследует окружающий мир. использование теплых цветов и драматического освещения еще больше усиливает уютную атмосферу изображения».

С разрешения OpenAI

Хотя сцены, безусловно, впечатляют, самые поразительные способности Соры — это те, которым он не был обучен. Работает на версии диффузионная модель используемый генератором изображений Dalle-3 компании OpenAI, а также движком GPT-4 на основе трансформатора, Сора не просто производит видеоролики, соответствующие требованиям подсказок, но делает это таким образом, чтобы показать возникающее понимание кинематографической грамматики.

Это выражается в таланте рассказывать истории. В другом видео, которое было создано по мотивам «великолепно визуализированного мира кораллового рифа, сделанного из бумаги, изобилующего разноцветными рыбами и морскими существами». Билл Пиблс, другой исследователь проекта, отмечает, что Сора создал повествовательную направленность ракурсы камеры и время. «На самом деле существует несколько изменений кадров — они не сшиваются вместе, а генерируются моделью за один раз», — говорит он. «Мы не говорили ему это сделать, он просто сделал это автоматически».

Видео, созданное с помощью искусственного интеллекта, было создано по принципу «великолепно визуализированного бумажного мира кораллового рифа, изобилующего разноцветными рыбами и морскими существами».С разрешения OpenAI

В другом примере, который я не видел, Соре предложили провести экскурсию по зоопарку. «Все началось с названия зоопарка на большой вывеске, постепенно уменьшалось, а затем было несколько смен кадров, чтобы показать разных животных, обитающих в зоопарке», — говорит Пиблс. красивый и кинематографичный способ, о котором не было явных указаний».

Одна из особенностей Sora, которую команда OpenAI не продемонстрировала и, возможно, не выпустит еще некоторое время, — это возможность генерировать видео из одного изображения или последовательности кадров. «Это будет еще один отличный способ улучшить возможности рассказывания историй», — говорит Брукс. «Вы можете нарисовать именно то, что у вас на уме, а затем оживить это». OpenAI осознает, что эта функция также может создавать дипфейки и дезинформацию. «Мы будем очень осторожны со всеми последствиями для безопасности», — добавляет Пиблс.

2024-02-15 18:15:00

1708126366
#Sora #от #OpenAI #превращает #подсказки #ИИ #фотореалистичные #видеоролики

Sora от OpenAI превращает подсказки ИИ в фотореалистичные видеоролики

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply