Intel Labs представляет модель распространения ИИ, генерирующую панорамные изображения из текстовых подсказок :: Intel Corporation (INTC)

Лаборатории Intel в сотрудничестве с Blockade Labs представили модель скрытой диффузии для 3D (LDM3D), первую в отрасли модель диффузии, обеспечивающую отображение глубины для создания трехмерных изображений с 360-градусным обзором, которые являются яркими и захватывающими. LDM3D может произвести революцию в создании контента, приложениях метавселенной и цифровом опыте, преобразовав широкий спектр отраслей, от развлечений и игр до архитектуры и дизайна. (Фото: корпорация Intel)

LDM3D — первая в отрасли генеративная модель искусственного интеллекта, обеспечивающая отображение глубины. Он может произвести революцию в создании контента, метавселенной и цифровом опыте.

САНТА-КЛАРА, Калифорния – (BUSINESS WIRE) – Intel (Nasdaq: INTC):

Этот пресс-релиз содержит мультимедиа. Полный выпуск смотрите здесь: https://www.businesswire.com/news/home/20230621842353/en/

Лаборатории Intel в сотрудничестве с Blockade Labs представили модель скрытой диффузии для 3D (LDM3D), первую в отрасли модель диффузии, обеспечивающую отображение глубины для создания трехмерных изображений с 360-градусным обзором, которые являются яркими и захватывающими. LDM3D может произвести революцию в создании контента, приложениях метавселенной и цифровом опыте, преобразовав широкий спектр отраслей, от развлечений и игр до архитектуры и дизайна. (Фото: корпорация Intel)

Что нового: Лаборатории Intel в сотрудничестве с Blockade Labs представили модель скрытой диффузии для 3D (LDM3D), новую модель диффузии, которая использует генеративный ИИ для создания реалистичного визуального 3D-контента. LDM3D — первая в отрасли модель, создающая карту глубины с использованием процесса диффузии для создания 3D-изображений с 360-градусным обзором, которые являются яркими и захватывающими. LDM3D может произвести революцию в создании контента, приложениях метавселенной и цифровом опыте, преобразовав широкий спектр отраслей, от развлечений и игр до архитектуры и дизайна.

«Технология генеративного искусственного интеллекта направлена на дальнейшее расширение и расширение человеческого творчества и экономию времени. Однако большинство сегодняшних генеративных моделей ИИ ограничены созданием 2D-изображений, и лишь очень немногие могут генерировать 3D-изображения из текстовых подсказок. В отличие от существующих моделей скрытой стабильной диффузии, LDM3D позволяет пользователям генерировать изображение и карту глубины из заданной текстовой подсказки, используя почти такое же количество параметров. Он обеспечивает более точную относительную глубину для каждого пикселя изображения по сравнению со стандартными методами постобработки для оценки глубины и экономит разработчикам значительное время при разработке сцен».

— Васудев Лал, научный сотрудник AI/ML, Intel Labs.

Почему это важно: Замкнутые экосистемы ограничивают масштаб. А стремление Intel к истинной демократизации ИИ обеспечит более широкий доступ к преимуществам ИИ через открытую экосистему. Одна из областей, в которой за последние годы произошли значительные успехи, — это компьютерное зрение, особенно генеративный ИИ. Однако многие из современных передовых моделей генеративного ИИ ограничены созданием только 2D-изображений. В отличие от существующих моделей распространения, которые обычно генерируют только 2D-изображения RGB из текстовых подсказок, LDM3D позволяет пользователям создавать как изображение, так и карту глубины из заданной текстовой подсказки. Используя почти то же количество параметров, что и скрытая стабильная диффузия, LDM3D обеспечивает более точную относительную глубину для каждого пикселя изображения по сравнению со стандартными методами постобработки для оценки глубины.

Это исследование может революционизировать то, как мы взаимодействуем с цифровым контентом, позволяя пользователям воспринимать свои текстовые подсказки ранее немыслимыми способами. Изображения и карты глубины, сгенерированные LDM3D, позволяют пользователям превратить текстовое описание безмятежного тропического пляжа, современного небоскреба или научно-фантастической вселенной в детализированную панораму на 360 градусов. Эта способность собирать подробную информацию может мгновенно повысить общий реализм и погружение, позволяя создавать инновационные приложения для различных отраслей, от развлечений и игр до дизайна интерьеров и списков недвижимости, а также виртуальных музеев и иммерсивной виртуальной реальности (VR).

20 июня LDM3D выиграла Награда за лучший постер в Семинар 3DMV в ЦВПР.

Как это работает: LDM3D был обучен на наборе данных, созданном из подмножества 10 000 образцов базы данных LAION-400M, которая содержит более 400 миллионов пар изображений и подписей. Команда использовала модель глубокой оценки Dense Prediction Transformer (DPT) (ранее разработанную в Intel Labs) для аннотирования учебного корпуса. Модель DPT-large обеспечивает очень точную относительную глубину для каждого пикселя изображения. Набор данных ЛАИОН-400М был создан для исследовательских целей, чтобы позволить тестировать модель обучения в более широком масштабе для широкого круга исследователей и других заинтересованных сообществ.

Модель LDM3D обучается на суперкомпьютере Intel AI на базе процессоров Intel® Xeon® и ускорителей Intel® Habana Gaudi® AI. Полученная модель и конвейер объединяют сгенерированное изображение RGB и карту глубины для создания 360-градусных представлений для иммерсивного опыта.

Чтобы продемонстрировать потенциал LDM3D, исследователи Intel и Blockade разработали DepthFusion, приложение, которое использует стандартные 2D-фотографии RGB и карты глубины для создания захватывающего и интерактивного обзора на 360 градусов. DepthFusion использует TouchDesigner, язык визуального программирования на основе узлов для интерактивного мультимедийного контента в реальном времени, чтобы превратить текстовые подсказки в интерактивные и захватывающие цифровые впечатления. Модель LDM3D представляет собой единую модель для создания как изображения RGB, так и его карты глубины, что приводит к экономии памяти и снижению задержки.

Что дальше: Внедрение LDM3D и DepthFusion прокладывает путь к дальнейшему развитию генеративного искусственного интеллекта с несколькими представлениями и компьютерного зрения. Intel продолжит изучать возможности использования генеративного ИИ для расширения возможностей человека и создания сильной экосистемы исследований и разработок в области ИИ с открытым исходным кодом, которая демократизирует доступ к этой технологии. Продолжая активную поддержку Intel открытой экосистемы в области искусственного интеллекта, LDM3D с открытым исходным кодом через HuggingFace. Это позволит исследователям и специалистам по искусственному интеллекту еще больше улучшить эту систему и настроить ее для пользовательских приложений.

Больше контекста: Исследование Intel будет представлено на конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR), которая пройдет с 18 по 22 июня. Для получения дополнительной информации см. «LDM3D: Модель скрытой диффузии для 3D» или просмотреть Демонстрация LDM3D.

О Intel

Intel (Nasdaq: INTC) — лидер отрасли, создающий технологии, меняющие мир, которые обеспечивают глобальный прогресс и обогащают жизнь. Вдохновленные законом Мура, мы постоянно работаем над совершенствованием проектирования и производства полупроводников, чтобы помочь нашим клиентам решить самые сложные задачи. Внедряя интеллект в облако, сеть, периферийные устройства и любые вычислительные устройства, мы раскрываем потенциал данных для преобразования бизнеса и общества к лучшему. Чтобы узнать больше об инновациях Intel, перейдите на newsroom.intel.com и intel.com.

Посмотреть исходную версию на businesswire.com: https://www.businesswire.com/news/home/20230621842353/en/

Лаура Стадлер

[email protected]

Источник: Интел

Выпущено 21 июня 2023 г. • 9:00 EDT

2023-06-21 13:00:36

1687353626
#Intel #Labs #представляет #модель #распространения #ИИ #генерирующую #панорамные #изображения #из #текстовых #подсказок #Intel #Corporation #INTC

Share this:

Related

Leave a Comment Cancel reply