Искусственный интеллект, который понимает объектные отношения – позволяет машинам узнавать больше, как это делают люди

Исследователи Массачусетского технологического института разработали модель машинного обучения, которая понимает основные отношения между объектами в сцене и может генерировать точные изображения сцен из текстовых описаний. Предоставлено: Хосе-Луис Оливарес, Массачусетский технологический институт и iStockphoto.

Новая модель машинного обучения может позволить роботам понимать взаимодействия в мире так же, как это делают люди.

Когда люди смотрят на сцену, они видят объекты и отношения между ними. На вашем столе может быть ноутбук, который находится слева от телефона, который находится перед монитором компьютера.

Многие модели глубокого обучения с трудом видят мир таким образом, потому что они не понимают запутанных отношений между отдельными объектами. Без знания этих взаимосвязей робот, предназначенный для помощи кому-то на кухне, будет испытывать трудности с выполнением такой команды, как «возьмите лопатку слева от плиты и поместите ее на разделочную доску».

Стремясь решить эту проблему,

С УЧАСТИЕМ
MIT – это аббревиатура Массачусетского технологического института. Это престижный частный исследовательский университет в Кембридже, штат Массачусетс, который был основан в 1861 году. Он состоит из пяти школ: архитектуры и планирования; инженерное дело; гуманитарные науки, искусства и социальные науки; управление; и наука. Влияние MIT включает в себя множество научных открытий и технологических достижений.

“> С исследователи разработали модель, которая понимает основные отношения между объектами в сцене. Их модель представляет отдельные отношения по одному, а затем объединяет эти представления для описания всей сцены. Это позволяет модели генерировать более точные изображения из текстовых описаний, даже если сцена включает в себя несколько объектов, которые расположены в различных отношениях друг с другом.

Эта работа может быть применена в ситуациях, когда промышленные роботы должны выполнять сложные, многоэтапные манипуляционные задачи, такие как складывание предметов на складе или сборка техники. Это также приближает область науки на один шаг к тому, чтобы машины могли учиться и взаимодействовать с окружающей средой, как это делают люди.

ИИ, который понимает объектные отношения

Разработанная исследователями структура может генерировать изображение сцены на основе текстового описания объектов и их взаимосвязей. На этом рисунке окончательное изображение исследователей находится справа и правильно следует текстовому описанию. Предоставлено: любезно предоставлено исследователями.

«Когда я смотрю на стол, я не могу сказать, что в местоположении XYZ есть объект. Наш разум так не работает. В нашем сознании, когда мы понимаем сцену, мы действительно понимаем ее, основываясь на отношениях между объектами. Мы думаем, что, построив систему, которая может понимать отношения между объектами, мы могли бы использовать эту систему для более эффективного управления и изменения нашей окружающей среды », – говорит Илун Ду, аспирант Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и соавторы. – ведущий автор статьи.

Ду написал статью вместе с соавторами Шуанг Ли, аспирантом CSAIL, и Нан Лю, аспирантом Иллинойского университета в Урбана-Шампейн; а также Джошуа Б. Тененбаум, профессор развития карьеры Пола Э. Ньютона в области когнитивных наук и вычислений в Департаменте мозговых и когнитивных наук и член CSAIL; и старший автор Антонио Торральба, профессор электротехники и информатики компании Delta Electronics, член CSAIL. Исследование будет представлено на конференции по нейронным системам обработки информации в декабре.

Одно отношение за раз

Разработанная исследователями структура может создавать изображение сцены на основе текстового описания объектов и их взаимосвязей, например «Деревянный стол слева от синего стула. Красный диван справа от синего стула.

Их система разбивала эти предложения на две более мелкие части, описывающие каждую индивидуальную взаимосвязь («деревянный стол слева от синего стула» и «красный диван справа от синего стула»), а затем моделировала каждую часть отдельно. . Затем эти части объединяются в процессе оптимизации, в результате которого создается изображение сцены.

Искусственный интеллект, который понимает объектные отношения

На этом рисунке окончательные изображения исследователя помечены как «наши». Предоставлено: любезно предоставлено исследователями.

Исследователи использовали метод машинного обучения, называемый энергетическими моделями, чтобы представить отношения отдельных объектов в описании сцены. Этот метод позволяет им использовать одну энергетическую модель для кодирования каждого реляционного описания, а затем составлять их вместе таким образом, чтобы выводить все объекты и отношения.

«Разбивая предложения на более короткие части для каждого отношения, система может рекомбинировать их различными способами, чтобы лучше адаптироваться к описаниям сцен, которых она раньше не видела», – объясняет Ли.

«Другие системы будут рассматривать все отношения как единое целое и генерировать изображение за один раз из описания. Однако такие подходы терпят неудачу, когда у нас есть описания вне распределения, такие как описания с большим количеством отношений, поскольку эта модель не может действительно адаптировать один снимок для создания изображений, содержащих больше отношений. Однако, когда мы составляем эти отдельные, более мелкие модели вместе, мы можем моделировать большее количество взаимосвязей и адаптироваться к новым комбинациям », – говорит Ду.

Система также работает в обратном направлении – по изображению она может находить текстовые описания, которые соответствуют отношениям между объектами в сцене. Кроме того, их модель можно использовать для редактирования изображения, переставляя объекты в сцене так, чтобы они соответствовали новому описанию.

Понимание сложных сцен

Исследователи сравнили свою модель с другими методами глубокого обучения, которые получали текстовые описания и создавали изображения, отображающие соответствующие объекты и их отношения. В каждом случае их модель превзошла базовые показатели.

Они также попросили людей оценить, соответствуют ли сгенерированные изображения исходному описанию сцены. В наиболее сложных примерах, где описания содержали три отношения, 91 процент участников пришли к выводу, что новая модель работает лучше.

«Одна интересная вещь, которую мы обнаружили, заключается в том, что для нашей модели мы можем увеличить наше предложение с одного описания отношения до двух, трех или даже четырех описаний, и наш подход по-прежнему позволяет генерировать изображения, которые правильно описываются этими описания, в то время как другие методы терпят неудачу », – говорит Ду.

Исследователи также показали модельные изображения сцен, которые он раньше не видел, а также несколько различных текстовых описаний каждого изображения, и они смогли успешно идентифицировать описание, которое лучше всего соответствовало отношениям объектов на изображении.

И когда исследователи дали системе два описания реляционных сцен, которые описывали одно и то же изображение, но по-разному, модель смогла понять, что описания эквивалентны.

Исследователи были впечатлены надежностью своей модели, особенно при работе с описаниями, с которыми она раньше не сталкивалась.

«Это очень многообещающе, потому что это ближе к тому, как работают люди. Люди могут видеть только несколько примеров, но мы можем извлечь полезную информацию только из этих нескольких примеров и объединить их вместе, чтобы создать бесконечные комбинации. И наша модель обладает таким свойством, которое позволяет ей учиться на меньшем количестве данных, но обобщать на более сложные сцены или поколения изображений », – говорит Ли.

Хотя эти первые результаты обнадеживают, исследователи хотели бы увидеть, как их модель работает на более сложных реальных изображениях с шумным фоном и объектами, которые блокируют друг друга.

Они также заинтересованы в том, чтобы в конечном итоге включить свою модель в робототехнические системы, что позволит роботу определять отношения между объектами из видео, а затем применять эти знания для управления объектами в мире.

«Разработка визуальных представлений, которые могут иметь дело с композиционной природой окружающего нас мира, является одной из ключевых открытых проблем компьютерного зрения. Эта статья значительно продвинулась в решении этой проблемы, предлагая основанную на энергии модель, которая явно моделирует множественные отношения между объектами, изображенными на изображении. Результаты действительно впечатляют », – говорит Йозеф Сивич, выдающийся исследователь Чешского института информатики, робототехники и кибернетики Чешского технического университета, который не принимал участия в этом исследовании.

Ссылка: «Учимся составлять визуальные отношения» Нан Лю, Шуанг Ли, Илунь Ду, Джошуа Б. Тененбаум и Антонио Торральба, NeurIPS 2021 (В центре внимания).
GitHub

Это исследование частично поддерживается Raytheon BBN Technologies Corp., Mitsubishi Electric Research Laboratory, Национальным научным фондом, Управлением военно-морских исследований и Исследовательским центром IBM Thomas J. Watson Research Center.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.