Мета-модель мультисенсорного ИИ с открытым исходным кодом, которая объединяет шесть типов данных

Meta анонсировала новую модель искусственного интеллекта с открытым исходным кодом, которая связывает воедино несколько потоков данных, включая текст, аудио, визуальные данные, температуру и показания движения.

На данный момент модель представляет собой лишь исследовательский проект, не имеющий непосредственного потребительского или практического применения, но она указывает на будущее генеративных систем ИИ, которые могут создавать захватывающий мультисенсорный опыт, и показывает, что Meta продолжает делиться исследованиями ИИ в то время, когда конкуренты как OpenAI и Google стали все более скрытный.

Основная концепция исследования заключается в объединении нескольких типов данных в единый многомерный индекс (или «встраивание пространства», если использовать язык ИИ). Эта идея может показаться немного абстрактной, но именно эта концепция лежит в основе недавнего бума генеративного ИИ.

Мультимодальные модели ИИ — сердце бума генеративного ИИ

Например, генераторы изображений с искусственным интеллектом, такие как DALL-E, Stable Diffusion и Midjourney, полагаются на системы, которые связывают вместе текст и изображения на этапе обучения. Они ищут закономерности в визуальных данных, связывая эту информацию с описаниями изображений. Именно это позволяет этим системам генерировать изображения, которые следуют за вводом текста пользователем. То же самое относится ко многим инструментам искусственного интеллекта, которые аналогичным образом генерируют видео или аудио.

Meta говорит, что ее модель ImageBind — первая, объединяющая шесть типов данных в единое пространство для встраивания. Шесть типов данных, включенных в модель: визуальные (как в виде изображения, так и в виде видео); тепловые (инфракрасные изображения); текст; аудио; информация о глубине; и — самое интригующее — показания движения, генерируемые инерциальным измерительным блоком, или IMU. (IMU можно найти в телефонах и смарт-часах, где они используются для целого ряда задач, от переключения телефона с альбомной ориентации на портретную до различения различных типов физической активности.)

a: hover]: текст-серый-63 [&>a:hover]:shadow-underline-черный темный:[&>a:hover]:text-grey-bd темный:[&>a:hover]: тень-подчеркивание-серый [&>a]:shadow-underline-grey-63 темный:[&>a]:text-grey-bd темный:[&>a]:shadow-underline-grey”>Изображение: Мета

Идея состоит в том, что будущие системы ИИ смогут ссылаться на эти данные так же, как современные системы ИИ делают это для ввода текста. Представьте, например, футуристическое устройство виртуальной реальности, которое не только генерирует звуковой и визуальный ввод, но также ваше окружение и движения на физической сцене. Вы можете попросить его имитировать долгое морское путешествие, и он не только поместит вас на корабль с шумом волн на заднем плане, но и с раскачиванием палубы под ногами и прохладным бризом океанского воздуха.

В сообщении в блоге Мета отмечает, что в будущие модели можно добавить другой поток сенсорной информации, включая «осязание, речь, обоняние и сигналы фМРТ мозга». В нем также утверждается, что исследование «приближает машины на один шаг к способности людей учиться одновременно, целостно и напрямую из множества различных форм информации». (Что, конечно, как угодно. Зависит от того, насколько малы эти шаги.)

Все это, конечно, очень спекулятивно, и вполне вероятно, что непосредственное применение подобных исследований будет гораздо более ограниченным. Например, в прошлом году Meta продемонстрировала модель ИИ, которая генерирует короткие и размытые видео из текстовых описаний. Работа, подобная ImageBind, показывает, как будущие версии системы могут включать другие потоки данных, например, генерируя звук, соответствующий видеовыходу.

Тем не менее, для отраслевых наблюдателей это исследование также интересно, поскольку Meta открывает исходный код базовой модели — все более тщательно изучаемой практики в мире ИИ.

Противники открытого исходного кода, такие как OpenAI, говорят, что эта практика вредна для создателей, потому что конкуренты могут копировать их работу и что это может быть потенциально опасно, позволяя злоумышленникам использовать в своих интересах современные модели ИИ. Сторонники отвечают, что открытый исходный код позволяет третьим сторонам тщательно проверять системы на наличие ошибок и устранять некоторые из их недостатков. Они отмечают, что это может даже принести коммерческую выгоду, поскольку, по сути, позволяет компаниям нанимать сторонних разработчиков в качестве бесплатных работников для улучшения своей работы.

До сих пор Meta твердо придерживалась открытого исходного кода, хотя и не без трудностей. (Его последняя языковая модель, LLaMA, просочился в сеть в начале этого года, например.) Во многом отсутствие коммерческих достижений в области искусственного интеллекта (у компании нет чат-бота, который мог бы конкурировать с Bing, Bard или ChatGPT) способствовало такому подходу. А пока что с ImageBind мы продолжаем придерживаться этой стратегии.

2023-05-09 15:45:35

1683649076
#Метамодель #мультисенсорного #ИИ #открытым #исходным #кодом #которая #объединяет #шесть #типов #данных

Мета-модель мультисенсорного ИИ с открытым исходным кодом, которая объединяет шесть типов данных

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply