Новейшие чат-боты с искусственным интеллектом могут обрабатывать текст, изображения и звук. Вот как

Чуть более 10 месяцев назад ChatGPT от OpenAI был впервые представлен публике. Его появление положило начало эпохе непрерывных заголовков об искусственном интеллекте и ускорило разработку конкурирующих моделей больших языков (LLM) от Google, Meta и других технологических гигантов. С тех пор эти чат-боты продемонстрировали впечатляющая мощность для генерации текста и кода, хоть и не всегда точно. И теперь мультимодальные ИИ, способные анализировать не только текст, но и изображения, аудио и многое другое, находятся на подъеме.

ОпенАИ выпустил мультимодальную версию ChatGPT, работающего на базе LLM GPT-4, для платных подписчиков впервые на прошлой неделе, спустя несколько месяцев после того, как компания впервые объявила об этих возможностях. Google начал включать функции изображения и звука, аналогичные тем, которые предлагает новый GPT-4, в некоторые версии своего чат-бота Bard на базе LLM еще в мае. Мета тоже объявила большие успехи в мультимодальности прошлой весной. Хотя развивающаяся технология находится в зачаточном состоянии, она может выполнять множество задач.

Что может мультимодальный ИИ?

Научный американец протестировали два разных чат-бота, использующих мультимодальные LLM: версию ChatGPT, работающую на обновленном GPT-4 (полученную GPT-4 с видением, или GPT-4V), и Bard, который в настоящее время работает на базе Google Модель ПалМ 2. Оба могут вести голосовую беседу без помощи рук, используя только звук, а также могут описывать сцены внутри изображений и расшифровывать строки текста на изображении.

Эти способности имеют множество применений. В нашем тесте, используя только фотографию квитанции и двухстрочную подсказку, ChatGPT точно разделил сложную панель и рассчитал сумму задолженности для каждого из четырех разных людей, включая чаевые и налоги. В общей сложности задача заняла менее 30 секунд. Bard сделал почти то же самое, но одну «9» интерпретировал как «0», тем самым исказив окончательную сумму. В другом испытании, когда им дали фотографию заполненной книжной полки, оба чат-бота предложили подробные описания предполагаемого характера и интересов гипотетического владельца, которые были почти как гороскопы, созданные ИИ. Оба идентифицировали Статую Свободы по единственной фотографии, пришли к выводу, что изображение было сделано из офиса в нижнем Манхэттене, и предложили точные указания от исходного местоположения фотографа до достопримечательности (хотя указания ChatGPT были более подробными, чем указания Барда). А ChatGPT также превзошел Барда в точной идентификации насекомых по фотографиям.

На основе этой фотографии растения в горшке два мультимодальных чат-бота на базе искусственного интеллекта — ChatGPT OpenAI (версия на базе GPT-4V) и Bard от Google — точно оценили размер контейнера. Кредит: Лорен Леффер

Для сообществ инвалидов применение таких технологий особенно интересно. В марте OpenAI начала тестирование своей мультимодальной версии GPT-4 через компанию Be My Eyes, которая предоставляет бесплатный сервис описания через одноименное приложение для слепых и слабовидящих людей. Первые испытания прошли достаточно хорошо, и сейчас Be My Eyes внедряет версию своего приложения на базе искусственного интеллекта для всех своих пользователей. «Мы получаем такие исключительные отзывы», — говорит Йеспер Хвирринг Хенриксен, технический директор Be My Eyes. Поначалу было много очевидных проблем, таких как плохо расшифрованный текст или неточные описания, содержащие ИИ галлюцинации. Хенриксен говорит, что OpenAI исправил эти первоначальные недостатки: ошибки все еще присутствуют, но встречаются реже. В результате «люди говорят о восстановлении своей независимости», говорит он.

Как работает мультимодальный ИИ?

В этой новой волне чат-ботов инструменты выходят за рамки слов. Тем не менее, они по-прежнему основаны на моделях искусственного интеллекта, построенных на языке. Как это возможно? Хотя отдельные компании неохотно делятся точными основами своих моделей, эти корпорации — не единственные группы, работающие над мультимодальным искусственным интеллектом. Другие исследователи ИИ довольно хорошо понимают, что происходит за кулисами.

Есть два основных способа перейти от текстовой программы LLM к искусственному интеллекту, который также реагирует на визуальные и звуковые подсказки, говорит Доуве Киела, адъюнкт-профессор Стэнфордского университета, где он преподает курсы по машинному обучению, и генеральный директор компании Contextual. ИИ. В более простом методе, объясняет Киела, модели ИИ по сути накладываются друг на друга. Пользователь вводит изображение в чат-бот, но изображение фильтруется с помощью отдельного искусственного интеллекта, который был создан специально для выдачи подробных подписей к изображениям. (У Google было такие алгоритмы в течение многих лет.) Затем это текстовое описание передается обратно чат-боту, который отвечает на переведенную подсказку.

Напротив, «другой путь — обеспечить гораздо более тесную связь», — говорит Киела. Компьютерные инженеры могут вставлять сегменты одного алгоритма ИИ в другой, комбинируя инфраструктуру компьютерного кода, лежащую в основе каждой модели. По словам Киелы, это «что-то вроде прививки одной части дерева к другому стволу». После этого привитая модель переобучается на наборе мультимедийных данных, включая изображения, изображения с подписями и текстовыми описаниями, до тех пор, пока ИИ не усвоит достаточно шаблонов, чтобы точно связать вместе визуальные представления и слова. Это более ресурсоемкая стратегия, чем первая, но она может дать еще более мощный ИИ. Киела предполагает, что Google использовал первый метод с Bard, в то время как OpenAI, возможно, полагался на второй для создания GPT-4. Эта идея потенциально объясняет различия в функциональности между двумя моделями.

Независимо от того, как разработчики объединяют свои различные модели ИИ, под капотом происходит один и тот же общий процесс. LLM работают по основному принципу предсказания следующего слова или слога во фразе. Для этого они используют архитектуру «трансформер» («Т» в GPT). Этот тип нейронной сети берет что-то вроде письменного предложения и превращает его в ряд математических отношений, которые выражаются в виде векторов, говорит Руслан Салахутдинов, ученый-компьютерщик из Университета Карнеги-Меллон. Для нейронной сети-трансформера предложение — это не просто строка слов, а сеть связей, которые определяют контекст. Это приводит к появлению гораздо более человекоподобных ботов, которые могут справляться с множеством значений, следовать грамматическим правилам и имитировать стиль. Чтобы объединить или объединить модели ИИ, алгоритмы должны преобразовывать различные входные данные (будь то визуальные, аудио или текстовые) в векторные данные одного и того же типа на пути к выходным данным. В каком-то смысле нужно взять два набора кода и «учить их общаться друг с другом», — говорит Салахутдинов. В свою очередь, пользователи-люди могут общаться с этими ботами новыми способами.

Что будет дальше?

Многие исследователи рассматривают настоящий момент как начало того, что возможно. Как только вы начнете согласовывать, интегрировать и улучшать различные типы ИИ, быстрый прогресс обязательно будет продолжаться. Киела предвидит ближайшее будущее, в котором модели машинного обучения смогут легко реагировать, анализировать и генерировать видео или даже запахи. Салахутдинов подозревает, что «в ближайшие пять-десять лет у вас просто появится личный ИИ-помощник». Такая программа сможет решать любые задачи: от телефонных звонков по обслуживанию клиентов до сложных исследовательских задач, получив всего лишь короткую подсказку.

Изображение книжной полки. — Автор загрузил это изображение книжной полки в ChatGPT на базе GPT-4V и попросил описать владельца книг. Чат-бот описал выставленные книги, а также ответил: «В целом этому человеку, вероятно, нравится хорошо написанная литература, в которой исследуются глубокие темы, социальные проблемы и личные рассказы. Кажется, они одновременно интеллектуально любопытны и социально осведомлены». Кредит: Лорен Леффер

Мультимодальный ИИ – это нет такой же как общий искусственный интеллект, святой Грааль машинного обучения, в котором компьютерные модели превосходят человеческий интеллект и возможности. Однако мультимодальный ИИ является «важным шагом» на пути к этому, говорит Джеймс Зоу, ученый-компьютерщик из Стэнфордского университета. У людей есть переплетенный набор чувств, с помощью которых мы понимаем мир. Предположительно, чтобы достичь общего ИИ, компьютеру понадобится то же самое.

Какими бы впечатляющими и захватывающими они ни были, мультимодальные модели имеют многие из тех же проблем, что и их однонаправленные предшественники, говорит Цзоу. «Одной большой проблемой является проблема галлюцинаций», — отмечает он. Как мы можем доверять ИИ-помощнику, если он в любой момент может фальсифицировать информацию? Тогда есть вопрос конфиденциальности. При наличии насыщенных информацией входных данных, таких как голос и визуальные эффекты, даже более конфиденциальная информация может быть непреднамеренно передана ботам, а затем извергнута в виде утечек или скомпрометирована в результате хакерских атак.

Цзоу по-прежнему советует людям опробовать эти инструменты, но осторожно. «Вероятно, размещать свои медицинские записи прямо в чат-боте — не лучшая идея», — говорит он.

2023-10-05 16:30:00

1696527751
#Новейшие #чатботы #искусственным #интеллектом #могут #обрабатывать #текст #изображения #звук #Вот #как

Новейшие чат-боты с искусственным интеллектом могут обрабатывать текст, изображения и звук. Вот как

Что может мультимодальный ИИ?

Как работает мультимодальный ИИ?

Что будет дальше?

Related

Leave a Comment Cancel reply

Что может мультимодальный ИИ?

Как работает мультимодальный ИИ?

Что будет дальше?

Share this:

Related

Leave a Comment Cancel reply