Может ли ИИ строить планы?

Прошлым летом AdamYedidia, пользователь веб-форума LessWrong, опубликовал сообщение под названием «Шахматы как пример скрытых возможностей ChatGPT». Он начал с того, что отметил, что в Интернете полно забавных видеороликов. ЧатGPT играю в плохие шахматы: в одном популярном ролике ИИ уверенно и незаконно водит пешку назад. Но многие из этих видео были сделаны с использованием оригинальная версия чат-бота OpenAI, который был представлен публике в конце ноября 2022 года и был основан на модели большого языка GPT-3.5. В марте прошлого года OpenAI представила улучшенную версию ChatGPT, основанную на более мощном GPT-4. Как показано в посте, эта новая модель, если ее правильно подсказать, может играть в шахматы на удивление прилично, достигая примерно 1000 рейтинга Эло — лучше, чем примерно пятьдесят процентов игроков с рейтингом. «ChatGPT полностью усвоил правила шахмат», — заявил он. Он «не полагался на запоминание или другие, более поверхностные закономерности».

Это различие имеет значение. Когда большие языковые модели Впервые ворвавшись в общественное сознание, ученые и журналисты изо всех сил пытались найти метафоры, которые помогли бы объяснить их жуткую способность с помощью текста. Многие в конечном итоге пришли к выводу, что эти модели «смешивают и сопоставляют» непостижимо большие объемы текста, которые они усваивают во время обучения. Когда вы спрашиваете ChatGPT написать стихотворение о бесконечности простых чисел, вы можете предположить, что во время обучения он столкнулся со многими примерами как доказательств простых чисел, так и рифмованных стихов, что позволило ему объединить информацию из первого с закономерностями, наблюдаемыми во втором. («Я начну с доказательства Евклида, / которое показывает, что простые числа не просто отстранены».) Точно так же, когда вы попросите большую языковую модель, или LLM, резюмировать отчет о доходах, она будет знать, где находятся основные моменты. в таких документах обычно можно найти, а затем переставить их, чтобы создать плавный перепросмотр. С этой точки зрения эти технологии играют роль редактора, помогая нам лучше использовать существующие мысли.

Но после появления GPT-4, за которым вскоре последовали другие модели искусственного интеллекта следующего поколения, в том числе PaLM-2 от Google и Claude 2.1 от Anthropic, метафора «смешивай и подбирай» начала давать сбои. Как подчеркивается в сообщении LessWrong, большая языковая модель, которая может хорошо играть в шахматы на уровне новичка, вероятно, не просто копирует ходы, с которыми она столкнулась при чтении книг о шахматах. Кажется вероятным, что в каком-то смысле, который трудно понять, он «понимает» правила игры – и это более глубокое достижение. Вскоре последовали и другие примеры очевидных рассуждений, связанных с получением степени магистра, включая сдачу экзаменов SAT, решение загадок, программирование видеоигр с нуля и объяснение шуток. Последствия здесь потенциально глубоки. Во время выступления в Массачусетском технологическом институте Себастьян Бубек, исследователь Microsoft, который был частью команды, которая систематически изучала возможности GPT-4, описал эти разработки: «Если ваша точка зрения такова: «Что меня волнует, так это решать проблемы, думать абстрактно, чтобы постигать сложные идеи, рассуждать о новых элементах, которые приходят ко мне», тогда я думаю, что GPT-4 следует назвать разумным», — сказал он.

Однако с этим повествованием о тревожном изумлении переплетается интригующий контрапункт. Остаются некоторые удивительно простые задачи, которые продолжают мешать студентам магистратуры. В своем выступлении в Массачусетском технологическом институте Бубек описал, как дать GPT-4 математическое уравнение «7 x 4 + 8 x 8 = 92». Затем он попросил его изменить ровно одно число в левой части, чтобы уравнение имело значение 106. Для человека эта задача проста: заменить «7 x 4» на «7 x 6». Но GPT-4 не смог этого понять и дал явно неверный ответ. «Арифметика шаткая», — сказал Бубек.

Как эти мощные системы могут побеждать нас в шахматах, но давать сбои в элементарной математике? Этот парадокс отражает нечто большее, чем просто своеобразную особенность дизайна. Это указывает на нечто фундаментальное в том, как думают большие языковые модели. Учитывая прогнозируемая важность этих инструментов в нашей жизни, стоит уделить время и потянуть за эту нить. Другими словами, чтобы лучше понять, чего ожидать от систем ИИ в будущем, нам следует начать с лучшего понимания того, чего доминирующие системы сегодня все еще не могут сделать.

Как человеческий мозг решает математическую задачу, подобную той, которую Бубек использовал, чтобы поставить в тупик GPT-4? В своем выступлении в Массачусетском технологическом институте он описал, как может развиваться наше мышление. Как только мы осознаем, что наша цель — увеличить сумму в правой части уравнения на четырнадцать, мы начинаем искать многообещающие варианты в левой части. «Я смотрю налево и вижу семерку», — сказал Бубек. «Тогда у меня наступает своего рода момент эврики. Ах! Четырнадцать — семь раз два. Хорошо, если семь раз два, то мне нужно превратить эту четверку в шестерку».

Для нас такой тип мышления естественен — именно так мы во всем разбираемся. Поэтому мы могли бы упустить из виду степень, в которой такие рассуждения зависят от предвкушения. Чтобы решить нашу математическую задачу, нам нужно заглянуть в будущее и оценить влияние различных изменений, которые мы можем внести. Причина, по которой «7 х 4» быстро привлекает наше внимание, заключается в том, что мы интуитивно моделируем, что произойдет, если мы увеличим количество семерок. «Это было своего рода планирование», — заключил Бубек о своем процессе решения. «Я заранее думал о том, что мне понадобится».

Мы постоянно применяем эту когнитивную стратегию в нашей повседневной жизни. Ведя серьезный разговор, мы симулируем, как разные ответы могут изменить настроение — точно так же, как, просматривая кассу в супермаркете, мы прогнозируем, насколько медленно будут продвигаться различные очереди. В целом, целенаправленное поведение почти всегда требует от нас заглянуть в будущее, чтобы проверить, насколько различные действия могут приблизить нас к нашим целям. Это справедливо независимо от того, размышляем ли мы важные решения в жизнинапример, переезжать или заводить детей, или отвечать на небольшие, но настойчивые вопросы, которые продвигают наши рабочие дни вперед, например, какой пункт списка дел решить следующим.

Предположительно, чтобы искусственный интеллект смог достичь чего-то вроде человеческого познания, ему также необходимо овладеть такого рода планированием. В “2001: Космическая одиссея», суперкомпьютер с самосознанием ХАЛ 9000 отклоняет просьбу Дэйва «открыть двери отсека для капсул», потому что, можно предположить, он моделирует возможные последствия этого действия и ему не нравится то, что он обнаруживает. Способность рассматривать будущее неотделима от нашего разговорного понимания настоящего интеллекта. Все это указывает на важность трудности GPT-4 с математическим уравнением Бубека. Борьба ИИ здесь не была случайностью. Оказывается, все больше исследований показывают, что эти передовые системы постоянно не справляются с фундаментальной задачей мышления на будущее.

Возьмем, к примеру, исследовательскую работу, которую Бубек представил в своем докладе в Массачусетском технологическом институте. Он и его команда из Microsoft Research провели предварительную версию GPT-4 через серию систематических интеллектуальных тестов. В большинстве областей производительность модели была «замечательной». Но задачи, требующие планирования, были заметным исключением. Исследователи снабдили GPT-4 правилами Ханойских башен, простой игры-головоломки, в которой вы перемещаете диски разного размера между тремя стержнями, перемещая их по одному, никогда не помещая больший диск над меньшим. Затем они попросили модель решить простой пример игры, который можно решить за пять ходов. GPT-4 дал неправильный ответ. Как отметили исследователи, успех в решении этой головоломки требует, чтобы вы смотрели вперед и задавались вопросом, может ли ваш текущий ход привести вас в тупик в будущем.

В другом примере исследователи попросили GPT-4 написать короткое стихотворение, в котором в последней строке используются те же слова, что и в первой, но в обратном порядке. Более того, они указали, что все строки стихотворения должны иметь смысл как по грамматике, так и по содержанию. Например:

Тьме нужен свет,
К этой истине устремляется наше воображение.
Но давайте не будем забывать, успокаиваясь,
Свет требует Тьмы.

Люди легко справятся с этой задачей: приведенное выше стихотворение, каким бы ужасным оно ни было, удовлетворяет подсказке, и на его сочинение у меня ушло меньше минуты. GPT-4 же споткнулся. Когда команда Бубека попросила его попытаться выполнить задание, чат-бот начал свое стихотворение со строчки «Я услышал его голос в толпе» — опрометчивое решение, которое неизбежно привело к бессмысленной заключительной строке «Столпните тот голос, который он услышал». Я.” Чтобы добиться успеха в написании стихов, вам нужно подумать о написании последней строчки, прежде чем сочинять первую. GPT-4 не мог таким образом заглянуть в будущее. «Модель опирается на локальный и жадный процесс генерации следующего слова без какого-либо глобального или глубокого понимания задачи или результата», — пишут исследователи.

Команда Бубека была не единственной, кто изучал проблемы планирования. В декабре в докладе, представленном на известной конференции по искусственному интеллекту Neural Information Processing Systems, нескольким магистрантам предлагалось решить «задачи планирования на основе здравого смысла», включая перестановку цветных блоков в стопки, упорядоченные определенным образом, и разработку эффективных графиков доставки товаров через сеть городов и соединительных дорог. Во всех случаях проблемы были созданы так, чтобы люди могли их легко решить, но также требовали способности смотреть вперед, чтобы понять, как текущие шаги могут изменить то, что возможно позже. Из протестированных моделей лучше всего показал себя GPT-4; даже ему удалось добиться успеха лишь в двенадцать процентов.

Эти проблемы с планированием не являются поверхностными. Их невозможно исправить, увеличив количество LLM или изменив методы их обучения. Они отражают нечто фундаментальное в том, как работают эти модели.

Такая система, как GPT-4, чрезвычайно сложна, но один из способов понять это является мощным предсказателем слов. Вы вводите в него входные данные в виде текста, и он выводит по одному строку слов, которая, по его прогнозам, будет рациональным образом расширять вводимые данные. (Если вы дадите большой языковой модели входные данные «У Мэри было немного», она, скорее всего, выдаст «ягненок».) Приложения искусственного интеллекта, такие как ChatGPT, основаны на больших языковых моделях, таких как GPT-4. Чтобы сгенерировать длинный ответ на ваше приглашение, ChatGPT неоднократно вызывает свою базовую модель, увеличивая вывод по одному слову за раз.

Чтобы выбрать слова, языковые модели начинают с пропускания входных данных через ряд распознавателей образов, организованных в последовательные слои. По мере того как текст проходит через этот экзегетический сборочный конвейер, модель постепенно выстраивает сложное внутреннее представление того, о чем его спрашивают. Возможно, было бы полезно представить, что модель имеет обширный контрольный список, содержащий миллиарды возможных свойств; поскольку входной текст обрабатывается моделью, она проверяет все свойства, которые кажутся применимыми. Например, если вы предоставите GPT-4 описание шахматной доски и попросите ее сделать ход, модель может отметить свойства, указывающие, что входные данные относятся к игре, что это шахматная игра и что пользователь задает вопрос. для переезда. Некоторые свойства могут быть связаны с более конкретной информацией, например, тот факт, что на доске, описанной во входных данных, есть белый конь на поле E3; другие могут кодировать абстрактные наблюдения, например роль, которую белый рыцарь в пространстве E3 играет в защите своего короля.

2024-03-15 10:00:00

1711100199
#Может #ли #ИИ #строить #планы

Может ли ИИ строить планы?

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply