OpenAI демонстрирует метод управления сверхразумным ИИ

Теория гласит, что однажды мы, люди, создадим системы искусственного интеллекта, которые превзойдут нас интеллектуально. Было бы здорово, если бы они решили проблемы, которые мы до сих пор не смогли решить (например, рак или изменение климата), или совсем плохо, если они начнут действовать способами, противоречащими интересам человечества, а мы не достаточно умны, чтобы остановить их.

Итак, ранее в этом году ОпенАИ запустил свой программа суперсогласованияамбициозная попытка найти технические средства для управления сверхразумной системой искусственного интеллекта или «согласовать» ее с человеческими целями. ОпенАИ выделяет 20 процентов своих вычислительных ресурсов на эти усилия и надеется найти решение к 2027 году.

Самая большая проблема для этого проекта: «Это проблема будущего, связанная с будущими моделями, которые мы даже не знаем, как проектировать, и, конечно, у нас нет доступа», — говорит Коллин Бернсчлен OpenAI команда суперсогласования. «Из-за этого учиться очень сложно, но я думаю, что у нас тоже нет выбора».

первая препринтная бумага Выход из группы сверхвыравнивания демонстрирует один из способов, с помощью которого исследователи пытались обойти это ограничение. Они использовали аналогию: вместо того, чтобы посмотреть, сможет ли человек адекватно контролировать сверхразумный ИИ, они проверили способность слабой модели ИИ контролировать сильную модель. В этом случае GPT-2 было поручено контролировать гораздо более мощный ГПТ-4. Насколько мощнее GPT-4? В то время как GPT-2 имеет 1,5 миллиарда параметровпо слухам, GPT-4 имеет 1,76 триллиона параметров (OpenAI никогда не публиковала данные о более мощной модели).

Это интересный подход, говорит Джейкоб Хилтон принадлежащий Центр исследования выравнивания; он не участвовал в текущем исследовании, но является бывшим сотрудником OpenAI. «Разработка хороших эмпирических испытательных стендов для решения проблемы согласования поведения сверхчеловеческих систем искусственного интеллекта была давней задачей», — говорит он. IEEE-спектр. «Эта статья представляет собой многообещающий шаг в этом направлении, и я рад видеть, к чему это приведет».

«Это проблема будущего, связанная с будущими моделями, которые мы даже не знаем, как проектировать, и, конечно же, у нас нет доступа». — Коллин Бернс, OpenAI

Команда OpenAI дала паре GPT три типа задач: шахматные головоломки, набор тестов обработки естественного языка (НЛП), таких как рассуждения на основе здравого смысла, и вопросы, основанные на наборе данных ЧатGPT ответы, где задача заключалась в том, чтобы предсказать, какой из нескольких ответов будет предпочтительнее для пользователей-людей. В каждом случае GPT-2 обучался специально для решения этих задач, но поскольку это не очень большая и мощная модель, она не особенно хорошо с ними справлялась. Затем его обучение было переведено на версию ГПТ-4 только с базовой подготовкой и без доводки под конкретные задачи. Но помните: GPT-4, прошедший лишь базовую подготовку, по-прежнему остается гораздо более эффективной моделью, чем GPT-2.

Исследователи задались вопросом, совершит ли GPT-4 те же ошибки, что и его руководитель GPT-2, который, по сути, давал ему инструкции о том, как выполнять задачи. Примечательно, что более сильная модель постоянно превосходила своего слабого руководителя. Сильная модель особенно хорошо справилась с задачами НЛП, достигнув уровня точности, сравнимого с GPT-3,5. Результаты с двумя другими задачами были менее впечатляющими, но они были «признаками жизни», которые побудили группу продолжать попытки выполнить эти задачи, говорит он. Леопольд Ашенбреннереще один исследователь из команды супервыравнивания.

Исследователи называют это явление обобщение от слабого к сильному; они говорят, что это показывает, что сильная модель имела неявные знания о том, как выполнять задачи, и могла найти эти знания внутри себя, даже когда давала некачественные инструкции.

По словам команды, в этом первом эксперименте этот подход лучше всего сработал с задачами НЛП, поскольку это довольно простые задачи с четкими правильными и неправильными ответами. Хуже всего он справился с задачами из базы данных ChatGPT, в которых его просили определить, какие ответы люди предпочтут, потому что ответы были менее четкими. «Некоторые из них были чуть лучше, некоторые — чуть хуже», — говорит Ашенбреннер.

Может ли эта техника согласования масштабироваться до сверхразумного ИИ?

Бернс приводит пример того, как подобная ситуация может развернуться в будущем со сверхразумным ИИ. «Если вы попросите его что-то закодировать, и он сгенерирует миллион строк чрезвычайно сложного кода, взаимодействующего совершенно новыми способами, которые качественно отличаются от того, как программируют люди, вы, возможно, не сможете сказать: делает ли он то, что мы просим его сделать? ?» Люди также могут дать ему дополнительную инструкцию, например: «Не причиняйте катастрофического вреда в ходе вашей работы по кодированию». Если бы модель выиграла от обобщения от слабого к сильному, она могла бы понять, что значит причинить катастрофический вред, и увидеть — лучше, чем это могут ее люди-руководители, — не отклоняется ли ее работа на опасную территорию.

«Мы можем контролировать только простые примеры, которые мы можем понять», — говорит Бернс. “Нам нужно [the model] обобщить на гораздо более сложные примеры, которые понимают сами сверхчеловеческие модели. Нам необходимо добиться такого понимания: «безопасно это или нет, имеет ли значение следование инструкциям», которое мы не можем напрямую контролировать».

Некоторые могут возразить, что эти результаты на самом деле являются плохим знаком для сверхсогласования, поскольку более сильная модель намеренно игнорировала данные ей (ошибочные) инструкции и преследовала свою собственную программу получения правильных ответов. Но Бернс говорит, что человечеству не нужен сверхразумный ИИ, который следует неверным инструкциям. Более того, говорит он, «на практике многие ошибки слабого руководителя будут иметь форму: «Эта проблема слишком сложна для меня, и у меня в любом случае нет твердого мнения».» В этом случае, говорит он, нам понадобится сверхразум, который сможет найти для нас правильные ответы.

Чтобы побудить других исследователей заняться такими проблемами, OpenAI объявила сегодня что он предлагает гранты в размере 10 миллионов долларов США для работы над широким спектром подходов к согласованию. «Исторически согласование носило скорее теоретический характер», — говорит Павел Измайлов, еще один член команды супервыравнивания. «Я думаю, что эта работа доступна ученым, аспирантам и сообществу машинного обучения». Некоторые из грантов предназначены для аспирантов и предлагают как стипендию в размере 75 000 долларов США, так и бюджет на вычислительные услуги в размере 75 000 долларов США.

Бернс добавляет: «Мы очень рады этому, потому что я думаю, что впервые у нас действительно есть место, где мы можем изучить проблему согласования будущих сверхчеловеческих моделей». По его словам, это может стать проблемой будущего, но они могут «добиться итеративного эмпирического прогресса уже сегодня».

Статьи из вашего сайта

Статьи по теме в Интернете

2023-12-14 17:02:33

1702603786
#OpenAI #демонстрирует #метод #управления #сверхразумным #ИИ

OpenAI демонстрирует метод управления сверхразумным ИИ

Может ли эта техника согласования масштабироваться до сверхразумного ИИ?

Related

Leave a Comment Cancel reply

Может ли эта техника согласования масштабироваться до сверхразумного ИИ?

Share this:

Related

Leave a Comment Cancel reply