Meta AI раскрывает Megabyte, революционную масштабируемую архитектуру модели

Мета-команда исследователей ИИ предложила инновационная архитектура для моделей ИИ, способный генерировать обширный контент в текстовом, графическом и аудиоформатах, который может достигать более 1 миллиона токенов. Это новаторское предложение, если оно будет принято, может проложить путь к следующему поколению профессиональных моделей ИИ, превосходящих архитектуру Transformer, лежащую в основе таких моделей, как GPT-4 и Bard, и раскрывающих новые возможности в создании контента.

Ограничения текущих моделей

Современные высокопроизводительные модели генеративного ИИ, такие как OpenAI GPT-4, основаны на архитектуре Transformer. Впервые представлен исследователями Google в 2017 году.эта архитектура формирует основу новых моделей ИИ, облегчая понимание нюансов входных данных и генерируя обширные предложения и документы.

Тем не менее, группа исследователей искусственного интеллекта Meta утверждает, что преобладающая архитектура Transformer может достичь своего порога. Они выделяют два существенных недостатка, присущих конструкции:

С увеличением длины входных и выходных данных масштабы само-внимания резко возрастают. Поскольку каждое слово, обработанное или созданное языковой моделью Transformer, требует внимания ко всем другим словам, вычисления становятся очень интенсивными для тысяч слов, в то время как для меньшего количества слов это менее проблематично.
Сети с прямой связью, которые помогают языковым моделям понимать и обрабатывать слова с помощью последовательности математических операций и преобразований, борются с масштабируемостью для каждой позиции.. Эти сети работают с группами символов или «позициями» независимо друг от друга, что приводит к значительным вычислительным затратам.

Мегабайтная модель: изменение правил игры

Модель мегабайта, представленная Meta AI, демонстрирует уникальную архитектуру, разделяющую последовательность входов и выходов на «патчи», а не на отдельные токены. В каждом патче локальная модель ИИ генерирует результаты, а глобальная модель управляет и согласовывает конечный результат для всех патчей.

Эта методология решает проблемы масштабируемости, распространенные в современных моделях ИИ. Система исправлений модели Megabyte позволяет одной сети прямой связи работать с исправлением, охватывающим несколько токенов. Исследователи обнаружили, что такой патч-подход эффективно решает проблему масштабирования собственного внимания.

Патч-модель позволяет Megabyte выполнять вычисления параллельно, в отличие от традиционных Transformers, выполняющих вычисления последовательно. Даже когда базовая модель имеет больше параметров, это приводит к значительной эффективности. Эксперименты показали, что Megabyte, использующая модель с 1,5 миллиардом параметров, может генерировать последовательности на 40 % быстрее, чем модель Transformer, работающая с 350 миллионами параметров.

Используя несколько тестов для определения ограничений этого подхода, исследователи обнаружили, что максимальная емкость модели Megabyte превышает 1,2 млн токенов. Для сравнения, OpenAI GPT-4 имеет ограничение в 32 000 токенов, а Anthropic Claude — 100 000 токенов.

Формирование будущего ИИ

По мере развития гонки вооружений ИИ усовершенствования моделей ИИ в значительной степени связаны с обучением постоянно растущему числу параметров, которые являются значениями, полученными на этапе обучения модели ИИ. В то время как GPT-3.5 был обучен на 175B параметрах, есть предположение, что более способный GPT-4 был обучен на 1 триллионе параметров.

Генеральный директор OpenAI Сэм Альтман недавно предложил изменить стратегию, подтвердив, что компания думает помимо обучения колоссальных моделей и сосредоточился на других оптимизациях. Он приравнял будущее моделей ИИ к чипам iPhone, где большинство потребителей не обращают внимания на сырые технические характеристики. Альтман предвидел подобное будущее для ИИ, подчеркивая постоянное увеличение возможностей.

Исследователи Meta считают, что их инновационная архитектура появилась в нужное время, но также признают, что есть и другие пути оптимизации. Многообещающие области исследований, такие как более эффективные модели кодировщиков, использующие методы исправления, модели декодирования, разбивающие последовательности на более мелкие блоки, и предварительная обработка последовательностей в сжатые токены, находятся на горизонте и могут расширить возможности существующей архитектуры Transformer для нового поколения моделей.

Тем не менее, недавнее исследование Meta взволновало экспертов по искусственному интеллекту. Андрей Карпати, бывший старший директор по искусственному интеллекту в Tesla, а ныне ведущий инженер по искусственному интеллекту в OpenAI, вмешался и на бумаге. Это «многообещающе», — написал он в Twitter. «Каждый должен надеяться, что мы сможем отказаться от токенизации в LLM. Это наивно создает слишком длинные последовательности (на уровне байтов)».

2023-05-24 03:17:47

1684904999
#Meta #раскрывает #Megabyte #революционную #масштабируемую #архитектуру #модели

Meta AI раскрывает Megabyte, революционную масштабируемую архитектуру модели

Ограничения текущих моделей

Мегабайтная модель: изменение правил игры

Формирование будущего ИИ

Related

Leave a Comment Cancel reply

Ограничения текущих моделей

Мегабайтная модель: изменение правил игры

Формирование будущего ИИ

Share this:

Related

Leave a Comment Cancel reply