зифра

Наша модель превосходит существующие современные модели по следующим причинам:

  1. Наша новая архитектура с общим вниманием позволяет выделить больше параметров магистрали Mamba2. В свою очередь, общий блок преобразователя сохраняет богатые зависимости перекрестных последовательностей вычислений внимания.
  2. Наш набор данных для предварительного обучения на 3 триллиона токенов, который состоит из комбинации Зида и общедоступные наборы данных, которые тщательно фильтруются и дедуплицируются и обеспечивают самое современное качество абляции по сравнению с существующими лучшими наборами данных для предварительной подготовки с открытым исходным кодом.
  3. У нас есть отдельная фаза предварительного обучения «отжига», которая быстро снижает скорость обучения более 100 млрд токенов высокого качества. Наш набор для отжига тщательно проверен на предмет качества и собран из различных высококачественных источников.

Благодаря исключительному качеству наших наборов данных для предварительного обучения и отжига Zamba2-7B работает очень хорошо в расчете на каждый обучающий токен, находясь комфортно над кривой, прослеживаемой моделями конкурентов.

Zamba2-7B использует и расширяет нашу оригинальную гибридную архитектуру SSM-внимания Zamba. Базовая архитектура Zamba состоит из основы слоев Mamba, чередующихся с одним или несколькими уровнями общего внимания (один уровень общего внимания в Zamba1, два в Zamba2). Это внимание имеет общие веса, чтобы минимизировать стоимость параметров модели. Мы обнаружили, что объединение входных данных исходной модели в этот блок внимания повышает производительность, вероятно, из-за лучшего обслуживания информации по глубине. Архитектура Zamba2 также применяет матрицы проекции LoRA к общему MLP, чтобы получить некоторую дополнительную выразительность в каждом блоке и позволить каждому общему блоку немного специализироваться на своем собственном уникальном положении, сохраняя при этом небольшие накладные расходы на дополнительные параметры.

Мы достигаем высочайшей эффективности вывода, включая задержку, пропускную способность и использование памяти, потому что:

  1. Блоки Mamba2 чрезвычайно эффективны и имеют примерно в 4 раза большую пропускную способность, чем трансформаторный блок с равными параметрами.
  2. Блоки Mamba имеют только небольшие скрытые состояния для хранения и не требуют KV-кэша, поэтому нам нужно хранить состояния KV только для вызовов блока общего внимания.
  3. Мы выбираем размеры модели, которые легко поддаются распараллеливанию на современном оборудовании (т. е. несколько потоковых мультипроцессоров на графических процессорах, несколько ядер на центральных процессорах).
Read more:  Какой поворот: использование боевого пистолета от Путина поразило Китай

Zamba2-7B обучался на 128 графических процессорах H100 в течение примерно 50 дней с использованием нашей внутренней системы обучения, разработанной на базе Megatron-LM. Таким образом, Zamba2-7B демонстрирует, что в масштабе 7B граница все еще достижима и превзойдена с небольшой командой и умеренным бюджетом.

Zamba2-7B будет выпущен под лицензией с открытым исходным кодом, что позволит исследователям, разработчикам и компаниям использовать его возможности. Мы приглашаем более широкое сообщество ИИ изучить уникальную архитектуру Zamba и продолжать расширять границы эффективных базовых моделей. Доступна интеграция Huggingface. здесьи доступна реализация на чистом Pytorch здесь.

Команда Zyphra стремится к демократизации передовых систем искусственного интеллекта, исследованию новых архитектур, находящихся на переднем крае производительности, а также продвижению научных исследований и понимания мощных моделей. Мы надеемся на сотрудничество с теми, кто разделяет наше видение.

2024-10-14 22:45:00


1728961829
#зифра

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.