Наша модель превосходит существующие современные модели по следующим причинам:
- Наша новая архитектура с общим вниманием позволяет выделить больше параметров магистрали Mamba2. В свою очередь, общий блок преобразователя сохраняет богатые зависимости перекрестных последовательностей вычислений внимания.
- Наш набор данных для предварительного обучения на 3 триллиона токенов, который состоит из комбинации Зида и общедоступные наборы данных, которые тщательно фильтруются и дедуплицируются и обеспечивают самое современное качество абляции по сравнению с существующими лучшими наборами данных для предварительной подготовки с открытым исходным кодом.
- У нас есть отдельная фаза предварительного обучения «отжига», которая быстро снижает скорость обучения более 100 млрд токенов высокого качества. Наш набор для отжига тщательно проверен на предмет качества и собран из различных высококачественных источников.
Благодаря исключительному качеству наших наборов данных для предварительного обучения и отжига Zamba2-7B работает очень хорошо в расчете на каждый обучающий токен, находясь комфортно над кривой, прослеживаемой моделями конкурентов.
Zamba2-7B использует и расширяет нашу оригинальную гибридную архитектуру SSM-внимания Zamba. Базовая архитектура Zamba состоит из основы слоев Mamba, чередующихся с одним или несколькими уровнями общего внимания (один уровень общего внимания в Zamba1, два в Zamba2). Это внимание имеет общие веса, чтобы минимизировать стоимость параметров модели. Мы обнаружили, что объединение входных данных исходной модели в этот блок внимания повышает производительность, вероятно, из-за лучшего обслуживания информации по глубине. Архитектура Zamba2 также применяет матрицы проекции LoRA к общему MLP, чтобы получить некоторую дополнительную выразительность в каждом блоке и позволить каждому общему блоку немного специализироваться на своем собственном уникальном положении, сохраняя при этом небольшие накладные расходы на дополнительные параметры.
Мы достигаем высочайшей эффективности вывода, включая задержку, пропускную способность и использование памяти, потому что:
- Блоки Mamba2 чрезвычайно эффективны и имеют примерно в 4 раза большую пропускную способность, чем трансформаторный блок с равными параметрами.
- Блоки Mamba имеют только небольшие скрытые состояния для хранения и не требуют KV-кэша, поэтому нам нужно хранить состояния KV только для вызовов блока общего внимания.
- Мы выбираем размеры модели, которые легко поддаются распараллеливанию на современном оборудовании (т. е. несколько потоковых мультипроцессоров на графических процессорах, несколько ядер на центральных процессорах).
Zamba2-7B обучался на 128 графических процессорах H100 в течение примерно 50 дней с использованием нашей внутренней системы обучения, разработанной на базе Megatron-LM. Таким образом, Zamba2-7B демонстрирует, что в масштабе 7B граница все еще достижима и превзойдена с небольшой командой и умеренным бюджетом.
Zamba2-7B будет выпущен под лицензией с открытым исходным кодом, что позволит исследователям, разработчикам и компаниям использовать его возможности. Мы приглашаем более широкое сообщество ИИ изучить уникальную архитектуру Zamba и продолжать расширять границы эффективных базовых моделей. Доступна интеграция Huggingface. здесьи доступна реализация на чистом Pytorch здесь.
Команда Zyphra стремится к демократизации передовых систем искусственного интеллекта, исследованию новых архитектур, находящихся на переднем крае производительности, а также продвижению научных исследований и понимания мощных моделей. Мы надеемся на сотрудничество с теми, кто разделяет наше видение.
2024-10-14 22:45:00
1728961829
#зифра
