Home » Stability AI представляет меньшую и более эффективную языковую модель 1.6B в рамках постоянных инноваций

Stability AI представляет меньшую и более эффективную языковую модель 1.6B в рамках постоянных инноваций

Размер, безусловно, имеет значение, когда речь идет о больших языковых моделях (LLM), поскольку он влияет на то, где модель может работать.

Стабильность ИИпоставщик, который, пожалуй, наиболее известен своей стабильной технологией преобразования текста в изображение с помощью искусственного интеллекта, сегодня выпустил одну из своих самых маленьких моделей, дебютировав Stable LM 2 1.6B. Стабильный ЛМ — это LLM для создания текстового контента, который Stability AI впервые запустил в апреле 2023 года с моделями с 3 и 7 миллиардами параметров. Новая модель StableLM фактически является второй моделью, выпущенной Stability AI в 2024 году после модели компании. Стабильный код 3B запущен в начале этой недели.

Новая компактная, но мощная модель Stable LM призвана снизить барьеры и позволить большему количеству разработчиков участвовать в генеративной экосистеме искусственного интеллекта, включающей многоязычные данные на семи языках — английском, испанском, немецком, итальянском, французском, португальском и голландском. Модель использует последние алгоритмические достижения в языковом моделировании, чтобы достичь того, что, как надеется Stability AI, является оптимальным балансом между скоростью и производительностью.

«В целом, более крупные модели, обученные на аналогичных данных по аналогичному рецепту обучения, как правило, работают лучше, чем более мелкие», — сказал VentureBeat Карлос Рикельме, руководитель языковой группы Stability AI. «Однако со временем, когда новые модели начинают реализовывать более совершенные алгоритмы и обучаются на большем количестве данных более высокого качества, мы иногда наблюдаем, как последние модели меньшего размера превосходят старые, более крупные».

Почему меньше значит лучше (на этот раз) со Stable LM

По данным Stability AI, модель превосходит другие модели малых языков с менее чем 2 миллиардами параметров в большинстве тестов, включая Microsoft. Фи-2 (2,7Б), Крошечная Лама 1.1B Сокол 1Б.

Read more:  Microsoft, возможно, работает над более дешевой бездисковой консолью Xbox Series X

Новый Stable LM меньшего размера даже способен превзойти некоторые более крупные модели, включая более раннюю модель Stable LM 3B от Stability AI.

«Стабильный LM 2 1.6B работает лучше, чем некоторые более крупные модели, прошедшие обучение несколько месяцев назад», — сказал Рикельме. «Если вы думаете о компьютерах, телевизорах или микрочипах, мы можем увидеть примерно аналогичную тенденцию: со временем они становились меньше, тоньше и лучше».

Чтобы внести ясность, меньший Stable LM 2 1.6B имеет некоторые недостатки из-за своего размера. Stability AI в своем выпуске для новой модели предупреждает, что «… из-за природы небольших языковых моделей с малой емкостью Stable LM 2 1.6B может аналогичным образом демонстрировать общие проблемы, такие как высокий уровень галлюцинаций или потенциально токсичный язык».

Прозрачность и больше данных являются основой новой версии модели.

Stability AI использует более мелкие и мощные варианты LLM в течение последних нескольких месяцев.

В декабре 2023 года СтабильныйLM Зефир 3Б была выпущена модель, обеспечивающая более высокую производительность StableLM при меньшем размере, чем первоначальная итерация еще в апреле.

Рикельме пояснил, что новые модели Stable LM 2 обучаются на большем количестве данных, включая многоязычные документы на 6 языках помимо английского (испанский, немецкий, итальянский, французский, португальский и голландский). Еще один интересный аспект, подчеркнутый Рикельме, — это порядок, в котором данные отображаются в модели во время обучения. Он отметил, что, возможно, стоит сосредоточиться на разных типах данных на разных этапах обучения.

Идя еще дальше, Stability AI делает новые модели доступными с предварительно обученными и точно настроенными опциями, а также с форматом, который исследователи описывают как «…последнюю контрольную точку модели перед временем восстановления перед обучением».

Read more:  Из-за потери более миллиона вакцин они попросят МинСалуд провести расследование.

«Наша цель — предоставить отдельным разработчикам больше инструментов и артефактов для инноваций, трансформации и развития на основе нашей текущей модели», — сказал Рикельме. «Здесь мы предоставляем конкретную полуготовую модель, с которой люди могут поиграть».

Рикельме объяснил, что во время обучения модель последовательно обновляется и ее производительность увеличивается. В этом сценарии самая первая модель ничего не знает, в то время как последняя использовала и, будем надеяться, изучила большинство аспектов данных. В то же время Рикельме считает, что модели могут стать менее податливыми к концу обучения, поскольку им придется завершить обучение.

«Мы решили предоставить модель в ее нынешнем виде прямо перед тем, как мы приступим к последнему этапу обучения, чтобы, будем надеяться, было легче специализировать ее для других задач или наборов данных, которые люди могут захотеть использовать», — сказал он. «Мы не уверены, что это сработает хорошо, но мы действительно верим в способность людей использовать новые инструменты и модели удивительными и неожиданными способами».

Миссия VentureBeat должен стать цифровой городской площадкой для лиц, принимающих технические решения, где они смогут получить знания о преобразующих корпоративных технологиях и совершать сделки. Откройте для себя наши брифинги.

2024-01-19 23:57:04


1705727047
#Stability #представляет #меньшую #более #эффективную #языковую #модель #1.6B #рамках #постоянных #инноваций

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.