AI2 выпускает самый большой открытый набор данных для обучения языковых моделей

“/>

Кредиты изображений: AI2

Такие языковые модели, как GPT-4 и Claude, являются мощными и полезными, но данные, на которых они обучаются, являются строго охраняемым секретом. Институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию с помощью нового огромного набора текстовых данных, который можно использовать бесплатно и который открыт для просмотра.

Долма, как называется набор данных, призвана стать основой для исследовательской группы. запланированная модель открытого языка, или OLMo (Долма — это сокращение от «Данные для удовлетворения аппетита OLMo»). Поскольку модель предназначена для свободного использования и модификации исследования ИИ сообщества, так же (утверждают исследователи AI2) должен быть набор данных, который они используют для его создания.

Это первый «артефакт данных», который AI2 делает доступным для OLMo. в сообщении в блоге, Лука Солдайни из организации объясняет выбор источников и обоснование различных процессов, которые команда использовала, чтобы сделать его приемлемым для потребления ИИ. («Более подробный документ находится в разработке», — отмечают они вначале.)

Хотя такие компании, как OpenAI и Meta, публикуют некоторые важные статистические данные о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации рассматривается как частная. Помимо известного последствия препятствования проверке и улучшению в целом, есть предположение, что, возможно, этот закрытый подход связан с тем, что данные не были получены этическим или законным путем: например, что пиратские копии книг многих авторов проглатываются.

На этой диаграмме, созданной AI2, вы можете видеть, что самые большие и самые последние модели предоставляют только часть информации, которую исследователь, вероятно, хотел бы знать о данном наборе данных. Какая информация была удалена и почему? Какой текст считался качественным, а какой — некачественным? Были ли надлежащим образом удалены личные данные?

“/>

Диаграмма, показывающая открытость или отсутствие открытости различных наборов данных. Кредиты изображений: AI2

Конечно, прерогатива этих компаний в условиях жесткой конкуренции на рынке ИИ — хранить секреты процессов обучения своих моделей. Но для исследователей вне компаний это делает эти наборы данных и модели более непрозрачными и трудными для изучения или воспроизведения.

Долма AI2 призвана быть противоположностью им, со всеми ее источниками и процессами — например, как и почему она была обрезана до оригинальных текстов на английском языке — публично задокументированы.

Он не первый, кто пытается использовать открытые наборы данных, но он на сегодняшний день является крупнейшим (3 миллиарда токенов, собственный показатель объема контента, основанный на искусственном интеллекте) и, как они утверждают, самым простым с точки зрения использования и разрешений. Он использует «лицензию ImpACT для артефактов со средним уровнем риска». подробности о которых вы можете посмотреть здесь. Но по сути это требует от потенциальных пользователей Dolma:

Укажите контактную информацию и предполагаемые варианты использования
Раскройте любые творения, производные от долмы
Распространяйте эти производные под той же лицензией
Согласитесь не применять Долму в различных запрещенных сферах, таких как слежка или дезинформация.

Для тех, кто беспокоится о том, что, несмотря на все усилия AI2, некоторые их личные данные могли попасть в базу данных, есть форма запроса на удаление, доступная здесь. Это для конкретных случаев, а не просто «не используйте меня».

Если все это звучит хорошо для вас, доступ к Долме доступен через Hugging Face.

2023-08-18 20:30:06

1692416605
#AI2 #выпускает #самый #большой #открытый #набор #данных #для #обучения #языковых #моделей

AI2 выпускает самый большой открытый набор данных для обучения языковых моделей

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply