Использовала ли OpenAI YouTube в качестве обучающих данных для своей модели генерации видео Sora? Мы обратились напрямую в компанию

В будущем Google, вероятно, попытается пресекать попытки загрузки большого количества видео с YouTube еще более тщательно, чем раньше.

Предпринятые на данный момент усилия уже дают результаты: многие люди жалуются, что загрузка одного видео с YouTube на форумах по программированию на GitHub и Reddit теперь занимает несколько часов.

В любом случае, OpenAI требует много текста, изображений и видео для обучения собственных моделей ИИ, а при обучении Sora они либо каким-то образом скачали много контента с YouTube, либо соблюдали ограничения Google. Можно только предположить, что доступ к видеоданным был получен с помощью какого-то уклончивого метода.

Как OpenAI ответила на «вопрос»?

Просмотр и потоковая передача видео на YouTube практически бесплатны, поэтому, если вы просто загружаете небольшое количество видео в исследовательских целях, это не должно стать большой проблемой. Но использование миллионов видеороликов для создания высокопроизводительных моделей искусственного интеллекта следующего поколения – это совсем другая история.

В качестве прецедента можно привести технологические СМИ.Информациябыло в июне прошлого года,OpenAI использует видео на YouTube для обучения модели искусственного интеллекта для распознавания голоса под названием WhisperСообщается, что.

Business Insider спросил OpenAI, загружала ли она большое количество видеороликов с YouTube в прошлом и использует ли загруженный контент в качестве данных для обучения моделей ИИ.

Мы также спросили респондентов, как они воспринимают и понимают ограничения Google на массовую загрузку видео с YouTube.

Представитель OpenAI дал следующий общий ответ: На подробные вопросы, приведенные выше, комментариев получено не было.

｢Данные обучения Соры включают материалы из лицензированных источников, а также контент, опубликованный в Интернете.｣

Прецедентное право и принципы добросовестного использования

В условиях быстрого развития генеративного искусственного интеллекта необходимы высококачественные данные для обучения моделей искусственного интеллекта, которые лежат в основе диалогового искусственного интеллекта OpenAI «ChatGPT» и помощника искусственного интеллекта Microsoft «Copilot».

В этой новой сфере до сих пор нет четких правил относительно того, что законно, что этично и что является лучшей практикой.

Доступ к видео YouTube способом, который «может» нарушить условия обслуживания Google, вероятно, не является «незаконным».

Прецедентное право, сложившееся на протяжении многих лет, а также принцип добросовестного использования (защищенное авторским правом произведение не может быть использовано без разрешения правообладателя при соблюдении определенных требований, например, для критики, репортажей, исследований или расследований). Это связано с тем, что законом установлено право свободно использовать онлайн-контент различными способами, что не является нарушением авторских прав.

Технологические компании, такие как Google и OpenAI, теперь заявляют, что также законно (согласно прецедентному праву и принципам добросовестного использования) использовать контент, защищенный авторским правом, в качестве обучающих данных для моделей ИИ.

Однако ни регуляторы, ни суды пока не приняли никаких решений.

«Негласное соглашение» в мире электронной коммерции

Учитывая такое серое положение дел, компании-разработчики ИИ во всем мире стараются собрать большие объемы высококачественных данных (прежде чем все станет ясно и темно).

По словам человека, знакомого с внутренними делами OpenAI, компанияПолучение данных обучения позиционируется как выделенная задача для команды, которая работает с конфиденциальными данными, полностью оторванной от других отделов, и поэтому не считается целесообразным запрашивать подробную информацию о том, как данные были получены внутри компании.Вот что это значит.

Один опытный исследователь искусственного интеллекта описывает текущую ситуацию с OpenAI и YouTube как с другой областью технологической индустрии, где правила конкуренции четко не определены или игнорируются, особенно в сфере электронной коммерции.

В мире электронной коммерции парсинг (автоматическое извлечение) данных о ценах на товары, отображаемых на торговых площадках конкурентов, является обычным явлением.

Строго говоря, многие компании запрещают такое поведение в своих условиях обслуживания, но если они также могут парсить данные других компаний, они готовы закрывать глаза на парсинг собственных данных.Дошло до этого момента.

Онлайн-издатели в настоящее время находятся в прямом конфликте с разработчиками искусственного интеллекта, о чем свидетельствует иск, поданный The New York Times против OpenAI и Microsoft, и поэтому вопрос очистки данных контента не решен.

(*Материнская компания Business Insider, немецкая компания Axel Springer, заключила соглашение, которое позволяет OpenAI использовать статьи, распространяемые ее медиа-брендами, в качестве обучающих данных.)

Технический директор OpenAI говорит: «Я действительно не понимаю».

Компании, разрабатывающие модели ИИ, в том числе OpenAI (традиционно самостоятельная некоммерческая исследовательская организация), раньше раскрывали источник своих обучающих данных при публикации исследовательских работ, но по мере роста конкуренции эта практика изменилась и почти исчезла.

Когда Meta Platforms выпустила свою последнюю модель искусственного интеллекта «Лама 2», данные обученияне раскрыл источникМожно сказать, что это пример этого.

13 марта Wall Street Journal опубликовал видео, на котором популярный технологический обозреватель Джоанна Стерн берет интервью у Миры Мурати, технического директора OpenAI.

Видеоинтервью опубликовано Wall Street Journal. «Видео, созданное Sora из OpenAI, заставило мое сердце учащенно биться, и я задал техническому директору вопросы (почти все), которые пришли мне в голову», — гласил заголовок.

Официальный канал The Wall Street Journal на YouTube

В интервью Стерн прямо спрашивает, использовал ли он видео на YouTube в качестве тренировочных данных для Соры.

Первый ответ был: «На самом деле, я мало что об этом знаю».

Мурати снова спросили, и он ответил: «Я не буду вдаваться в подробности».

2024-03-19 21:45:00

1710907993
#Использовала #ли #OpenAI #YouTube #качестве #обучающих #данных #для #своей #модели #генерации #видео #Sora #Мы #обратились #напрямую #компанию #Business #Insider #Japan

Использовала ли OpenAI YouTube в качестве обучающих данных для своей модели генерации видео Sora? Мы обратились напрямую в компанию | Business Insider Japan

Как OpenAI ответила на «вопрос»?

Прецедентное право и принципы добросовестного использования

«Негласное соглашение» в мире электронной коммерции

Технический директор OpenAI говорит: «Я действительно не понимаю».

Related

Leave a Comment Cancel reply

Как OpenAI ответила на «вопрос»?

Прецедентное право и принципы добросовестного использования

«Негласное соглашение» в мире электронной коммерции

Технический директор OpenAI говорит: «Я действительно не понимаю».

Share this:

Related

Leave a Comment Cancel reply