Бунты данных вспыхивают против ИИ

Более 20 лет Кит Лоффштадт пишет фанфики, посвященные альтернативным вселенным героев «Звездных войн» и злодеев «Баффи — истребительницы вампиров», бесплатно делясь своими историями в Интернете.

Но в мае г-жа Лоффштадт перестала публиковать свои творения после того, как узнала, что компания по обработке данных скопировала ее истории и ввела их в технологию искусственного интеллекта, лежащую в основе вирусного чат-бота ChatGPT. Встревоженная, она спрятала свое письмо за заблокированной учетной записью.

Г-жа Лоффштадт также помогла организовать в прошлом месяце восстание против систем искусственного интеллекта. Вместе с десятками других авторов фанфиков она опубликовала в Интернете поток дерзких историй, чтобы сокрушить и запутать службы сбора данных, которые передают работу писателей в технологию искусственного интеллекта.

«Каждый из нас должен делать все, что в наших силах, чтобы показать им, что результаты нашего творчества не предназначены для того, чтобы машины собирали урожай так, как им нравится», — сказала г-жа Лоффштадт, 42-летняя актриса озвучивания из Южного Йоркшира в Великобритании.

Авторы фанфиков — лишь одна группа, которая сейчас устраивает бунты против систем искусственного интеллекта, поскольку лихорадка вокруг технологий охватила Силиконовую долину и весь мир. В последние месяцы социальные сети, такие как Reddit и Twitter, новостные организации, включая The New York Times и NBC News, такие авторы, как Пол Тремблей и актриса Сара Силверман, выступили против того, чтобы ИИ высасывал их данные без разрешения.

Их протесты принимали разные формы. Писатели и художники блокируют свои файлы, чтобы защитить свою работу, или бойкотируют определенные веб-сайты, которые публикуют контент, созданный ИИ, в то время как такие компании, как Reddit, хотят взимать плату за доступ к своим данным. В этом году против компаний, занимающихся искусственным интеллектом, было подано не менее 10 исков, обвиняемых в обучении своих систем творчеству художников без их согласия. На прошлой неделе г-жа Сильверман и авторы Кристофер Голден и Ричард Кадри подали в суд на OpenAI, создателя ChatGPT, и других за использование ИИ их работы.

В основе восстаний лежит новообретенное понимание того, что онлайн-информация — истории, иллюстрации, новостные статьи, посты на досках объявлений и фотографии — может иметь значительную неиспользованную ценность.

Новая волна ИИ, известная как «генеративный ИИ» для текста, изображений и другого контента, который он генерирует, построена на сложных системах, таких как большие языковые модели, которые способны создавать человеческую прозу. Эти модели обучаются на большом количестве всевозможных данных, поэтому они могут отвечать на вопросы людей, имитировать стиль письма или штамповать комедию и поэзию.

Это вызвало у технологических компаний охоту за еще большим количеством данных для их систем искусственного интеллекта. Google, Meta и OpenAI в основном использовали информацию со всего Интернета, включая большие базы данных фанфиков, множество новостных статей и сборников книг, большая часть которых была доступна бесплатно в Интернете. На языке технологической индустрии это было известно как «скрапинг» Интернета.

OpenAI GPT-3, система искусственного интеллекта, выпущенная в 2020 году, включает 500 миллиардов «токенов», каждый из которых представляет части слов, найденных в основном в Интернете. Некоторые модели ИИ охватывают более одного триллиона токенов.

Практика скрейпинга в Интернете существует давно и в значительной степени раскрывалась компаниями и некоммерческими организациями, которые это делали. Но это не было хорошо понято и не считалось особенно проблематичным для компаний, владеющих данными. Ситуация изменилась после того, как ChatGPT дебютировал в ноябре, и общественность узнала больше о базовых моделях искусственного интеллекта, лежащих в основе чат-ботов.

«То, что здесь происходит, — это фундаментальная переориентация ценности данных», — сказал Брэндон Дудерштадт, основатель и исполнительный директор Nomic, компании, занимающейся искусственным интеллектом. «Раньше считалось, что вы получаете ценность данных, делая их открытыми для всех и запуская рекламу. Теперь идея состоит в том, что вы блокируете свои данные, потому что вы можете извлечь гораздо больше пользы, когда используете их в качестве входных данных для своего ИИ».

Протесты против данных могут иметь небольшой эффект в долгосрочной перспективе. Технологические гиганты с глубокими карманами, такие как Google и Microsoft, уже владеют горами конфиденциальной информации и имеют ресурсы, чтобы лицензировать больше. Но по мере того, как эра легкодоступного контента подходит к концу, небольшие стартапы ИИ и некоммерческие организации, которые надеялись конкурировать с крупными фирмами, могут оказаться не в состоянии получить достаточно контента для обучения своих систем.

В заявлении OpenAI говорится, что ChatGPT был обучен «лицензионному контенту, общедоступному контенту и контенту, созданному инструкторами по искусственному интеллекту». В нем добавлено: «Мы уважаем права создателей и авторов и надеемся на продолжение работы с ними для защиты их интересов».

В заявлении Google говорится, что компания ведет переговоры о том, как издатели смогут управлять своим контентом в будущем. «Мы считаем, что от динамичной экосистемы контента выигрывают все», — заявили в компании. Microsoft не ответила на запрос о комментариях.

Бунты данных вспыхнули в прошлом году после того, как ChatGPT стал всемирным явлением. В ноябре группа программистов подала предложенный коллективный иск против Microsoft и OpenAI, утверждая, что компании нарушили свои авторские права после того, как их код был использован для обучения помощника по программированию на базе ИИ.

В январе компания Getty Images, которая предоставляет стоковые фото и видео, подала в суд на Stability AI, компанию, занимающуюся искусственным интеллектом, которая создает изображения из текстовых описаний, утверждая, что стартап использовал фотографии, защищенные авторским правом, для обучения своих систем.

Затем, в июне, Clarkson, юридическая фирма из Лос-Анджелеса, подала 151-страничный коллективный иск против OpenAI и Microsoft, описывая, как OpenAI собирала данные от несовершеннолетних, и заявляя, что просмотр веб-страниц нарушает закон об авторском праве и представляет собой «воровство». Во вторник фирма подала аналогичный иск против Google.

«Восстание данных, которое мы наблюдаем по всей стране, — это способ общества противостоять идее о том, что Big Tech просто имеет право брать любую информацию из любого источника и делать ее своей собственной», — сказал Райан Кларксон, основатель Кларксона.

Эрик Голдман, профессор юридического факультета Университета Санта-Клары, сказал, что доводы иска слишком обширны и вряд ли будут приняты судом. Но волна судебных разбирательств, по его словам, только начинается, и грядут «вторая и третья волны», которые определят будущее ИИ.

Крупные компании также сопротивляются парсерам ИИ. В апреле Reddit заявил, что хочет взимать плату за доступ к своему интерфейсу прикладного программирования или API, методу, с помощью которого третьи стороны могут загружать и анализировать обширную базу данных социальной сети о личных разговорах.

Стив Хаффман, исполнительный директор Reddit, сказал в то время, что его компании «не нужно бесплатно отдавать всю эту ценность некоторым из крупнейших компаний мира».

В том же месяце Stack Overflow, сайт вопросов и ответов для программистов, заявил, что также будет просить компании, использующие ИИ, платить за данные. На сайте почти 60 миллионов вопросов и ответов. Об этом ранее сообщал Wired.

Новостные организации также сопротивляются системам ИИ. Во внутреннем меморандуме об использовании генеративного ИИ в июне The Times заявила, что компании, использующие ИИ, должны «уважать нашу интеллектуальную собственность». Представитель Times отказался вдаваться в подробности.

Для отдельных художников и писателей борьба с системами ИИ означала переосмысление того, где они публикуются.

35-летний Николас Коул, иллюстратор из Ванкувера, Британская Колумбия, был встревожен тем, как система искусственного интеллекта может воспроизвести его особый художественный стиль, и подозревал, что эта технология испортила его работу. Он планирует продолжать публиковать свои творения в Instagram, Twitter и других социальных сетях для привлечения клиентов, но он прекратил публикации на таких сайтах, как ArtStation, которые публикуют контент, созданный искусственным интеллектом, наряду с контентом, созданным людьми.

«Это похоже на бессмысленную кражу у меня и других артистов», — сказал г-н Коул. «Это вызывает в моем животе яму экзистенциального страха».

В Archive of Our Own, базе данных фанфиков с более чем 11 миллионами историй, писатели все чаще оказывали давление на сайт, чтобы запретить очистку данных и истории, созданные ИИ.

В мае, когда некоторые аккаунты в Твиттере поделились примерами того, как ChatGPT имитирует стиль популярных фанфиков, опубликованных на Archive of Our Own, десятки писателей восстали против этого. Они блокировали свои истории и писали подрывной контент, чтобы ввести в заблуждение парсеров ИИ. Они также подтолкнули лидеров Archive of Our Own запретить использование контента, созданного искусственным интеллектом.

Бетси Розенблатт, которая предоставляет юридические консультации для Archive of Our Own и является профессором юридического колледжа Университета Талсы, сказала, что сайт придерживается политики «максимальной инклюзивности» и не хочет быть в состоянии определить, какие истории были написаны. с ИИ

Для г-жи Лоффштадт, автора фанфиков, борьба с ИИ началась, когда она писала рассказ о Horizon Zero Dawn, видеоигре, в которой люди сражаются с роботами на базе ИИ в постапокалиптическом мире. По ее словам, в игре одни роботы были хорошими, а другие — плохими.

Но в реальном мире, по ее словам, «из-за высокомерия и корпоративной жадности их заставляют делать плохие вещи».

2023-07-15 09:01:06

1689430211
#Бунты #данных #вспыхивают #против #ИИ

Бунты данных вспыхивают против ИИ

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply