Согласно отчету, в котором предупреждается, что приложения ИИ могут использовать оскорбительные фотографии для создания реалистично выглядящих фальшивых изображений эксплуатации детей что можно продать.
В отчете, опубликованном сегодня Интернет-обсерваторией Стэнфордского университета (SIO), говорится, что в настоящее время продолжается удаление исходных изображений, поскольку исследователи сообщили URL-адреса изображений в Национальный центр пропавших без вести и эксплуатируемых детей (NCMEC) в США и Канадский центр защиты детей (C3P).
Расследование обнаружило тревожные изображения в крупнейшем хранилище изображений, используемом разработчиками ИИ для обучения, известном как ЛАИОН-5Бсодержащий миллиарды изображений, взятых из самых разных источников, включая основные веб-сайты социальных сетей и популярные видеосайты для взрослых.
По сообщению Associated Press, LAION, которая представляет собой некоммерческую организацию Крупномасштабная открытая сеть искусственного интеллекта, заявила в своем заявлении, что она «проводит политику абсолютной нетерпимости к незаконному контенту и с большой осторожностью» удаляет наборы данных до тех пор, пока оскорбительные изображения могут быть удалены.
Исследование SIO LAION-5B в основном проводилось с использованием инструментов хеширования, таких как PhotoDNA от Microsoft, которые сопоставляют отпечаток изображения с базами данных, поддерживаемыми некоммерческими организациями, которые получают и обрабатывают отчеты о сексуальной эксплуатации и насилии над детьми в Интернете. Исследователи не просматривали контент со злоупотреблениями, о совпадениях сообщали в NCMEC и по возможности подтверждали C3P.
В заявлении SIO говорится, что существуют методы минимизации материалов о сексуальном насилии над детьми (CSAM) в наборах данных, используемых для обучения моделей ИИ, но сложно очистить или остановить распространение открытых наборов данных без центрального органа, который хранит фактические данные.
В отчете излагаются рекомендации по безопасности при сборе наборов данных, моделях обучения и размещении моделей, обученных на очищенных наборах данных. Изображения, собранные в будущих наборах данных, следует сверять с известными списками CSAM с помощью таких инструментов обнаружения, как ФотоДНК от Microsoft или сотрудничать с организациями по безопасности детей, такими как NCMEC и C3P.
Набор данных LAION-5B получен из широкого спектра данных в сети и имеет
использовался для обучения различных моделей визуального генеративного машинного обучения. Этот набор данных
был создан путем создания снимка репозитория Common Crawl5 и загрузки
изображения, на которые есть ссылки в HTML, считывая атрибуты «alt» изображений и используя CLIP6.
допрос с целью отбросить изображения, которые недостаточно соответствовали подписям. Разработчики LAION-5B попытались определить, был ли контент откровенно сексуальным, а также обнаружить некоторую степень откровенного контента для несовершеннолетних.
Однако, как отмечается в отчете, версия 1.5 одной из самых популярных моделей генерации изображений ИИ, Stable Diffusion, также была обучена на широком спектре контента, как явного, так и иного. В отчете говорится, что наборы данных LAION также использовались для обучения других моделей, таких как Google Imagen, которая обучалась на сочетании внутренних наборов данных и LAION-400M.17 предыдущего поколения.
«Примечательно, — говорится в отчете, — что в ходе проверки LAION-400M разработчики Imagen обнаружили
«широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы», и счел его непригодным для публичного использования».
Несмотря на все усилия по поиску всех CSAM в LAION-5B, SIO заявляет, что его работа была «значительно занижена» из-за неполноты отраслевых наборов хешей, истощения размещенного в реальном времени контента, отсутствия доступа к исходным наборам эталонных изображений LAION, и ограниченная точность классификаторов «небезопасного» контента.
Наборы данных веб-масштаба весьма проблематичны по ряду причин, даже если
попытки безопасной фильтрации, говорится в отчете. В идеале такие наборы данных должны быть ограничены только исследовательскими настройками, при этом более тщательно подобранные наборы данных с хорошими источниками должны использоваться для общедоступных моделей ИИ.
2023-12-20 20:32:41
1703135264
#базе #данных #обучения #ИИ #обнаружены #соскобленные #изображения #детей #подвергшихся #сексуальному #насилию