Home » Борьба с огнем ИИ с помощью ML Firepower

Борьба с огнем ИИ с помощью ML Firepower

Чжифэн Конг, аспирант компьютерных наук Калифорнийского университета в Сан-Диего, является первым автором этой истории.

«Современные глубокие генеративные модели часто выдают нежелательные результаты — например, оскорбительные тексты, вредоносные изображения или сфабрикованную речь — и не существует надежного способа контролировать их. Эта статья о том, как предотвратить это технически», — сказал Чжифэн Конг, аспирант кафедры компьютерных наук и инженерии и ведущий автор статьи.

«Основной вклад этой работы заключается в том, чтобы формализовать то, как следует думать об этой проблеме и как правильно ее сформулировать, чтобы ее можно было решить», — сказала профессор информатики Камалика Чаудхури.

Новый метод уничтожения вредоносного контента

Традиционные методы смягчения последствий используют один из двух подходов. Первый метод — переобучить модель с нуля, используя обучающую выборку, исключающую все нежелательные выборки; Альтернативой является применение классификатора, который фильтрует нежелательные выходные данные или редактирует выходные данные после создания контента.

Эти решения имеют определенные ограничения для большинства современных крупных моделей. Помимо того, что эти методы снижения затрат являются непомерно дорогостоящими (требуются миллионы долларов для переобучения моделей промышленного масштаба с нуля), эти методы смягчения последствий требуют больших вычислительных ресурсов, и нет никакого способа контролировать, будут ли третьи стороны реализовывать доступные фильтры или инструменты редактирования после получения исходного кода. Кроме того, они могут даже не решить проблему: иногда появляются нежелательные выходные данные, например изображения с артефактами, даже если они отсутствуют в обучающих данных.

2024-05-02 20:42:58


1714683125
#Борьба #огнем #ИИ #помощью #Firepower

Read more:  Samsung гипнотизирует гостей роскошного курорта в Дубае с помощью стены и умных вывесок – Samsung Newsroom Россия

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.