Борьба с огнем ИИ с помощью ML Firepower

Чжифэн Конг, аспирант компьютерных наук Калифорнийского университета в Сан-Диего, является первым автором этой истории.

«Современные глубокие генеративные модели часто выдают нежелательные результаты — например, оскорбительные тексты, вредоносные изображения или сфабрикованную речь — и не существует надежного способа контролировать их. Эта статья о том, как предотвратить это технически», — сказал Чжифэн Конг, аспирант кафедры компьютерных наук и инженерии и ведущий автор статьи.

«Основной вклад этой работы заключается в том, чтобы формализовать то, как следует думать об этой проблеме и как правильно ее сформулировать, чтобы ее можно было решить», — сказала профессор информатики Камалика Чаудхури.

Новый метод уничтожения вредоносного контента

Традиционные методы смягчения последствий используют один из двух подходов. Первый метод — переобучить модель с нуля, используя обучающую выборку, исключающую все нежелательные выборки; Альтернативой является применение классификатора, который фильтрует нежелательные выходные данные или редактирует выходные данные после создания контента.

Эти решения имеют определенные ограничения для большинства современных крупных моделей. Помимо того, что эти методы снижения затрат являются непомерно дорогостоящими (требуются миллионы долларов для переобучения моделей промышленного масштаба с нуля), эти методы смягчения последствий требуют больших вычислительных ресурсов, и нет никакого способа контролировать, будут ли третьи стороны реализовывать доступные фильтры или инструменты редактирования после получения исходного кода. Кроме того, они могут даже не решить проблему: иногда появляются нежелательные выходные данные, например изображения с артефактами, даже если они отсутствуют в обучающих данных.

2024-05-02 20:42:58

1714683125
#Борьба #огнем #ИИ #помощью #Firepower

Борьба с огнем ИИ с помощью ML Firepower

Новый метод уничтожения вредоносного контента

Related

Leave a Comment Cancel reply

Новый метод уничтожения вредоносного контента

Share this:

Related

Leave a Comment Cancel reply