LLM становятся более скрытыми расистами из-за вмешательства человека

Даже когда два предложения имели одинаковое значение, модели с большей вероятностью применяли такие прилагательные, как «грязный», «ленивый» и «глупый», к носителям AAE, чем к носителям стандартного американского английского (SAE). Модели ассоциировали носителей ААЕ с менее престижной работой (или вообще не ассоциировали их с наличием работы), а когда их просили вынести суждение о гипотетическом обвиняемом по уголовному делу, они с большей вероятностью рекомендовали смертную казнь.

Еще более примечательным открытием может стать недостаток, который обнаруживает исследование в способах, которыми исследователи пытаются устранить подобные предубеждения.

Чтобы очистить модели от ненавистных мнений, такие компании, как OpenAI, Meta и Google, используют обучение обратной связи, при котором сотрудники вручную корректируют реакцию модели на определенные подсказки. Этот процесс, часто называемый «выравниванием», направлен на перекалибровку миллионов соединений в нейронной сети и на то, чтобы модель лучше соответствовала желаемым значениям.

Этот метод хорошо помогает бороться с явными стереотипами, и ведущие компании используют его уже почти десять лет. Если пользователи предлагали GPT-2, например, назвать стереотипы о чернокожих людях, скорее всего, были перечислены «подозрительные», «радикальные» и «агрессивные», но GPT-4 больше не отвечает этими ассоциациями, согласно статье. .

Однако метод не справляется со скрытыми стереотипами, которые исследователи выявили при использовании афроамериканского английского в своем исследовании, опубликованном на сайте arXiv и не прошел рецензирование. Частично это связано с тем, что компании меньше осознают диалектные предрассудки как проблему, говорят они. Также легче научить модель не отвечать на откровенно расистские вопросы, чем научить ее не реагировать негативно на весь диалект.

«Обучение обратной связи учит модели учитывать свой расизм», — говорит Валентин Хофманн, исследователь из Института искусственного интеллекта Аллена и соавтор статьи. «Но диалектные предрассудки открывают более глубокий уровень».

Авиджит Гош, исследователь этики из Hugging Face, который не принимал участия в исследовании, говорит, что это открытие ставит под сомнение подход, который компании применяют для решения проблемы предвзятости.

«Этот подход, при котором модель отказывается извергать расистские высказывания, представляет собой не что иное, как хлипкий фильтр, который можно легко сломать», — говорит он.

2024-03-11 18:35:31

1710212601
#LLM #становятся #более #скрытыми #расистами #изза #вмешательства #человека

LLM становятся более скрытыми расистами из-за вмешательства человека

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply