3 вопроса: Что нужно знать об аудио-дипфейках | Новости Массачусетского технологического института

Аудиодипфейки недавно подверглись негативной критике в прессе после того, как сгенерированный искусственным интеллектом робот-звонок, якобы являющийся голосом Джо Байдена, обрушился на жителей Нью-Гэмпшира. призывая их не голосовать. Тем временем целевые фишеры — фишинговые кампании, нацеленные на конкретного человека или группу, особенно с использованием информации, которая, как известно, представляет интерес для цели — занимаются ловлей деньгии актеры стремятся сохранить свое звуковое сходство.

Однако меньше внимания уделяется некоторым вариантам использования аудиодипфейков, которые действительно могут принести пользу обществу. В этих вопросах и ответах, подготовленных для MIT News, постдок Науман Давалатабад рассматривает проблемы, а также потенциальные преимущества новой технологии. Полную версию этого интервью можно увидеть на видео ниже.

Вопрос: Какие этические соображения оправдывают сокрытие личности источника в аудио-дипфейках, особенно когда эта технология используется для создания инновационного контента?

А: Вопрос о том, почему исследования важны для сокрытия личности источника, несмотря на широкое первичное использование генеративных моделей, например, для создания звука в сфере развлечений, действительно поднимает этические вопросы. Речь не содержит информации только о том, «кто ты?» (личность) или «что ты говоришь?» (содержание); он содержит множество конфиденциальной информации, включая возраст, пол, акцент, текущее состояние здоровья и даже намеки на предстоящие будущие состояния здоровья. Например, наша недавняя исследовательская статья «Обнаружение деменции на основе длинных нейропсихологических интервьюдемонстрирует возможность выявления деменции по речи со значительно высокой точностью. Более того, существует множество моделей, которые могут с очень высокой точностью определять пол, акцент, возраст и другую информацию из речи. Существует необходимость в развитии технологий, которые защитят от непреднамеренного раскрытия таких частных данных. Попытка анонимизировать личность говорящего-источника — это не просто техническая задача, но и моральное обязательство по сохранению конфиденциальности личности в эпоху цифровых технологий.

Вопрос: Как мы можем эффективно преодолевать проблемы, создаваемые дипфейками в ходе целенаправленных фишинговых атак, принимая во внимание связанные с этим риски, разработку контрмер и развитие методов обнаружения?

А: Использование дипфейков аудио в целевых фишинговых атаках сопряжено с множеством рисков, включая распространение дезинформации и фейковых новостей, кражу личных данных, нарушение конфиденциальности и злонамеренное изменение контента. Недавнее распространение мошеннических звонков от роботов в Массачусетсе иллюстрирует пагубное воздействие таких технологий. Мы также недавно говорили с говорил с Бостон Глобус об этой технологии и о том, как легко и недорого создавать такие дипфейковые аудио.

Любой человек без значительного технического образования может легко создать такой звук с помощью множества доступных онлайн-инструментов. Такие фейковые новости от генераторов дипфейков могут нарушить финансовые рынки и даже результаты выборов. Кража голоса для доступа к банковским счетам с голосовым управлением и несанкционированное использование голосовой личности для финансовой выгоды являются напоминанием о срочной необходимости принятия надежных контрмер. Дополнительные риски могут включать нарушение конфиденциальности, когда злоумышленник может использовать аудиозаписи жертвы без ее разрешения или согласия. Кроме того, злоумышленники также могут изменить содержимое исходного аудио, что может иметь серьезные последствия.

В разработке систем обнаружения поддельного звука возникли два основных и важных направления: обнаружение артефактов и обнаружение живости. Когда звук генерируется с помощью генеративной модели, модель вносит некоторый артефакт в сгенерированный сигнал. Исследователи разрабатывают алгоритмы/модели для обнаружения этих артефактов. Однако с этим подходом возникают некоторые проблемы из-за растущей сложности генераторов дипфейков звука. В будущем мы также можем увидеть модели с очень маленькими артефактами или почти без них. С другой стороны, обнаружение живости использует присущие качества естественной речи, такие как характер дыхания, интонации или ритмы, которые сложно воспроизвести моделям ИИ. Некоторые компании, такие как Pindrop, разрабатывают такие решения для обнаружения аудиофейков.

Кроме того, такие стратегии, как нанесение водяных знаков на аудио, служат превентивной защитой, внедряя зашифрованные идентификаторы в исходный аудиофайл, чтобы отслеживать его происхождение и предотвращать несанкционированное вмешательство. Несмотря на другие потенциальные уязвимости, такие как риск повторных атак, текущие исследования и разработки в этой области предлагают многообещающие решения для смягчения угроз, создаваемых дипфейками аудио.

Вопрос: Несмотря на возможность неправильного использования, каковы некоторые положительные аспекты и преимущества технологии аудио-дипфейков? Как, по вашему мнению, будут развиваться будущие отношения между ИИ и нашим опытом восприятия звука?

А: Вопреки преобладающему вниманию к гнусным применениям аудиодипфейков, эта технология таит в себе огромный потенциал положительного воздействия в различных секторах. Помимо сферы творчества, где технологии преобразования голоса обеспечивают беспрецедентную гибкость в сфере развлечений и медиа, аудиодипфейки обещают революционные изменения в секторах здравоохранения и образования. Например, моя текущая работа по анонимизации голосов пациентов и врачей в интервью, посвященных когнитивному здоровью, облегчает обмен важными медицинскими данными для исследований во всем мире, обеспечивая при этом конфиденциальность. Обмен этими данными между исследователями способствует развитию областей когнитивного здравоохранения. Применение этой технологии в восстановлении голоса дает надежду для людей с речевыми нарушениями, например, при БАС или дизартричной речи, улучшая коммуникативные способности и качество жизни.

Я очень позитивно оцениваю будущее влияние моделей искусственного интеллекта, генерирующих звук. Будущее взаимодействие между искусственным интеллектом и восприятием звука приведет к революционным достижениям, особенно через призму психоакустики — исследования того, как люди воспринимают звуки. Инновации в дополненной и виртуальной реальности, примером которых являются такие устройства, как Apple Vision Pro и другие, расширяют границы звукового опыта в сторону беспрецедентного реализма. В последнее время мы наблюдаем экспоненциальный рост количества сложных моделей, появляющихся почти каждый месяц. Столь быстрые темпы исследований и разработок в этой области обещают не только усовершенствовать эти технологии, но и расширить их применение способами, которые принесут огромную пользу обществу. Несмотря на присущие риски, потенциал аудиогенерирующих моделей искусственного интеллекта совершить революцию в здравоохранении, развлечениях, образовании и других сферах является свидетельством позитивной траектории этой области исследований.

2024-03-15 20:50:00

1710770310
#вопроса #Что #нужно #знать #об #аудиодипфейках #Новости #Массачусетского #технологического #института

3 вопроса: Что нужно знать об аудио-дипфейках | Новости Массачусетского технологического института

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply