Голосовые дипфейки обманывают даже тогда, когда люди обучены их обнаруживать

В 2019 году директор британской компании стал жертвой мошенничества после получения ложного голосового сообщения от своего менеджера с просьбой перевести 220 000 евро поставщику. Год спустя, менеджер банка в Гонконге ему позвонил кто-то знакомый. Основываясь на их существующих отношениях, банкир перевел 400 000 долларов, пока не понял, что что-то не так. Это лишь единичные примеры, но их становится все больше и больше. Оба случая связаны с использованием технологии дипфейк клонировать голоса, чрезвычайно сложный способ манипулирования контентом. Его идентификация является серьезной проблемой, которая будет становиться все более сложной по мере быстрого развития искусственного интеллекта. И есть хорошие новости. Хотя некоторые вычислительные инструменты могут обнаруживать их с определенной степенью точности, поддельные голоса обманывают людей, даже когда они тренируются.

В исследовании приняли участие 529 человек. опубликовать сегодня в Плос Один, это показывает, что человеческие навыки неэффективны, когда речь идет о квалификации без голосового сообщения, является ложным или истинным. Участники терпели неудачу каждый четвертый раз, когда пытались правильно обнаружить эти дипфейки голоса и усилия по их обучению имели минимальный эффект. Половина группы прошла предварительное обучение, на котором они могли прослушать пять примеров синтезированной речи. Несмотря на это, улучшение составило всего 3% по сравнению с другими.

Исследователи Университетский колледж Лондона, в Соединенном Королевстве, также хотели понять, было ли задание проще или сложнее в зависимости от особенностей разных языков, поэтому они провели тесты на английском и китайском языках. Результаты показывают, что возможности эквивалентны, и обе аудитории полагались на схожие атрибуты при оценке подлинности сообщений, таких как естественность и то, звучало ли это как робот. «Неправильное произношение и необычные интонации в звуковых клипах часто упоминались как англоязычными, так и говорящими на китайском языке участниками при принятии решений», — объясняет Кимберли Май, ведущий автор исследования.

Больше субъективно, чем визуально

Интересно, что участники указывали одни и те же характеристики независимо от того, был ли ответ правильным или нет. Май объясняет, что это связано с субъективностью звука. В отличие от обнаружения дипфейки визуальный, когда можно увидеть объекты и обстановку, чтобы судить об их подлинности, слуховой характер речи делает восприятие более субъективным. «Когда вы видите потенциальных фальшивых людей, вы можете сосчитать количество пальцев на их руках или совпадают ли их аксессуары», — говорит научный сотрудник британского университета.

Чтобы сравнить человеческие и технологические возможности, исследователи провели тот же тест с двумя автоматическими детекторами. Первый был программное обеспечение обученные с базой данных вне исследования, которые достигли 75% уверенности, цифра, аналогичная ответам людей. Второй, обученный с оригинальной и синтезированной версией голоса, смог определить характер звука со 100% точностью. По словам Маи, более высокая производительность возникает из-за того, что продвинутые программы способны определять тонкости акустики, что не под силу человеку.

Сложные звуки, такие как человеческая речь, содержат смесь различных частот, то есть количество раз, которое звуковая волна повторяет за одну секунду. «Автоматические детекторы исследуют тысячи образцов голоса на этапе обучения. Благодаря этому процессу они могут узнать об особенностях определенных частотных уровней и нарушениях ритма. люди неспособны таким образом разлагать звуки», — говорит исследователь.

Хотя автоматизированные детекторы оказались более эффективными в решении этой задачи, чем люди, у них также есть ограничения. Во-первых, они недоступны для повседневного использования. Кроме того, его производительность снижается при изменении тестового звука или в шумной обстановке. Но самая большая проблема для них заключается в том, чтобы не отставать от достижений в области генеративного искусственного интеллекта, поскольку все более реалистичный синтезированный контент создается быстрее. Если до этого часы записи были необходимы для обучения программесейчас это делается, например, за несколько секунд.

Фернандо Куккиетти, эксперт, не имеющий отношения к исследованию, подчеркивает, что представленные результаты имеют некоторые ограничения, поскольку условия экспериментов «очень лабораторные» и не отражают ежедневных угроз, связанных с технологиями такого типа. «Они нереалистичны для ситуаций, когда дипфейки это может быть проблематично, например, если вы знаете человека, которому они подражают», — говорит глава группы анализа и визуализации данных в Центре суперкомпьютеров в Барселоне в заявлении Научному медиа-центру Испании. Несмотря на это, Куккиетти подчеркивает, что выводы аналогичны другим подобным исследованиям, и поскольку это довольно контролируемая среда, «на результаты меньше влияют другие факторы, например, предыдущие предубеждения или предубеждения, как в случае исследований дезинформации». ».

Избегайте мошенничества

На индивидуальном уровне люди ненадежны в обнаружении дипфейки голос. Однако результаты исследований показывают, что при объединении мнений большего числа людей и принятии решения на основе большинства голосов обнаружение улучшается. Кимберли Май рекомендует: «Если вы слышите аудиоклип, в котором вы не уверены, потому что его содержание кажется необычным, например, если он включает в себя запрос на перевод крупной суммы денег, рекомендуется обсудить его с другими и проверить. источник.” .

Мэй предполагает, что путь к улучшению автоматических детекторов заключается в том, чтобы сделать их более устойчивыми к различиям в тестовом звуке. По его словам, его команда работает над адаптацией базовых моделей, которые работали в других областях, таких как текст и изображения. «Поскольку эти модели используют большие объемы данных для обучения, можно ожидать, что они будут лучше обобщать вариации тестовых звуковых клипов», — подчеркивает она. Кроме того, она считает, что институты обязаны принимать чью-либо сторону. «Они должны уделить первоочередное внимание реализации других стратегий, таких как правила и политика, чтобы снизить риски, связанные с дипфейки голос, — рассуждает он.

Вы можете следить СТРАНА Технологии в Фейсбук у Твиттер или зарегистрируйтесь здесь, чтобы получать наши информационный бюллетень.

2023-08-03 03:20:00

1691055426
#Голосовые #дипфейки #обманывают #даже #тогда #когда #люди #обучены #их #обнаруживать #Технологии

Голосовые дипфейки обманывают даже тогда, когда люди обучены их обнаруживать | Технологии

Больше субъективно, чем визуально

Избегайте мошенничества

Related

Leave a Comment Cancel reply

Больше субъективно, чем визуально

Избегайте мошенничества

Share this:

Related

Leave a Comment Cancel reply