Авторы:
(1) Университет Руй Дуань Южной Флориды, Тампа, США (электронная почта: [email protected]);
(2) Центральный Южный университет Чжэ Цюй, Чанша, Китай (электронная почта: [email protected]);
(3) Американский университет Лии Динг, Вашингтон, округ Колумбия, США (электронная почта: [email protected]);
(4) Университет Яо Лю Южной Флориды, Тампа, США (электронная почта: [email protected]);
(5) Университет Яо Лю Южной Флориды, Тампа, США (электронная почта: [email protected]).
Дрессировка попугаев: осуществимость и оценка
Генерация PT-AE: совместная перспектива переносимости и восприятия
Оптимизированные атаки PT-AE «черного ящика»
Аннотация. Примеры состязательного аудио (AE) создают серьезные проблемы безопасности для реальных систем распознавания говорящих. Для эффективности большинства атак методом «черного ящика» по-прежнему требуется определенная информация из модели распознавания говорящего (например, продолжение зондирования и требование знания показателей сходства). Целью этой работы является повышение практичности атак «черный ящик» за счет сведения к минимуму знаний злоумышленника о модели распознавания целевого говорящего. Хотя злоумышленнику невозможно добиться успеха, имея совершенно нулевые знания, мы предполагаем, что злоумышленник знает только короткий (или несколько секунд) образец речи целевого говорящего. Без каких-либо исследований для получения дополнительных знаний о целевой модели мы предлагаем новый механизм, называемый обучением попугая, для генерации AE для целевой модели. Руководствуясь недавними достижениями в области преобразования голоса (VC), мы предлагаем использовать знание одного короткого предложения для создания большего количества синтетических образцов речи, которые звучат как речь целевого говорящего, что называется речью попугая. Затем мы используем эти образцы речи попугаев для обучения суррогатной модели, обученной попугаями (PT), для злоумышленника. В рамках совместной структуры переносимости и восприятия мы исследуем различные способы генерации AE в модели PT (называемые PT-AE), чтобы гарантировать, что PT-AE могут быть сгенерированы с высокой переносимостью в целевую модель черного ящика с хорошим качеством человеческого восприятия. Реальные эксперименты показывают, что полученные PT-AE достигают показателя успеха атаки 45,8–80,8% по сравнению с моделями с открытым исходным кодом в сценарии цифровой линии и 47,9–58,3% по сравнению с интеллектуальными устройствами, включая Apple HomePod (Siri). , Amazon Echo и Google Home в беспроводном сценарии[1].
Состязательные речевые атаки против распознавания речи [28], [114], [72], [101], [105], [32], [43], [118] и распознавания говорящего [43], [29], [118] ] стали одной из наиболее активных областей исследований машинного обучения в области компьютерной аудиобезопасности. Эти атаки создают состязательные звуковые примеры (AE), которые могут подделать классификатор речи в настройках белого ящика [28], [114], [72], [52] или черного ящика [105], [32], [43]. ], [118], [29], [74], [17]. По сравнению с атаками «белого ящика», которые требуют полного знания целевой модели классификации звука, атаки «черного ящика» не предполагают полного знания и были исследованы в литературе при различных сценариях атак [29], [118]. Несмотря на значительный прогресс в разработке атак «черный ящик», их по-прежнему может быть сложно запустить в реальных сценариях, поскольку злоумышленнику по-прежнему необходимо получить информацию из целевой модели.
Как правило, злоумышленник может использовать процесс запроса (или зондирования), чтобы постепенно узнать целевую модель: неоднократно отправлять речевой сигнал целевой модели, а затем измерять либо уровень достоверности, либо оценку прогнозирования [32], [43], [29] или окончательные выходные результаты [118], [113] классификатора. Процесс зондирования обычно требует большого количества взаимодействий (например, более 1000 запросов [113]), что может стоить значительных трудозатрат и времени. Это может работать в цифровом формате, например, при взаимодействии с локальными моделями машинного обучения (например, набором инструментов Kaldi [93]) или коммерческими онлайн-платформами (например, Microsoft Azure [12]). Однако проверка физических устройств может оказаться еще более затруднительной, если вообще возможной, поскольку современные интеллектуальные устройства (например, Amazon Echo [2]) принимают человеческую речь по беспроводной сети. Более того, некоторые внутренние знания о целевой модели все еще должны предполагаться известными злоумышленнику (например, доступ к показателям сходства целевой модели [29], [113]). Два недавних исследования еще больше ограничили знания злоумышленника: (i) [118] он знал только речь целевого говорящего, состоящую из одного предложения [118], и требовалось зондирование для получения жестких результатов целевой модели (принять или отклонить) (например, более 10 000 раз) и (ii) [30] знание речи, состоящей только из одного предложения, для каждого говорящего, включенного в целевую модель.
В этой статье мы представляем новый, еще более практичный взгляд на атаки «черного ящика» на распознавание говорящего. Прежде всего отметим, что наиболее практичное предположение при атаке — не дать злоумышленнику ничего знать о целевой модели и никогда не проверять ее. Однако такое полное отсутствие знаний у злоумышленника вряд ли приведет к эффективным звуковым АЭ. Мы должны принять некоторые знания, но сохранить их на минимальном уровне, чтобы обеспечить практичность атаки. Наша работа ограничивает знания злоумышленника одним предложением (или несколькими секундами) образца речи целевого говорящего без знания какой-либо другой информации о целевой модели. Злоумышленник не имеет ни знаний, ни доступа к внутренним компонентам целевой модели. Более того, она не исследует классификатор и не нуждается в наблюдении за результатами классификации (как мягкими, так и жесткими метками). Насколько нам известно, наше предположение об осведомленности злоумышленника является наиболее ограниченным по сравнению с предыдущими работами (в частности, с двумя недавними атаками [118], [30]).
Наша базовая схема атаки, основанная на знании целевого говорящего в одном предложении, состоит в том, чтобы (i) предложить новую процедуру обучения, называемую обучением попугая, которая генерирует достаточное количество синтетических образцов речи целевого говорящего и использует их для построения модель, обученная попугаем (PT), для дальнейшей атаки передачи, и (ii) систематически оценивать переносимость и восприятие различных механизмов генерации AE и создавать AE на основе PT-модели (PT-AE) для достижения высоких показателей успеха атаки и хорошего качества звука.
Наша мотивация при обучении попугаев заключается в том, что недавние достижения в области преобразования голоса (VC) показали, что методы одноразовой речи [34], [77], [110], [31] способны использовать семантическую человеческую речь. функции для создания образцов речи, которые звучат как голос целевого говорящего в различном языковом содержании. Основываясь на знаниях злоумышленника об одном предложении, мы сможем генерировать различные синтетические образцы речи целевого говорящего и использовать их для построения модели PT для распознавания говорящего. Наши технико-экономические обоснования показывают, что модель PT может работать аналогично модели, обученной наземной проверке истины (GT), которая использует фактические образцы речи целевого говорящего.
Сходство между моделями PT и GT порождает новый интересный вопрос о переносимости: если мы создадим PT-AE из модели PT, сможет ли он работать аналогично AE, созданному из модели GT (GT-AE), и перенести его на черный -box целевая модель GT? Переносимость в состязательном машинном обучении уже является интригующей концепцией. Было замечено, что переносимость зависит от многих аспектов, таких как архитектура модели, параметры модели, набор обучающих данных и алгоритмы атаки [79], [76]. Существующие оценки AE были в первую очередь сосредоточены на GT-AE на моделях GT без привлечения синтетических данных. В результате мы проводим комплексное исследование ПТ-АЭ с точки зрения их генерации и качества.
• Качество: сначала нам необходимо определить показатель качества, чтобы количественно оценить, является ли PT-AE хорошим или нет. Существует два важных фактора PT-AE: (i) возможность переноса PT-AE в целевую модель «черного ящика». Мы принимаем коэффициент совпадения, который был всесторонне изучен в области изображений [79], для измерения переносимости. Коэффициент соответствия определяется как процент PT-AE, которые все еще могут быть ошибочно классифицированы как одна и та же целевая метка в модели GT «черного ящика». (ii) Качество восприятия аудио АЭ. Мы проводим исследование на людях, чтобы участники могли оценить качество речи НЯ с разными типами носителей по единой шкале оценки восприятия от 1 (наихудшее) до 7 (наилучшее), обычно используемой в исследованиях по оценке речи [47], [47]. 108], [23], [19], [91], [36], а затем построить регрессионные модели для прогнозирования человеческих оценок качества речи. Однако эти два фактора в целом противоречивы, поскольку высокий уровень переносимости, вероятно, приводит к плохому качеству восприятия. Затем мы определяем новый показатель, называемый коэффициентом восприятия переносимости (TPR), для PT-AE, генерируемых с использованием определенного типа носителей. Этот показатель основан на их частоте совпадений и среднем балле восприятия и количественно определяет уровень переносимости, которого может достичь тип носителя при ухудшении единичного балла человеческого восприятия. Высокий TPR можно интерпретировать как высокую переносимость, достигаемую за счет относительно небольшой стоимости ухудшения восприятия.
В рамках TPR мы формулируем двухэтапную атаку PTAE, которая может быть запущена по беспроводной сети против целевой модели «черного ящика». На первом этапе мы сужаем диапазон от полного набора операторов связи до подмножества кандидатов с высоким TPR для целевого динамика злоумышленника. На втором этапе мы принимаем формулировку, основанную на ансамблевом обучении [76], которая выбирает лучших кандидатов-носителей на первом этапе и манипулирует их слуховыми характеристиками, чтобы минимизировать совместную потерю эффективности атаки и человеческого восприятия. Реальные эксперименты показывают, что предлагаемая атака PT-AE достигает показателей успеха 45,8–80,8% против моделей с открытым исходным кодом в сценарии цифровой линии и 47,9–58,3% против интеллектуальных устройств, включая Apple HomePod (Siri). Amazon Echo и Google Home в беспроводном сценарии. По сравнению с двумя недавними стратегиями атак Smack [113] и QFA2SR [30], наша стратегия достигает улучшений на 263,7% (успех атаки) и 10,7% (показатель человеческого восприятия) по сравнению со Smack, а также на 95,9% (успех атаки) и 44,9% (успех человека). оценка восприятия) по сравнению с QFA2SR. В таблице I представлено сравнение необходимых знаний для предлагаемой атаки PT-AE и существующих стратегий.
Наш основной вклад можно резюмировать следующим образом. (i) Мы предлагаем новую концепцию модели PT и исследуем современные методы VC для генерации образцов речи попугая для построения суррогатной модели для злоумышленника, зная только одно предложение речи целевого говорящего. (ii) Мы предлагаем новую структуру TPR для совместной оценки переносимости и качества восприятия для поколений PT-AE с различными типами носителей. (iii) Мы создаем двухэтапную стратегию атаки PT-AE, которая оказалась более эффективной, чем существующие стратегии атак, но при этом требует минимального уровня знаний злоумышленника.
Этот документ доступен на arxiv под лицензией CC0 1.0 DEED.
[1] Нашу демонстрацию атаки можно найти по адресу: https://sites.google.com/view/pt-attack-demo.