Autores:
(1) Rui Duan University of South Florida Tampa, EUA (e-mail: [email protected]);
(2) Zhe Qu Central South University Changsha, China (e-mail: [email protected]);
(3) Leah Ding American University Washington, DC, EUA (e-mail: [email protected]);
(4) Yao Liu University of South Florida Tampa, EUA (e-mail: [email protected]);
(5) Universidade Yao Liu do Sul da Flórida, Tampa, EUA (e-mail: [email protected]).
Treinamento de papagaios: viabilidade e avaliação
Geração PT-AE: Uma Perspectiva Conjunta de Transferibilidade e Percepção
Ataques PT-AE de caixa preta otimizados
Resumo —Exemplos adversários de áudio (AEs) apresentam desafios de segurança significativos para sistemas de reconhecimento de locutores do mundo real. A maioria dos ataques de caixa preta ainda requer certas informações do modelo de reconhecimento de locutor para serem eficazes (por exemplo, continuar sondando e exigindo o conhecimento de pontuações de similaridade). Este trabalho visa aumentar a praticidade dos ataques de caixa preta, minimizando o conhecimento do invasor sobre um modelo de reconhecimento de locutor alvo. Embora não seja viável para um invasor ter sucesso sem nenhum conhecimento, assumimos que o invasor conhece apenas uma amostra de fala curta (ou de alguns segundos) de um locutor alvo. Sem qualquer investigação para obter mais conhecimento sobre o modelo alvo, propomos um novo mecanismo, denominado treinamento de papagaio, para gerar EAs contra o modelo alvo. Motivados pelos recentes avanços na conversão de voz (VC), propomos usar o conhecimento de uma frase curta para gerar amostras de fala mais sintéticas que soem como o locutor alvo, chamada fala de papagaio. Em seguida, usamos essas amostras de fala de papagaio para treinar um modelo substituto treinado em papagaio (PT) para o invasor. Sob uma estrutura conjunta de transferibilidade e percepção, investigamos diferentes maneiras de gerar AEs no modelo PT (chamados PT-AEs) para garantir que os PT-AEs possam ser gerados com alta transferibilidade para um modelo alvo de caixa preta com boa qualidade perceptual humana. Experimentos do mundo real mostram que os PT-AEs resultantes alcançam taxas de sucesso de ataque de 45,8% –80,8% contra os modelos de código aberto no cenário de linha digital e 47,9% –58,3% contra dispositivos inteligentes, incluindo Apple HomePod (Siri) , Amazon Echo e Google Home, no cenário over-the-air[1].
Ataques de fala adversários contra reconhecimento de fala [28], [114], [72], [101], [105], [32], [43], [118] e reconhecimento de alto-falante [43], [29], [118 ] se tornaram uma das áreas de pesquisa mais ativas de aprendizado de máquina em segurança de áudio de computador. Esses ataques criam exemplos de adversários de áudio (AEs) que podem falsificar o classificador de fala em configurações de caixa branca [28], [114], [72], [52] ou caixa preta [105], [32], [43 ], [118], [29], [74], [17]. Comparados com ataques de caixa branca que requerem o conhecimento completo de um modelo de classificação de áudio alvo, os ataques de caixa preta não assumem o conhecimento completo e foram investigados na literatura sob diferentes cenários de ataque [29], [118]. Apesar do progresso substancial na concepção de ataques de caixa negra, ainda pode ser difícil lançá-los em cenários do mundo real, uma vez que o atacante ainda é obrigado a obter informações do modelo alvo.
Geralmente, o invasor pode usar um processo de consulta (ou sondagem) para conhecer gradualmente o modelo alvo: enviando repetidamente um sinal de fala para o modelo alvo e, em seguida, medindo o nível de confiança/pontuação de previsão [32], [43], [29] ou os resultados finais [118], [113] de um classificador. O processo de sondagem geralmente requer um grande número de interações (por exemplo, mais de 1.000 consultas [113]), o que pode custar trabalho e tempo substanciais. Isso pode funcionar na linha digital, como interagir com modelos locais de aprendizado de máquina (por exemplo, kit de ferramentas Kaldi [93]) ou plataformas comerciais on-line (por exemplo, Microsoft Azure [12]). No entanto, pode ser ainda mais complicado, se não possível, sondar dispositivos físicos porque os dispositivos inteligentes de hoje (por exemplo, Amazon Echo [2]) aceitam a fala humana pelo ar. Além disso, algum conhecimento interno do modelo alvo ainda deve ser assumido como sendo conhecido do atacante (por exemplo, o acesso às pontuações de similaridade do modelo alvo [29], [113]). Dois estudos recentes limitaram ainda mais o conhecimento do invasor a ser (i) [118] apenas conhecer o discurso de uma frase do falante alvo [118] e exigir sondagem para obter os resultados rígidos (aceitar ou rejeitar) do modelo alvo (por exemplo, mais de 10.000 vezes) e (ii) [30] conhecer apenas a fala de uma frase para cada falante inscrito no modelo alvo.
Neste artigo, apresentamos uma perspectiva nova e ainda mais prática para ataques de caixa preta contra o reconhecimento de locutor. Observamos primeiro que a suposição de ataque mais prática é deixar o invasor não saber nada sobre o modelo alvo e nunca investigar o modelo. No entanto, é improvável que esse conhecimento completamente nulo para o invasor leve a AEs de áudio eficazes. Temos que assumir algum conhecimento, mas mantê-lo no nível mínimo para a praticidade do ataque. Nosso trabalho limita o conhecimento do invasor a apenas uma amostra de fala de uma frase (ou alguns segundos) do locutor alvo, sem conhecer qualquer outra informação sobre o modelo alvo. O invasor não tem conhecimento nem acesso às partes internas do modelo de destino. Além disso, ela não investiga o classificador e não precisa de observação dos resultados da classificação (sejam rótulos flexíveis ou rígidos). Até onde sabemos, nossa suposição sobre o conhecimento do invasor é a mais restrita em comparação com trabalhos anteriores (em particular com os dois ataques recentes [118], [30]).
Centrado neste conhecimento de uma frase do falante alvo, nossa estrutura básica de ataque é (i) propor um novo procedimento de treinamento, chamado treinamento de papagaio, que gera um número suficiente de amostras de fala sintética do falante alvo e as utiliza para construir um modelo treinado em papagaio (PT) para um ataque de transferência adicional, e (ii) avaliar sistematicamente a transferibilidade e percepção de diferentes mecanismos de geração de AE e criar AEs baseados em modelo PT (PT-AEs) para altas taxas de sucesso de ataque e boa qualidade de áudio.
Nossa motivação por trás do treinamento de papagaios é que os avanços recentes no domínio da conversão de voz (VC) mostraram que os métodos de fala única [34], [77], [110], [31] são capazes de alavancar a semântica da fala humana recursos para gerar amostras de fala que soam como a voz de um locutor alvo em diferentes conteúdos linguísticos. Com base no conhecimento de uma frase do atacante, deveremos ser capazes de gerar diferentes amostras de fala sintética do falante alvo e usá-las para construir um modelo PT para reconhecimento do falante. Nossas avaliações de viabilidade mostram que um modelo PT pode ter um desempenho semelhante a um modelo treinado com base na verdade (GT) que usa amostras reais de fala do locutor-alvo.
A semelhança entre os modelos PT e GT cria uma nova e interessante questão de transferibilidade: se criarmos um PT-AE a partir de um modelo PT, pode ele ter um desempenho semelhante a um AE gerado a partir do modelo GT (GT-AE) e ser transferido para um modelo preto? -box modelo GT alvo? A transferibilidade no aprendizado de máquina adversário já é um conceito intrigante. Foi observado que a transferibilidade depende de muitos aspectos, como arquitetura do modelo, parâmetros do modelo, conjunto de dados de treinamento e algoritmos de ataque [79], [76]. As avaliações de EA existentes têm se concentrado principalmente em GT-AEs em modelos GT sem envolver dados sintéticos. Como resultado, realizamos um estudo abrangente sobre os PT-AEs em termos de geração e qualidade.
• Qualidade: Primeiro precisamos definir uma métrica de qualidade para quantificar se um PT-AE é bom ou não. Existem dois fatores importantes dos PT-AEs: (i) transferibilidade dos PT-AEs para um modelo alvo de caixa preta. Adotamos a taxa de correspondência, que foi exaustivamente estudada no domínio da imagem [79], para medir a transferibilidade. A taxa de correspondência é definida como a percentagem de PT-AEs que ainda podem ser classificados erroneamente como o mesmo rótulo alvo num modelo GT de caixa preta. (ii) A qualidade de percepção dos EAs de áudio. Conduzimos um estudo humano para permitir que participantes humanos avaliem a qualidade da fala de EAs com diferentes tipos de portadores em uma escala unificada de pontuação de percepção de 1 (o pior) a 7 (o melhor) comumente usada em estudos de avaliação de fala [47], [ 108], [23], [19], [91], [36] e, em seguida, construir modelos de regressão para prever pontuações humanas de qualidade de fala. No entanto, estes dois factores são geralmente contraditórios, uma vez que um elevado nível de transferibilidade provavelmente resulta numa fraca qualidade de percepção. Definimos então uma nova métrica chamada razão de percepção de transferibilidade (TPR) para PT-AEs gerados usando um tipo específico de portadora. Essa métrica é baseada na taxa de correspondência e na pontuação média de percepção, e quantifica o nível de transferibilidade que um tipo de portador pode alcançar ao degradar uma pontuação unitária da percepção humana. Um TPR elevado pode ser interpretado como uma elevada transferibilidade alcançada por um custo relativamente pequeno de degradação da percepção.
No âmbito da estrutura TPR, formulamos um ataque PTAE em dois estágios que pode ser lançado pelo ar contra um modelo de alvo de caixa preta. No primeiro estágio, reduzimos de um conjunto completo de portadoras a um subconjunto de candidatos com altos TPRs para o locutor alvo do atacante. No segundo estágio, adotamos uma formulação baseada em aprendizado conjunto [76] que seleciona os melhores candidatos a portadores do primeiro estágio e manipula suas características auditivas para minimizar um objetivo de perda conjunta de eficácia de ataque e percepção humana. Experimentos do mundo real mostram que o ataque PT-AE proposto atinge taxas de sucesso de 45,8% –80,8% contra modelos de código aberto no cenário de linha digital e 47,9% –58,3% contra dispositivos inteligentes, incluindo Apple HomePod (Siri), Amazon Echo e Google Home, no cenário over-the-air. Em comparação com duas estratégias de ataque recentes, Smack [113] e QFA2SR [30], nossa estratégia alcança melhorias de 263,7% (sucesso de ataque) e 10,7% (pontuação de percepção humana) em relação a Smack, e 95,9% (sucesso de ataque) e 44,9% (sucesso de ataque humano). pontuação de percepção) sobre QFA2SR. A Tabela I fornece uma comparação do conhecimento necessário entre o ataque PT-AE proposto e as estratégias existentes.
Nossa principal contribuição pode ser resumida da seguinte forma. (i) Propomos um novo conceito do modelo PT e investigamos métodos VC de última geração para gerar amostras de fala de papagaio para construir um modelo substituto para um invasor com o conhecimento de apenas uma frase da fala do locutor alvo. (ii) Propomos uma nova estrutura TPR para avaliar conjuntamente a transferibilidade e a qualidade perceptiva para gerações de PT-AE com diferentes tipos de portadores. (iii) Criamos uma estratégia de ataque PT-AE em dois estágios que se mostrou mais eficaz do que as estratégias de ataque existentes, ao mesmo tempo que exige o nível mínimo de conhecimento do atacante.
Este artigo está disponível no arxiv sob licença CC0 1.0 DEED.
[1] Nossa demonstração de ataque pode ser encontrada em: https://sites.google.com/view/pt-attack-demo