著者:
(1)ルイ・ドゥアン サウスフロリダ大学タンパ校、米国(電子メール:[email protected])
(2)中国・長沙市浙区中南大学(メール:[email protected])
(3)リア・ディン・アメリカン大学ワシントンD.C.、米国(メール:[email protected])
(4)ヤオ・リウ、サウスフロリダ大学タンパ校、米国(メール:[email protected])
(5)ヤオ・リウ、サウスフロリダ大学タンパ校、米国(メール:[email protected])。
このセクションでは、まず話者認識の背景を紹介し、次に話者認識に対するオーディオ AE を作成するためのブラックボックスの敵対的攻撃の定式化について説明します。
A. 話者認識
話者認識は近年ますます普及しています。これにより、機械は個人の音声特徴から話者を識別する能力を獲得し、便利なログイン [4] や通話やメッセージングのパーソナライズされたエクスペリエンス [1] などのパーソナライズされたサービスを提供できます。一般的に、話者認識タスクには、トレーニング、登録、認識の3つのフェーズが含まれます。話者認識タスク [29]、[118]、[113] は、(i) 複数話者ベースの話者識別 (SI) または (ii) 単一話者ベースの話者検証 (SV) のいずれかであることを強調することが重要です。具体的には、SI はクローズセット識別 (CSI) とオープンセット識別 (OSI) に分けられます [39]、[29]。詳細については付録 A を参照してください。
B. 敵対的音声攻撃
話者認識関数fが与えられ、これは元の音声信号xを入力として話者のラベルyを出力する。敵対的な攻撃者は、小さな摂動信号δ∈Ωを見つけて、次のような音声AE x + δを作成することを目的とする。
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
ここで、yt̸=yは攻撃者のターゲットラベル、Ωはδの探索空間、D(x, x + δ)は元の音声xと変化した音声x+δの差を測定する距離関数であり、Lpノルムベースの距離[29]、[118]または聴覚特徴の差の尺度(例:qDev [44]およびNISQA [113])にすることができます。ϵはxからx + δへの変化を制限します。
(1)を解くための一般的なホワイトボックス攻撃の定式化[28]、[72]は次のように書ける。
ここで、J(·,·)は、入力x + δを攻撃者が知っていると想定されるターゲットラベルytに関連付ける際の分類器fの予測損失であり、cは攻撃の有効性と元の音声の変化のバランスをとる係数です。
ブラックボックス攻撃は、(2)のJ(·,·)についての知識を持たないため、分類器fから得られる他の情報に応じて異なるタイプの定式化を採用する必要がある。攻撃がバイナリ(受け入れまたは拒否)の結果を与える分類器を調査できる場合、攻撃[118]、[74]は次のように定式化できる。
(3)にはf(x + δ)が含まれているため、攻撃者はδの異なるバージョンを継続的に生成し、成功するまでf(x + δ)の結果を測定するためのプローブ戦略を作成する必要があります。したがって、多数のプローブ(たとえば10,000を超える[118])が必要になり、無線で音声信号を受け入れる商用の話者認識モデルに対する実際の攻撃は実用的ではありません。
C. 設計の動機
ブラックボックス攻撃の面倒なプロービングプロセスを克服するために、実用的なブラックボックス攻撃を作成するための代替方法を見つけることを目指しています。ブラックボックス攻撃は分類器の知識を探ったり知ったりせずには不可能であるという事実を考慮して、[118]で使用されている、攻撃者がターゲットスピーカーの非常に短いオーディオサンプルを所有しているという事前知識の仮定を採用します([118]では、この知識に加えてターゲットモデルをプローブする必要があることに注意してください)。この仮定は、攻撃者に分類器の内部を知らせるよりも実用的です。この限られた知識を考慮して、プロービングプロセスを排除し、効果的なAEを作成することを目指しています。
既存の研究は、グラウンドトゥルース訓練済み AE (GT-AE) に関する幅広い側面に焦点を当ててきました。オウムの音声とオウムの訓練の概念により、新しいタイプの AE、オウム訓練済み AE (PT-AE) が生まれ、実用的なブラックボックス攻撃に対する PT-AE の実現可能性と有効性に関する 3 つの主要な疑問も生じています。(i) PT モデルは GT モデルに近似できますか? (ii) PT モデル上に構築された PT-AE は、ブラックボックス GT モデルに対して GT-AE と同様に転送可能ですか? (iii) 効果的なブラックボックス攻撃に向けて PT-AE の生成を最適化するにはどうすればよいですか? 図 1 は、新しい実用的な非プローブ型ブラックボックス攻撃に向けてこれらの疑問に対処するための全体的な手順を示しています。(1) セクション III では、オウムの訓練用にオウムの音声を作成するための 2 段階のワンショット変換方法を提案します。(2) セクション IV では、PT モデルからのさまざまな種類の PT-AE 生成について、転送可能性と知覚品質について研究します。 (3)第V章ではPT-AEに基づく最適化されたブラックボックス攻撃を定式化する。次に、第VI章では提案された攻撃が商用オーディオシステムに与える影響を理解するために包括的な評価を行う。
D. 脅威モデル
本稿では、音声 AE を作成して話者認識モデルを騙し、モデルが AE をターゲット話者の音声として認識するようにする攻撃者について検討する。攻撃者は音声認識モデルで使用されるアーキテクチャ、パラメータ、トレーニング データについて何も知らないというブラック ボックス攻撃の仮定を採用する。攻撃者は、公共の場で収集できるターゲット話者の非常に短い音声サンプル (評価では数秒) を持っているが [118]、そのサンプルが必ずしもターゲット モデルのトレーニングに使用されるわけではないと想定する。攻撃者がモデルをプローブしないという、より現実的なシナリオに焦点を当てる。これは、多くのプローブを必要とするほとんどのブラック ボックス攻撃研究 [113]、[29]、[118] とは異なる。攻撃者はモデル (Amazon Echo、Apple HomePod、Google Assistant など) に対して無線インジェクションを実行する必要があると想定する。
この論文はCC0 1.0 DEEDライセンスの下でarxivで公開されています。