作者:
(1)美国南佛罗里达坦帕大学 Rui Duan(电子邮箱:[email protected]);
(2)曲喆中南大学,中国长沙(电子邮箱:[email protected]);
(3)Leah Ding,美国华盛顿特区美国大学(电子邮箱:[email protected])
(4)Yao Liu 美国南佛罗里达坦帕大学(电邮:[email protected]);
(5)Yao Liu 美国南佛罗里达坦帕大学(电子邮箱:[email protected])。
摘要— 音频对抗样本 (AE) 对现实世界的说话人识别系统构成了重大的安全挑战。大多数黑盒攻击仍然需要说话人识别模型中的某些信息才能有效(例如,保持探测并需要相似度分数的知识)。这项工作旨在通过最小化攻击者对目标说话人识别模型的了解来推动黑盒攻击的实用性。虽然攻击者在完全没有知识的情况下取得成功是不可行的,但我们假设攻击者只知道目标说话人的一小段(或几秒钟)语音样本。在不进行任何探测以获取有关目标模型的进一步知识的情况下,我们提出了一种称为鹦鹉训练的新机制来针对目标模型生成 AE。受语音转换 (VC) 最新进展的启发,我们建议使用一个简短的句子知识来生成更多听起来像目标说话人的合成语音样本,称为鹦鹉语音。然后,我们使用这些鹦鹉语音样本为攻击者训练鹦鹉训练 (PT) 代理模型。在联合可迁移性和感知框架下,我们研究了在 PT 模型上生成 AE 的不同方法(称为 PT-AE),以确保 PT-AE 能够以高可迁移性生成到具有良好人类感知质量的黑盒目标模型。实际实验表明,在数字线路场景中,由此产生的 PT-AE 对开源模型的攻击成功率为 45.8%–80.8%,在无线场景中对智能设备(包括 Apple HomePod (Siri)、Amazon Echo 和 Google Home)的攻击成功率为 47.9%–58.3%[1]。
针对语音识别 [28]、[114]、[72]、[101]、[105]、[32]、[43]、[118] 和说话人识别 [43]、[29]、[118] 的对抗性语音攻击已成为计算机音频安全领域机器学习最活跃的研究领域之一。这些攻击会制作音频对抗样本 (AE),可以在白盒 [28]、[114]、[72]、[52] 或黑盒设置 [105]、[32]、[43]、[118]、[29]、[74]、[17] 中欺骗语音分类器。与需要完全了解目标音频分类模型的白盒攻击相比,黑盒攻击不需要完全了解目标音频分类模型,并且已在文献中在不同攻击场景下进行了研究 [29]、[118]。尽管在设计黑盒攻击方面取得了实质性进展,但在现实世界中发起黑盒攻击仍然具有挑战性,因为攻击者仍然需要从目标模型中获取信息。
一般来说,攻击者可以使用查询(或探测)过程来逐渐了解目标模型:反复向目标模型发送语音信号,然后测量分类器的置信度/预测分数 [32]、[43]、[29] 或最终输出结果 [118]、[113]。探测过程通常需要大量的交互(例如超过 1000 次查询 [113]),这会耗费大量的人力和时间。这可能在数字线路上起作用,例如与本地机器学习模型(例如 Kaldi 工具包 [93])或在线商业平台(例如 Microsoft Azure [12])交互。然而,探测物理设备可能会更加麻烦,甚至不可能,因为当今的智能设备(例如 Amazon Echo [2])可以通过无线方式接受人类语音。此外,仍然必须假设攻击者知道目标模型的一些内部知识(例如,访问目标模型的相似度分数 [29]、[113])。最近的两项研究进一步将攻击者的知识限制为:(i)[118] 只知道目标说话者的一句话语音 [118] 并需要探测才能获得目标模型的硬标记(接受或拒绝)结果(例如超过 10,000 次)和(ii)[30] 只知道目标模型中每个说话者的一句话语音。
在本文中,我们提出了一种新的、更实用的针对说话人识别的黑盒攻击视角。我们首先注意到,最实用的攻击假设是让攻击者对目标模型一无所知,并且从不探测该模型。然而,对于攻击者来说,这种完全零知识不太可能导致有效的音频 AE。我们必须假设一些知识,但将其保持在最低水平,以实现攻击的实用性。我们的工作将攻击者的知识限制为目标说话者的一句话(或几秒钟)语音样本,而不知道有关目标模型的任何其他信息。攻击者既不了解目标模型的内部,也无法访问目标模型的内部。此外,她不会探测分类器,也不需要观察分类结果(软标签或硬标签)。据我们所知,与之前的工作相比,我们对攻击者知识的假设是最严格的(特别是最近的两次攻击 [118]、[30])。
围绕目标说话者的一句话知识,我们的基本攻击框架是(i)提出一种新的训练程序,称为鹦鹉训练,该程序生成足够数量的目标说话者的合成语音样本并使用它们构建鹦鹉训练(PT)模型以进行进一步的转移攻击,以及(ii)系统地评估不同 AE 生成机制的可转移性和感知性,并创建基于 PT 模型的 AE(PT-AE),以实现更高的攻击成功率和良好的音频质量。
我们进行鹦鹉训练的动机是,语音转换 (VC) 领域的最新进展表明,一次性语音方法 [34]、[77]、[110]、[31] 能够利用语义人类语音特征来生成听起来像目标说话者的声音的语音样本,这些语音样本的语言内容各不相同。基于攻击者的单句知识,我们应该能够生成目标说话者的不同合成语音样本,并使用它们构建说话者识别的 PT 模型。我们的可行性评估表明,PT 模型的表现与使用目标说话者实际语音样本的地面实况训练 (GT) 模型类似。
PT 和 GT 模型之间的相似性产生了一个新的、有趣的可迁移性问题:如果我们从 PT 模型创建 PT-AE,它的性能是否可以与从 GT 模型(GT-AE)生成的 AE 相似并迁移到黑盒目标 GT 模型?对抗性机器学习中的可迁移性已经是一个有趣的概念。据观察,可迁移性取决于许多方面,例如模型架构、模型参数、训练数据集和攻击算法 [79],[76]。现有的 AE 评估主要集中在 GT 模型上的 GT-AE,而不涉及合成数据。因此,我们对 PT-AE 的生成和质量进行了全面的研究。
• 质量:我们首先需要定义一个质量指标来量化 PT-AE 的好坏。PT-AE 有两个重要因素:(i) PT-AE 向黑盒目标模型的可迁移性。我们采用在图像领域 [79] 中得到全面研究的匹配率来衡量可迁移性。匹配率定义为在黑盒 GT 模型上仍可能被错误分类为相同目标标签的 PT-AE 的百分比。(ii) 音频 AE 的感知质量。我们进行了一项人类研究,让人类参与者按照语音评估研究 [47]、[108]、[23]、[19]、[91]、[36] 中常用的统一感知分数范围对不同类型载体的 AE 的语音质量进行评分,然后建立回归模型来预测人类对语音质量的评分。然而,这两个因素通常是矛盾的,因为高水平的可迁移性可能会导致较差的感知质量。然后,我们为使用特定类型载体生成的 PT-AE 定义了一个新的指标,称为可转移性-感知比率 (TPR)。该指标基于其匹配率和平均感知分数,并量化载体类型在降低人类感知单位分数方面可以实现的可转移性水平。高 TPR 可以解释为以相对较小的感知下降成本实现的高可转移性。
在 TPR 框架下,我们制定了两阶段 PTAE 攻击,可通过无线方式针对黑盒目标模型发起攻击。在第一阶段,我们将范围从全套载波缩小到攻击者目标说话者具有高 TPR 的候选子集。在第二阶段,我们采用基于集成学习的公式 [76],从第一阶段中选择最佳载波候选,并操纵其听觉特征,以最小化攻击效果和人类感知的联合损失目标。现实世界的实验表明,在数字线路场景中,提出的 PT-AE 攻击对开源模型的成功率为 45.8%–80.8%,在无线场景中,对包括 Apple HomePod (Siri)、Amazon Echo 和 Google Home 在内的智能设备的成功率为 47.9%–58.3%。与最近的两种攻击策略 Smack [113] 和 QFA2SR [30] 相比,我们的策略比 Smack 提高了 263.7%(攻击成功率)和 10.7%(人类感知得分),比 QFA2SR 提高了 95.9%(攻击成功率)和 44.9%(人类感知得分)。表一提供了所提出的 PT-AE 攻击与现有策略所需知识的比较。
我们的主要贡献可以概括如下。(i)我们提出了一种新的 PT 模型概念,并研究了最先进的 VC 方法来生成鹦鹉语音样本,从而为仅了解目标说话者的一句话语音的攻击者构建替代模型。(ii)我们提出了一个新的 TPR 框架,以联合评估具有不同类型载体的 PT-AE 生成的可转移性和感知质量。(iii)我们创建了一种两阶段 PT-AE 攻击策略,该策略已被证明比现有的攻击策略更有效,同时要求攻击者的知识水平最低。
[1] 我们的攻击演示可以在以下网址找到: https://sites.google.com/view/pt-attack-demo