paint-brush
Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamakile@botbeat
273 okumalar

Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamak

Çok uzun; Okumak

Papağan eğitimi, minimum düzeyde bilgi kullanarak ve araştırma ihtiyacını ortadan kaldırarak, konuşmacı tanıma sistemlerine yönelik kara kutu ses saldırılarına karşı pratik bir yaklaşım sunar. Bu yöntem, yüksek aktarılabilirliğe ve iyi algı kalitesine sahip, etkili ses karşıt örnekleri oluşturmak için kısa bir konuşma örneğinden yararlanır.
featured image - Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamak
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Yazarlar:

(1) Rui Duan Üniversitesi, Güney Florida Tampa, ABD (e-posta: [email protected]);

(2) Zhe Qu Merkez Güney Üniversitesi Changsha, Çin (e-posta: [email protected]);

(3) Leah Ding Amerikan Üniversitesi Washington, DC, ABD (e-posta: [email protected]);

(4) Güney Florida Tampa Yao Liu Üniversitesi, ABD (e-posta: [email protected]);

(5) Güney Florida Tampa Yao Liu Üniversitesi, ABD (e-posta: [email protected]).

Bağlantı Tablosu

Özet ve Giriş

Arka Plan ve Motivasyon

Papağan Eğitimi: Fizibilite ve Değerlendirme

PT-AE Üretimi: Ortak Aktarılabilirlik ve Algı Perspektifi

Optimize Edilmiş Kara Kutu PT-AE Saldırıları

Deneysel Değerlendirmeler

Alakalı iş

Sonuç ve Referanslar

Ek

II. ARKA PLAN VE MOTİVASYON

Bu bölümde, öncelikle konuşmacı tanımanın arka planını tanıtacağız, ardından konuşmacı tanımaya karşı ses AE'leri oluşturmak için kara kutuya yönelik saldırı formülasyonlarını açıklayacağız.


A. Konuşmacının Tanınması


Konuşmacı tanıma son yıllarda giderek daha popüler hale geliyor. Makinelere, arama ve mesajlaşma için uygun oturum açma [4] ve kişiselleştirilmiş deneyim [1] gibi kişiselleştirilmiş hizmetler sağlayabilen, konuşmacıyı kişisel konuşma özellikleri aracılığıyla tanımlama yeteneği kazandırır. Genellikle konuşmacı tanıma görevi üç aşamadan oluşur: eğitim, kayıt ve tanınma. Konuşmacı tanıma görevlerinin [29], [118], [113] (i) çoklu konuşmacı tabanlı konuşmacı tanımlama (SI) veya (ii) tek konuşmacı tabanlı konuşmacı doğrulama (SV) olabileceğini vurgulamak önemlidir. . Özellikle SI, yakın küme tanımlama (CSI) ve açık küme tanımlama (OSI) olarak ikiye ayrılabilir [39], [29]. Ek A'da ayrıntılı bilgi veriyoruz.


B. Düşmanca Konuşma Saldırıları


Orijinal konuşma sinyali x'in girdisini alan ve konuşmacının etiketi y'yi çıkaran bir konuşmacı tanıma fonksiyonu f verildiğinde, saldırgan bir saldırgan, bir ses AE x + δ oluşturmak için küçük bir pertürbasyon sinyali δ ∈ Ω bulmayı hedefler.


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


burada yt ̸= y saldırganın hedef etiketidir; Ω, δ'nın arama alanıdır; D(x, x + δ), orijinal konuşma x ile bozulmuş konuşma x+δ arasındaki farkı ölçen bir mesafe fonksiyonudur ve Lp normuna dayalı mesafe [29], [118] veya işitsel özellik farkının bir ölçüsü olabilir (örneğin, qDev [44] ve NISQA [113]); ve ϵ, x'ten x + δ'ya değişimi sınırlar.


(1)’i çözmek için yaygın bir beyaz kutu saldırı formülasyonu [28], [72] şu şekilde yazılabilir:



burada J(·, ·), saldırgan tarafından bilindiği varsayılan, x + δ girdisini yt hedef etiketiyle ilişkilendirirken f sınıflandırıcısındaki tahmin kaybıdır; ve c, saldırı etkinliğini ve orijinal konuşmanın değişimini dengeleyen bir faktördür.


Bir kara kutu saldırısı (2)'deki J (·, ·) bilgisine sahip değildir ve bu nedenle f sınıflandırıcısından elde edebileceği diğer bilgilere bağlı olarak farklı türde bir formülasyon benimsemek zorundadır. Eğer saldırı, ikili (kabul veya red) sonucu veren sınıflandırıcıyı araştırabiliyorsa, saldırı [118], [74] şu şekilde formüle edilebilir:



(3) f(x + δ) içerdiğinden, saldırganın sürekli olarak farklı bir δ versiyonunu oluşturmak ve başarılı olana kadar f(x + δ) sonucunu ölçmek için bir araştırma stratejisi oluşturması gerekir. Buna göre, çok sayıda sonda (örneğin 10.000'in üzerinde [118]) gereklidir, bu da gerçek dünyadaki saldırıları, havadan konuşma sinyallerini kabul eden ticari konuşmacı tanıma modellerine karşı daha az pratik hale getirir.


Şekil 1: Kara kutu saldırısına dayalı papağan eğitimi prosedürü.


C. Tasarım Motivasyonu


Kara kutu saldırısının hantal araştırma sürecinin üstesinden gelmek için, pratik kara kutu saldırıları oluşturmanın alternatif bir yolunu bulmayı hedefliyoruz. Bir sınıflandırıcının herhangi bir bilgisini araştırmadan veya bilmeden bir kara kutu saldırısının mümkün olmadığı gerçeği göz önüne alındığında, saldırganın hedef konuşmacının çok kısa bir ses örneğine sahip olduğu yönünde [118]'de kullanılan bir ön bilgi varsayımını benimsiyoruz (not edin: [118] bu bilgiye ek olarak hedef modeli araştırmalıdır). Bu varsayım, saldırganın sınıflandırıcının iç bilgilerini bilmesini sağlamaktan daha pratiktir. Bu sınırlı bilgi göz önüne alındığında, araştırma sürecini ortadan kaldırmayı ve etkili AE'ler oluşturmayı hedefliyoruz.




Mevcut çalışmalar, temel gerçek eğitimli AE'ler (GT-AE'ler) ile ilgili çok çeşitli yönlere odaklanmıştır. Papağan konuşması ve papağan eğitimi kavramları, yeni bir tür AE'ler, papağan eğitimli AE'ler (PT-AE'ler) yaratır ve ayrıca PT-AE'lerin pratik bir kara kutu saldırısına yönelik fizibilitesine ve etkinliğine ilişkin üç ana soruyu gündeme getirir: (i) ) Bir PT modeli GT modeline yaklaşabilir mi? (ii) PT modeli üzerine kurulu PT-AE'ler, kara kutu GT modeline karşı GT-AE'ler kadar aktarılabilir mi? (iii) Etkili bir kara kutu saldırısına yönelik PT-AE'lerin üretimi nasıl optimize edilir? Şekil 1, bu soruları yeni, pratik ve araştırma gerektirmeyen bir kara kutu saldırısına yönelik olarak ele almamız için genel prosedürü göstermektedir: (1) Bölüm III'te papağan eğitimi için papağan konuşması oluşturmak amacıyla iki adımlı tek seferlik bir dönüştürme yöntemi öneriyoruz; (2) Bölüm IV'te aktarılabilirlikleri ve algı kaliteleri açısından bir PT modelinden farklı PT-AE nesillerini inceliyoruz; ve (3) Bölüm V'te PT-AE'lere dayalı olarak optimize edilmiş bir kara kutu saldırısı formüle ediyoruz. Ardından, Bölüm VI'da önerilen saldırının ticari ses sistemleri üzerindeki etkisini anlamak için kapsamlı değerlendirmeler gerçekleştiriyoruz.


D. Tehdit Modeli


Bu yazıda, modelin AE'yi hedef konuşmacının sesi olarak tanıyacağı şekilde konuşmacı tanıma modelini kandırmak için ses AE oluşturmaya çalışan bir saldırganı ele alıyoruz. Saldırganın konuşma tanıma modelinde kullanılan mimari, parametreler ve eğitim verileri hakkında hiçbir bilgiye sahip olmadığı varsayımını kara kutu saldırısı olarak kabul ediyoruz. Saldırganın, hedef konuşmacının halka açık ortamlarda toplanabilecek çok kısa bir konuşma örneğine (değerlendirmelerimizde birkaç saniye) sahip olduğunu varsayıyoruz [118], ancak örneğin hedef modelde eğitim için kullanılması zorunlu değildir. Birçok araştırma gerektiren kara kutu saldırı çalışmalarından [113], [29], [118] farklı olarak, saldırganın modeli araştırmadığı daha gerçekçi bir senaryoya odaklanıyoruz. Saldırganın modele (örneğin, Amazon Echo, Apple HomePod ve Google Assistant) kablosuz enjeksiyonu başlatması gerektiğini varsayıyoruz.