লেখক:
(1) Rui Duan University of South Florida Tampa, USA (ইমেল: [email protected]);
(2) Zhe Qu Central South University Changsha, China (ইমেইল: [email protected]);
(3) Leah Ding American University Washington, DC, USA (ইমেইল: [email protected]);
(4) ইয়াও লিউ ইউনিভার্সিটি অফ সাউথ ফ্লোরিডা টাম্পা, ইউএসএ (ইমেল: [email protected]);
(5) Yao Liu University of South Florida Tampa, USA (ইমেল: [email protected])।
তোতা প্রশিক্ষণ: সম্ভাব্যতা এবং মূল্যায়ন
PT-AE জেনারেশন: একটি যৌথ স্থানান্তরযোগ্যতা এবং উপলব্ধি দৃষ্টিকোণ
অপ্টিমাইজ করা ব্ল্যাক-বক্স PT-AE আক্রমণ
এই বিভাগে, আমরা প্রথমে স্পিকার স্বীকৃতির পটভূমির পরিচয় করিয়ে দিই, তারপর স্পিকার স্বীকৃতির বিরুদ্ধে অডিও AE তৈরি করতে ব্ল্যাক-বক্সের প্রতিপক্ষ আক্রমণের সূত্রগুলি বর্ণনা করি।
উ: স্পিকার স্বীকৃতি
সাম্প্রতিক বছরগুলিতে স্পিকার স্বীকৃতি আরও বেশি জনপ্রিয় হয়ে উঠেছে। এটি মেশিনগুলিকে তার ব্যক্তিগত বক্তৃতা বৈশিষ্ট্যের মাধ্যমে একজন স্পিকারকে সনাক্ত করার ক্ষমতা নিয়ে আসে, যা কলিং এবং মেসেজিংয়ের জন্য সুবিধাজনক লগইন [4] এবং ব্যক্তিগতকৃত অভিজ্ঞতা [1] এর মতো ব্যক্তিগতকৃত পরিষেবা সরবরাহ করতে পারে। সাধারণত, স্পিকার স্বীকৃতির কাজটি তিনটি পর্যায় অন্তর্ভুক্ত করে: প্রশিক্ষণ, তালিকাভুক্তি এবং স্বীকৃতি। এটি হাইলাইট করা গুরুত্বপূর্ণ যে স্পিকার স্বীকৃতির কাজগুলি [29], [118], [113] হতে পারে (i) একাধিক-স্পীকার-ভিত্তিক স্পিকার সনাক্তকরণ (SI) বা (ii) একক-স্পীকার-ভিত্তিক স্পিকার যাচাইকরণ (SV) . বিশেষ করে, এসআইকে ক্লোজ-সেট আইডেন্টিফিকেশন (সিএসআই) এবং ওপেন-সেট আইডেন্টিফিকেশন (ওএসআই) [৩৯], [২৯] এ ভাগ করা যায়। আমরা পরিশিষ্ট A-তে বিস্তারিত তথ্য প্রদান করি।
B. প্রতিপক্ষের বক্তৃতা আক্রমণ
একটি স্পিকার স্বীকৃতি ফাংশন দেওয়া f, যা মূল স্পিচ সিগন্যাল x এর একটি ইনপুট নেয় এবং একটি স্পিকারের লেবেল y আউটপুট করে, একজন প্রতিপক্ষ আক্রমণকারী একটি অডিও AE x + δ তৈরি করার জন্য একটি ছোট বিভ্রান্তি সংকেত δ ∈ Ω খুঁজে বের করার লক্ষ্য রাখে
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
যেখানে yt ̸= y হল আক্রমণকারীর টার্গেট লেবেল; Ω হল δ এর জন্য অনুসন্ধান স্থান; D(x, x + δ) একটি দূরত্ব ফাংশন যা মূল বক্তৃতা x এবং বিরক্তিকর বক্তৃতা x+δ এর মধ্যে পার্থক্য পরিমাপ করে এবং Lp আদর্শ ভিত্তিক দূরত্ব [29], [118] বা শ্রবণ বৈশিষ্ট্য পার্থক্যের একটি পরিমাপ হতে পারে (যেমন, qDev [44] এবং NISQA [113]); এবং ϵ x থেকে x + δ পরিবর্তনকে সীমাবদ্ধ করে।
একটি সাধারণ সাদা-বক্স আক্রমণ ফর্মুলেশন [28], [72] সমাধান করার জন্য (1) হিসাবে লেখা যেতে পারে
যেখানে J (·, ·) হল শ্রেণীবদ্ধকারী f-এর পূর্বাভাস ক্ষতি যখন লক্ষ্য লেবেল yt-এর সাথে ইনপুট x + δ যুক্ত করা হয়, যা আক্রমণকারীর দ্বারা পরিচিত বলে ধরে নেওয়া হয়; এবং c হল আক্রমণের কার্যকারিতা এবং মূল বক্তৃতার পরিবর্তনের ভারসাম্য বজায় রাখার একটি ফ্যাক্টর।
একটি ব্ল্যাক-বক্স আক্রমণের (2) মধ্যে J (·, ·) সম্পর্কে কোনো জ্ঞান থাকে না এবং এইভাবে শ্রেণীবিন্যাসকারী f থেকে অন্য কী তথ্য পেতে পারে তার উপর নির্ভর করে একটি ভিন্ন ধরনের ফর্মুলেশন গ্রহণ করতে হয়। যদি আক্রমণটি একটি বাইনারি (স্বীকার বা প্রত্যাখ্যান) ফলাফল দেয় এমন শ্রেণীবিভাগকে তদন্ত করতে পারে তবে আক্রমণ [118], [74] হিসাবে প্রণয়ন করা যেতে পারে
যেহেতু (3) f(x + δ) ধারণ করে, আক্রমণকারীকে ক্রমাগত δ এর একটি ভিন্ন সংস্করণ তৈরি করতে এবং সফল না হওয়া পর্যন্ত f(x + δ) এর ফলাফল পরিমাপ করার জন্য একটি অনুসন্ধানী কৌশল তৈরি করতে হবে। তদনুসারে, প্রচুর সংখ্যক প্রোবের (যেমন, 10,000 টিরও বেশি [118]) প্রয়োজন, যা বায়ুতে বক্তৃতা সংকেত গ্রহণকারী বাণিজ্যিক স্পিকার স্বীকৃতি মডেলগুলির বিরুদ্ধে বাস্তব-বিশ্বের আক্রমণগুলিকে কম ব্যবহারিক করে তোলে।
গ. ডিজাইন মোটিভেশন
একটি ব্ল্যাকবক্স আক্রমণের জটিল অনুসন্ধান প্রক্রিয়াকে অতিক্রম করতে, আমরা ব্যবহারিক ব্ল্যাক-বক্স আক্রমণ তৈরি করার বিকল্প উপায় খুঁজে বের করার লক্ষ্য রাখি। একটি ব্ল্যাক-বক্স আক্রমণ একটি শ্রেণীবিভাগের কোনো জ্ঞান অনুসন্ধান বা জানা ছাড়া সম্ভব নয় এই বিষয়টির পরিপ্রেক্ষিতে, আমরা [118] এ ব্যবহৃত পূর্বের জ্ঞানের একটি অনুমান গ্রহণ করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব ছোট অডিও নমুনা রয়েছে (উল্লেখ্য যে [118] এই জ্ঞান ছাড়াও লক্ষ্য মডেল তদন্ত করতে হবে)। এই অনুমান আক্রমণকারীকে শ্রেণীবদ্ধকারীর অভ্যন্তরীণ জানার চেয়ে বেশি ব্যবহারিক। এই সীমিত জ্ঞানের পরিপ্রেক্ষিতে, আমরা অনুসন্ধান প্রক্রিয়া অপসারণ এবং কার্যকর AE তৈরি করার লক্ষ্য রাখি।
বিদ্যমান অধ্যয়নগুলি গ্রাউন্ড-ট্রুথ প্রশিক্ষিত AEs (GT-AEs) সম্পর্কিত বিস্তৃত দিকের উপর দৃষ্টি নিবদ্ধ করেছে। তোতাপাখির বক্তৃতা এবং তোতা প্রশিক্ষণের ধারণাগুলি একটি নতুন ধরণের AE, তোতা-প্রশিক্ষিত AEs (PT-AEs) তৈরি করে এবং একটি ব্যবহারিক ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর সম্ভাব্যতা এবং কার্যকারিতার তিনটি প্রধান প্রশ্নও উত্থাপন করে: (i ) একটি PT মডেল একটি GT মডেল আনুমানিক হতে পারে? (ii) PT-AEs কি একটি PT মডেলের উপর নির্মিত ব্ল্যাক-বক্স GT মডেলের বিপরীতে GT-AEs হিসাবে স্থানান্তরযোগ্য? (iii) একটি কার্যকর ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর প্রজন্মকে কীভাবে অপ্টিমাইজ করা যায়? চিত্র 1 একটি নতুন, ব্যবহারিক এবং ননপ্রবিং ব্ল্যাক-বক্স আক্রমণের দিকে এই প্রশ্নগুলি মোকাবেলা করার জন্য আমাদের জন্য সামগ্রিক পদ্ধতি দেখায়: (1) আমরা বিভাগ III-তে তোতাপাখি প্রশিক্ষণের জন্য তোতা স্পিচ তৈরি করার জন্য একটি দুই-পদক্ষেপের এক-শট রূপান্তর পদ্ধতির প্রস্তাব করি; (2) আমরা বিভাগ IV-তে তাদের স্থানান্তরযোগ্যতা এবং উপলব্ধি গুণমানের বিষয়ে একটি PT মডেল থেকে বিভিন্ন ধরনের PT-AE প্রজন্মের অধ্যয়ন করি; এবং (3) আমরা বিভাগ V-এ PT-AE-এর উপর ভিত্তি করে একটি অপ্টিমাইজড ব্ল্যাকবক্স আক্রমণ তৈরি করি। তারপর, বিভাগ VI-তে বাণিজ্যিক অডিও সিস্টেমের উপর প্রস্তাবিত আক্রমণের প্রভাব বোঝার জন্য আমরা ব্যাপক মূল্যায়ন করি।
D. হুমকি মডেল
এই কাগজে, আমরা একজন আক্রমণকারীকে বিবেচনা করি যে একটি অডিও AE তৈরি করার চেষ্টা করে একটি স্পিকার স্বীকৃতি মডেলকে বোকা বানানোর জন্য যাতে মডেলটি AE কে লক্ষ্য স্পিকারের ভয়েস হিসাবে স্বীকৃতি দেয়। আমরা একটি ব্ল্যাক-বক্স আক্রমণ অনুমান গ্রহণ করি যে আক্রমণকারীর স্পিচ রিকগনিশন মডেলে ব্যবহৃত আর্কিটেকচার, প্যারামিটার এবং প্রশিক্ষণের ডেটা সম্পর্কে কোন জ্ঞান নেই। আমরা অনুমান করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব সংক্ষিপ্ত বক্তৃতা নমুনা (আমাদের মূল্যায়নে কয়েক সেকেন্ড) রয়েছে, যা সর্বজনীন সেটিংসে সংগ্রহ করা যেতে পারে [118], তবে নমুনাটি লক্ষ্য মডেলের প্রশিক্ষণের জন্য অগত্যা ব্যবহার করা হয় না। আমরা একটি আরও বাস্তবসম্মত দৃশ্যের উপর ফোকাস করি যেখানে আক্রমণকারী মডেলটি তদন্ত করে না, যা বেশিরভাগ ব্ল্যাক-বক্স আক্রমণ গবেষণা থেকে আলাদা [১১৩], [২৯], [১১৮] যার জন্য অনেক অনুসন্ধানের প্রয়োজন হয়। আমরা অনুমান করি যে আক্রমণকারীকে মডেলের বিরুদ্ধে ওভার-দ্য-এয়ার ইনজেকশন চালু করতে হবে (যেমন, Amazon Echo, Apple HomePod, এবং Google Assistant)।
এই কাগজটি CC0 1.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।