paint-brush
স্পিকার স্বীকৃতি এবং প্রতিপক্ষের বক্তৃতা আক্রমণ বোঝাদ্বারা@botbeat
273 পড়া

স্পিকার স্বীকৃতি এবং প্রতিপক্ষের বক্তৃতা আক্রমণ বোঝা

অতিদীর্ঘ; পড়তে

তোতা প্রশিক্ষণ ন্যূনতম জ্ঞান ব্যবহার করে এবং অনুসন্ধানের প্রয়োজনীয়তা দূর করে স্পিকার স্বীকৃতি সিস্টেমে ব্ল্যাক-বক্স অডিও প্রতিপক্ষের আক্রমণের জন্য একটি ব্যবহারিক পদ্ধতির প্রস্তাব দেয়। এই পদ্ধতিটি উচ্চ স্থানান্তরযোগ্যতা এবং ভাল অনুধাবনযোগ্য গুণমানের সাথে কার্যকর অডিও প্রতিকূল উদাহরণ তৈরি করতে একটি সংক্ষিপ্ত বক্তৃতা নমুনা ব্যবহার করে।
featured image - স্পিকার স্বীকৃতি এবং প্রতিপক্ষের বক্তৃতা আক্রমণ বোঝা
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

লেখক:

(1) Rui Duan University of South Florida Tampa, USA (ইমেল: [email protected]);

(2) Zhe Qu Central South University Changsha, China (ইমেইল: [email protected]);

(3) Leah Ding American University Washington, DC, USA (ইমেইল: [email protected]);

(4) ইয়াও লিউ ইউনিভার্সিটি অফ সাউথ ফ্লোরিডা টাম্পা, ইউএসএ (ইমেল: [email protected]);

(5) Yao Liu University of South Florida Tampa, USA (ইমেল: [email protected])।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

পটভূমি এবং প্রেরণা

তোতা প্রশিক্ষণ: সম্ভাব্যতা এবং মূল্যায়ন

PT-AE জেনারেশন: একটি যৌথ স্থানান্তরযোগ্যতা এবং উপলব্ধি দৃষ্টিকোণ

অপ্টিমাইজ করা ব্ল্যাক-বক্স PT-AE আক্রমণ

পরীক্ষামূলক মূল্যায়ন

সম্পর্কিত কাজ

উপসংহার এবং রেফারেন্স

পরিশিষ্ট

২. পটভূমি এবং প্রেরণা

এই বিভাগে, আমরা প্রথমে স্পিকার স্বীকৃতির পটভূমির পরিচয় করিয়ে দিই, তারপর স্পিকার স্বীকৃতির বিরুদ্ধে অডিও AE তৈরি করতে ব্ল্যাক-বক্সের প্রতিপক্ষ আক্রমণের সূত্রগুলি বর্ণনা করি।


উ: স্পিকার স্বীকৃতি


সাম্প্রতিক বছরগুলিতে স্পিকার স্বীকৃতি আরও বেশি জনপ্রিয় হয়ে উঠেছে। এটি মেশিনগুলিকে তার ব্যক্তিগত বক্তৃতা বৈশিষ্ট্যের মাধ্যমে একজন স্পিকারকে সনাক্ত করার ক্ষমতা নিয়ে আসে, যা কলিং এবং মেসেজিংয়ের জন্য সুবিধাজনক লগইন [4] এবং ব্যক্তিগতকৃত অভিজ্ঞতা [1] এর মতো ব্যক্তিগতকৃত পরিষেবা সরবরাহ করতে পারে। সাধারণত, স্পিকার স্বীকৃতির কাজটি তিনটি পর্যায় অন্তর্ভুক্ত করে: প্রশিক্ষণ, তালিকাভুক্তি এবং স্বীকৃতি। এটি হাইলাইট করা গুরুত্বপূর্ণ যে স্পিকার স্বীকৃতির কাজগুলি [29], [118], [113] হতে পারে (i) একাধিক-স্পীকার-ভিত্তিক স্পিকার সনাক্তকরণ (SI) বা (ii) একক-স্পীকার-ভিত্তিক স্পিকার যাচাইকরণ (SV) . বিশেষ করে, এসআইকে ক্লোজ-সেট আইডেন্টিফিকেশন (সিএসআই) এবং ওপেন-সেট আইডেন্টিফিকেশন (ওএসআই) [৩৯], [২৯] এ ভাগ করা যায়। আমরা পরিশিষ্ট A-তে বিস্তারিত তথ্য প্রদান করি।


B. প্রতিপক্ষের বক্তৃতা আক্রমণ


একটি স্পিকার স্বীকৃতি ফাংশন দেওয়া f, যা মূল স্পিচ সিগন্যাল x এর একটি ইনপুট নেয় এবং একটি স্পিকারের লেবেল y আউটপুট করে, একজন প্রতিপক্ষ আক্রমণকারী একটি অডিও AE x + δ তৈরি করার জন্য একটি ছোট বিভ্রান্তি সংকেত δ ∈ Ω খুঁজে বের করার লক্ষ্য রাখে


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


যেখানে yt ̸= y হল আক্রমণকারীর টার্গেট লেবেল; Ω হল δ এর জন্য অনুসন্ধান স্থান; D(x, x + δ) একটি দূরত্ব ফাংশন যা মূল বক্তৃতা x এবং বিরক্তিকর বক্তৃতা x+δ এর মধ্যে পার্থক্য পরিমাপ করে এবং Lp আদর্শ ভিত্তিক দূরত্ব [29], [118] বা শ্রবণ বৈশিষ্ট্য পার্থক্যের একটি পরিমাপ হতে পারে (যেমন, qDev [44] এবং NISQA [113]); এবং ϵ x থেকে x + δ পরিবর্তনকে সীমাবদ্ধ করে।


একটি সাধারণ সাদা-বক্স আক্রমণ ফর্মুলেশন [28], [72] সমাধান করার জন্য (1) হিসাবে লেখা যেতে পারে



যেখানে J (·, ·) হল শ্রেণীবদ্ধকারী f-এর পূর্বাভাস ক্ষতি যখন লক্ষ্য লেবেল yt-এর সাথে ইনপুট x + δ যুক্ত করা হয়, যা আক্রমণকারীর দ্বারা পরিচিত বলে ধরে নেওয়া হয়; এবং c হল আক্রমণের কার্যকারিতা এবং মূল বক্তৃতার পরিবর্তনের ভারসাম্য বজায় রাখার একটি ফ্যাক্টর।


একটি ব্ল্যাক-বক্স আক্রমণের (2) মধ্যে J (·, ·) সম্পর্কে কোনো জ্ঞান থাকে না এবং এইভাবে শ্রেণীবিন্যাসকারী f থেকে অন্য কী তথ্য পেতে পারে তার উপর নির্ভর করে একটি ভিন্ন ধরনের ফর্মুলেশন গ্রহণ করতে হয়। যদি আক্রমণটি একটি বাইনারি (স্বীকার বা প্রত্যাখ্যান) ফলাফল দেয় এমন শ্রেণীবিভাগকে তদন্ত করতে পারে তবে আক্রমণ [118], [74] হিসাবে প্রণয়ন করা যেতে পারে



যেহেতু (3) f(x + δ) ধারণ করে, আক্রমণকারীকে ক্রমাগত δ এর একটি ভিন্ন সংস্করণ তৈরি করতে এবং সফল না হওয়া পর্যন্ত f(x + δ) এর ফলাফল পরিমাপ করার জন্য একটি অনুসন্ধানী কৌশল তৈরি করতে হবে। তদনুসারে, প্রচুর সংখ্যক প্রোবের (যেমন, 10,000 টিরও বেশি [118]) প্রয়োজন, যা বায়ুতে বক্তৃতা সংকেত গ্রহণকারী বাণিজ্যিক স্পিকার স্বীকৃতি মডেলগুলির বিরুদ্ধে বাস্তব-বিশ্বের আক্রমণগুলিকে কম ব্যবহারিক করে তোলে।


চিত্র 1: ব্ল্যাক-বক্স আক্রমণ ভিত্তিক তোতাপাখি প্রশিক্ষণের পদ্ধতি।


গ. ডিজাইন মোটিভেশন


একটি ব্ল্যাকবক্স আক্রমণের জটিল অনুসন্ধান প্রক্রিয়াকে অতিক্রম করতে, আমরা ব্যবহারিক ব্ল্যাক-বক্স আক্রমণ তৈরি করার বিকল্প উপায় খুঁজে বের করার লক্ষ্য রাখি। একটি ব্ল্যাক-বক্স আক্রমণ একটি শ্রেণীবিভাগের কোনো জ্ঞান অনুসন্ধান বা জানা ছাড়া সম্ভব নয় এই বিষয়টির পরিপ্রেক্ষিতে, আমরা [118] এ ব্যবহৃত পূর্বের জ্ঞানের একটি অনুমান গ্রহণ করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব ছোট অডিও নমুনা রয়েছে (উল্লেখ্য যে [118] এই জ্ঞান ছাড়াও লক্ষ্য মডেল তদন্ত করতে হবে)। এই অনুমান আক্রমণকারীকে শ্রেণীবদ্ধকারীর অভ্যন্তরীণ জানার চেয়ে বেশি ব্যবহারিক। এই সীমিত জ্ঞানের পরিপ্রেক্ষিতে, আমরা অনুসন্ধান প্রক্রিয়া অপসারণ এবং কার্যকর AE তৈরি করার লক্ষ্য রাখি।




বিদ্যমান অধ্যয়নগুলি গ্রাউন্ড-ট্রুথ প্রশিক্ষিত AEs (GT-AEs) সম্পর্কিত বিস্তৃত দিকের উপর দৃষ্টি নিবদ্ধ করেছে। তোতাপাখির বক্তৃতা এবং তোতা প্রশিক্ষণের ধারণাগুলি একটি নতুন ধরণের AE, তোতা-প্রশিক্ষিত AEs (PT-AEs) তৈরি করে এবং একটি ব্যবহারিক ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর সম্ভাব্যতা এবং কার্যকারিতার তিনটি প্রধান প্রশ্নও উত্থাপন করে: (i ) একটি PT মডেল একটি GT মডেল আনুমানিক হতে পারে? (ii) PT-AEs কি একটি PT মডেলের উপর নির্মিত ব্ল্যাক-বক্স GT মডেলের বিপরীতে GT-AEs হিসাবে স্থানান্তরযোগ্য? (iii) একটি কার্যকর ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর প্রজন্মকে কীভাবে অপ্টিমাইজ করা যায়? চিত্র 1 একটি নতুন, ব্যবহারিক এবং ননপ্রবিং ব্ল্যাক-বক্স আক্রমণের দিকে এই প্রশ্নগুলি মোকাবেলা করার জন্য আমাদের জন্য সামগ্রিক পদ্ধতি দেখায়: (1) আমরা বিভাগ III-তে তোতাপাখি প্রশিক্ষণের জন্য তোতা স্পিচ তৈরি করার জন্য একটি দুই-পদক্ষেপের এক-শট রূপান্তর পদ্ধতির প্রস্তাব করি; (2) আমরা বিভাগ IV-তে তাদের স্থানান্তরযোগ্যতা এবং উপলব্ধি গুণমানের বিষয়ে একটি PT মডেল থেকে বিভিন্ন ধরনের PT-AE প্রজন্মের অধ্যয়ন করি; এবং (3) আমরা বিভাগ V-এ PT-AE-এর উপর ভিত্তি করে একটি অপ্টিমাইজড ব্ল্যাকবক্স আক্রমণ তৈরি করি। তারপর, বিভাগ VI-তে বাণিজ্যিক অডিও সিস্টেমের উপর প্রস্তাবিত আক্রমণের প্রভাব বোঝার জন্য আমরা ব্যাপক মূল্যায়ন করি।


D. হুমকি মডেল


এই কাগজে, আমরা একজন আক্রমণকারীকে বিবেচনা করি যে একটি অডিও AE তৈরি করার চেষ্টা করে একটি স্পিকার স্বীকৃতি মডেলকে বোকা বানানোর জন্য যাতে মডেলটি AE কে লক্ষ্য স্পিকারের ভয়েস হিসাবে স্বীকৃতি দেয়। আমরা একটি ব্ল্যাক-বক্স আক্রমণ অনুমান গ্রহণ করি যে আক্রমণকারীর স্পিচ রিকগনিশন মডেলে ব্যবহৃত আর্কিটেকচার, প্যারামিটার এবং প্রশিক্ষণের ডেটা সম্পর্কে কোন জ্ঞান নেই। আমরা অনুমান করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব সংক্ষিপ্ত বক্তৃতা নমুনা (আমাদের মূল্যায়নে কয়েক সেকেন্ড) রয়েছে, যা সর্বজনীন সেটিংসে সংগ্রহ করা যেতে পারে [118], তবে নমুনাটি লক্ষ্য মডেলের প্রশিক্ষণের জন্য অগত্যা ব্যবহার করা হয় না। আমরা একটি আরও বাস্তবসম্মত দৃশ্যের উপর ফোকাস করি যেখানে আক্রমণকারী মডেলটি তদন্ত করে না, যা বেশিরভাগ ব্ল্যাক-বক্স আক্রমণ গবেষণা থেকে আলাদা [১১৩], [২৯], [১১৮] যার জন্য অনেক অনুসন্ধানের প্রয়োজন হয়। আমরা অনুমান করি যে আক্রমণকারীকে মডেলের বিরুদ্ধে ওভার-দ্য-এয়ার ইনজেকশন চালু করতে হবে (যেমন, Amazon Echo, Apple HomePod, এবং Google Assistant)।


এই কাগজটি CC0 1.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ