tác giả:
(1) Đại học Rui Duan, Nam Florida Tampa, Hoa Kỳ (email: [email protected]);
(2) Đại học Trung Nam Zhe Qu Trường Sa, Trung Quốc (email: [email protected]);
(3) Leah Ding American University Washington, DC, USA (email: [email protected]);
(4) Đại học Yao Liu, Nam Florida Tampa, Hoa Kỳ (email: [email protected]);
(5) Đại học Yao Liu, Nam Florida Tampa, Hoa Kỳ (email: [email protected]).
Huấn luyện vẹt: Tính khả thi và đánh giá
Thế hệ PT-AE: Khả năng chuyển giao chung và quan điểm nhận thức
Các cuộc tấn công PT-AE hộp đen được tối ưu hóa
Kết luận và tài liệu tham khảo
Tóm tắt —Các ví dụ về đối nghịch âm thanh (AE) đã đặt ra những thách thức bảo mật đáng kể đối với các hệ thống nhận dạng người nói trong thế giới thực. Hầu hết các cuộc tấn công hộp đen vẫn yêu cầu một số thông tin nhất định từ mô hình nhận dạng người nói để có hiệu quả (ví dụ: tiếp tục thăm dò và yêu cầu kiến thức về điểm tương đồng). Công việc này nhằm mục đích nâng cao tính thực tế của các cuộc tấn công hộp đen bằng cách giảm thiểu kiến thức của kẻ tấn công về mô hình nhận dạng người nói mục tiêu. Mặc dù kẻ tấn công không thể thành công với kiến thức hoàn toàn bằng không, nhưng chúng tôi cho rằng kẻ tấn công chỉ biết một mẫu bài phát biểu ngắn (hoặc vài giây) của người nói mục tiêu. Không cần thăm dò để có thêm kiến thức về mô hình mục tiêu, chúng tôi đề xuất một cơ chế mới, được gọi là huấn luyện vẹt, để tạo ra các AE dựa trên mô hình mục tiêu. Được thúc đẩy bởi những tiến bộ gần đây trong chuyển đổi giọng nói (VC), chúng tôi đề xuất sử dụng kiến thức một câu ngắn để tạo ra nhiều mẫu giọng nói tổng hợp hơn giống với người nói mục tiêu, được gọi là lời nói vẹt. Sau đó, chúng tôi sử dụng các mẫu giọng nói vẹt này để huấn luyện mô hình thay thế được huấn luyện vẹt (PT) cho kẻ tấn công. Trong khuôn khổ nhận thức và khả năng chuyển giao chung, chúng tôi nghiên cứu các cách khác nhau để tạo AE trên mô hình PT (được gọi là PT-AE) để đảm bảo PT-AE có thể được tạo với khả năng chuyển đổi cao sang mô hình mục tiêu hộp đen có chất lượng nhận thức tốt của con người. Các thử nghiệm trong thế giới thực cho thấy các PT-AE thu được đạt tỷ lệ tấn công thành công là 45,8%–80,8% so với các mô hình nguồn mở trong kịch bản đường truyền kỹ thuật số và 47,9%–58,3% đối với các thiết bị thông minh, bao gồm cả Apple HomePod (Siri) , Amazon Echo và Google Home, trong kịch bản không dây[1].
Các cuộc tấn công bất lợi vào nhận dạng giọng nói [28], [114], [72], [101], [105], [32], [43], [118] và nhận dạng giọng nói [43], [29], [118 ] đã trở thành một trong những lĩnh vực nghiên cứu tích cực nhất về học máy trong bảo mật âm thanh máy tính. Các cuộc tấn công này tạo ra các ví dụ đối nghịch về âm thanh (AE) có thể giả mạo bộ phân loại giọng nói trong cài đặt hộp trắng [28], [114], [72], [52] hoặc hộp đen [105], [32], [43 ], [118], [29], [74], [17]. So với các cuộc tấn công hộp trắng yêu cầu kiến thức đầy đủ về mô hình phân loại âm thanh mục tiêu, các cuộc tấn công hộp đen không có kiến thức đầy đủ và đã được nghiên cứu trong tài liệu theo các kịch bản tấn công khác nhau [29], [118]. Bất chấp những tiến bộ đáng kể trong việc thiết kế các cuộc tấn công hộp đen, chúng vẫn có thể gặp khó khăn khi triển khai trong các tình huống trong thế giới thực vì kẻ tấn công vẫn phải lấy thông tin từ mô hình mục tiêu.
Nói chung, kẻ tấn công có thể sử dụng quy trình truy vấn (hoặc thăm dò) để dần dần biết mô hình mục tiêu: liên tục gửi tín hiệu giọng nói đến mô hình mục tiêu, sau đó đo mức độ tin cậy/điểm dự đoán [32], [43], [29] hoặc kết quả đầu ra cuối cùng [118], [113] của bộ phân loại. Quá trình thăm dò thường đòi hỏi một số lượng lớn các tương tác (ví dụ: hơn 1000 truy vấn [113]), điều này có thể tốn rất nhiều công sức và thời gian. Điều này có thể hoạt động trong dòng kỹ thuật số, chẳng hạn như tương tác với các mô hình học máy cục bộ (ví dụ: bộ công cụ Kaldi [93]) hoặc các nền tảng thương mại trực tuyến (ví dụ: Microsoft Azure [12]). Tuy nhiên, việc thăm dò các thiết bị vật lý có thể còn phức tạp hơn, nếu không thể, vì các thiết bị thông minh ngày nay (ví dụ: Amazon Echo [2]) chấp nhận lời nói của con người qua mạng. Hơn nữa, một số kiến thức nội bộ của mô hình mục tiêu vẫn phải được kẻ tấn công biết đến (ví dụ: quyền truy cập vào điểm tương tự của mô hình mục tiêu [29], [113]). Hai nghiên cứu gần đây còn hạn chế hơn nữa kiến thức của kẻ tấn công là (i) [118] chỉ biết bài phát biểu một câu của người nói mục tiêu [118] và yêu cầu thăm dò để có được kết quả nhãn cứng (chấp nhận hoặc từ chối) của mô hình mục tiêu (ví dụ: hơn 10.000 lần) và (ii) [30] chỉ biết nói một câu cho mỗi diễn giả đăng ký vào mô hình mục tiêu.
Trong bài viết này, chúng tôi trình bày một góc nhìn mới, thậm chí còn thực tế hơn đối với các cuộc tấn công hộp đen chống lại khả năng nhận dạng người nói. Đầu tiên chúng tôi lưu ý rằng giả định tấn công thực tế nhất là không cho kẻ tấn công biết gì về mô hình mục tiêu và không bao giờ thăm dò mô hình. Tuy nhiên, những kiến thức hoàn toàn bằng không như vậy đối với kẻ tấn công khó có thể dẫn đến các AE âm thanh hiệu quả. Chúng tôi phải thừa nhận một số kiến thức nhưng giữ nó ở mức tối thiểu để hướng tới tính thực tế của cuộc tấn công. Công việc của chúng tôi giới hạn kiến thức của kẻ tấn công chỉ là mẫu bài phát biểu một câu (hoặc vài giây) của người nói mục tiêu mà không biết bất kỳ thông tin nào khác về mô hình mục tiêu. Kẻ tấn công không có kiến thức cũng như không có quyền truy cập vào phần bên trong của mô hình mục tiêu. Hơn nữa, cô ấy không thăm dò bộ phân loại và không cần quan sát kết quả phân loại (nhãn mềm hoặc nhãn cứng). Theo hiểu biết tốt nhất của chúng tôi, giả định của chúng tôi về kiến thức của kẻ tấn công là hạn chế nhất so với nghiên cứu trước đây (đặc biệt với hai cuộc tấn công gần đây [118], [30]).
Tập trung vào kiến thức một câu này của người nói mục tiêu, khuôn khổ tấn công cơ bản của chúng tôi là (i) đề xuất một quy trình đào tạo mới, được gọi là huấn luyện vẹt, tạo ra đủ số lượng mẫu giọng nói tổng hợp của người nói mục tiêu và sử dụng chúng để xây dựng một mô hình được huấn luyện vẹt (PT) để thực hiện một cuộc tấn công chuyển giao tiếp theo và (ii) đánh giá một cách có hệ thống khả năng chuyển giao và nhận thức của các cơ chế tạo AE khác nhau và tạo ra các AE dựa trên mô hình PT (PT-AE) hướng tới tỷ lệ tấn công thành công cao và chất lượng âm thanh tốt.
Động lực của chúng tôi đằng sau việc huấn luyện vẹt là những tiến bộ gần đây trong miền chuyển đổi giọng nói (VC) đã cho thấy rằng các phương pháp nói một lần [34], [77], [110], [31] có thể tận dụng ngữ nghĩa lời nói của con người. các tính năng để tạo các mẫu giọng nói giống giọng của người nói mục tiêu trong các nội dung ngôn ngữ khác nhau. Dựa trên kiến thức về câu nói của kẻ tấn công, chúng tôi có thể tạo ra các mẫu giọng nói tổng hợp khác nhau của người nói mục tiêu và sử dụng chúng để xây dựng mô hình PT nhằm nhận dạng người nói. Đánh giá tính khả thi của chúng tôi cho thấy rằng mô hình PT có thể hoạt động tương tự như mô hình được đào tạo thực tế (GT) sử dụng mẫu giọng nói thực tế của người nói mục tiêu.
Sự giống nhau giữa các mô hình PT và GT tạo ra một câu hỏi mới, thú vị về khả năng chuyển nhượng: nếu chúng ta tạo PT-AE từ mô hình PT, liệu nó có thể hoạt động tương tự như AE được tạo từ mô hình GT (GT-AE) và chuyển sang màu đen không? -hộp mục tiêu mô hình GT? Khả năng chuyển đổi trong học máy đối nghịch đã là một khái niệm hấp dẫn. Người ta nhận thấy rằng khả năng chuyển giao phụ thuộc vào nhiều khía cạnh, chẳng hạn như kiến trúc mô hình, tham số mô hình, tập dữ liệu huấn luyện và thuật toán tấn công [79], [76]. Các đánh giá AE hiện tại chủ yếu tập trung vào GT-AE trên các mẫu GT mà không liên quan đến dữ liệu tổng hợp. Do đó, chúng tôi tiến hành nghiên cứu toàn diện về PT-AE về mặt thế hệ và chất lượng của chúng.
• Chất lượng: Trước tiên chúng ta cần xác định thước đo chất lượng để định lượng xem PT-AE có tốt hay không. Có hai yếu tố quan trọng của PT-AE: (i) khả năng chuyển đổi PT-AE sang mô hình mục tiêu hộp đen. Chúng tôi áp dụng tỷ lệ khớp đã được nghiên cứu toàn diện trong miền hình ảnh [79] để đo khả năng chuyển đổi. Tỷ lệ trùng khớp được xác định là tỷ lệ phần trăm PT-AE vẫn có thể bị phân loại sai thành cùng một nhãn mục tiêu trên mẫu GT hộp đen. (ii) Chất lượng cảm nhận của AE âm thanh. Chúng tôi tiến hành một nghiên cứu trên người để cho phép những người tham gia là con người đánh giá chất lượng giọng nói của AE với các loại sóng mang khác nhau theo thang điểm nhận thức thống nhất từ 1 (tệ nhất) đến 7 (tốt nhất) thường được sử dụng trong nghiên cứu đánh giá giọng nói [47], [ 108], [23], [19], [91], [36], sau đó xây dựng mô hình hồi quy để dự đoán điểm số của con người về chất lượng giọng nói. Tuy nhiên, hai yếu tố này nhìn chung trái ngược nhau, vì mức độ chuyển giao cao có thể dẫn đến chất lượng nhận thức kém. Sau đó, chúng tôi xác định một số liệu mới gọi là tỷ lệ nhận thức-khả năng chuyển giao (TPR) cho các PT-AE được tạo bằng cách sử dụng một loại sóng mang cụ thể. Số liệu này dựa trên tỷ lệ phù hợp và điểm nhận thức trung bình của chúng, đồng thời định lượng mức độ chuyển giao mà một loại nhà cung cấp dịch vụ có thể đạt được trong việc làm giảm điểm đơn vị nhận thức của con người. TPR cao có thể được hiểu là khả năng chuyển giao cao đạt được nhờ chi phí suy giảm nhận thức tương đối nhỏ.
Trong khuôn khổ TPR, chúng tôi xây dựng một cuộc tấn công PTAE hai giai đoạn có thể được thực hiện trên không nhằm vào mô hình mục tiêu hộp đen. Trong giai đoạn đầu tiên, chúng tôi thu hẹp từ một tập hợp đầy đủ các nhà cung cấp dịch vụ xuống một tập hợp con các ứng cử viên có TPR cao dành cho người nói mục tiêu của kẻ tấn công. Trong giai đoạn thứ hai, chúng tôi áp dụng một công thức dựa trên học tập tổng thể [76] để chọn ra những ứng cử viên mang mầm bệnh tốt nhất từ giai đoạn đầu tiên và điều khiển các đặc điểm thính giác của họ để giảm thiểu mục tiêu tổn thất chung về hiệu quả tấn công và nhận thức của con người. Các thử nghiệm trong thế giới thực cho thấy cuộc tấn công PT-AE được đề xuất đạt tỷ lệ thành công là 45,8%–80,8% đối với các mô hình nguồn mở trong kịch bản đường truyền kỹ thuật số và 47,9%–58,3% đối với các thiết bị thông minh, bao gồm Apple HomePod (Siri), Amazon Echo và Google Home, trong tình huống không dây. So với hai chiến lược tấn công gần đây Smack [113] và QFA2SR [30], chiến lược của chúng tôi đạt được mức cải thiện 263,7% (tấn công thành công) và 10,7% (điểm nhận thức của con người) so với Smack và 95,9% (tấn công thành công) và 44,9% (con người điểm nhận thức) qua QFA2SR. Bảng I cung cấp sự so sánh kiến thức cần thiết giữa cuộc tấn công PT-AE được đề xuất và các chiến lược hiện có.
Đóng góp chính của chúng tôi có thể được tóm tắt như sau. (i) Chúng tôi đề xuất một khái niệm mới về mô hình PT và nghiên cứu các phương pháp VC tiên tiến để tạo ra các mẫu giọng nói vẹt nhằm xây dựng mô hình thay thế cho kẻ tấn công chỉ biết một câu nói của người nói mục tiêu. (ii) Chúng tôi đề xuất khung TPR mới để cùng đánh giá khả năng chuyển giao và chất lượng nhận thức của các thế hệ PT-AE với các loại nhà cung cấp dịch vụ khác nhau. (iii) Chúng tôi tạo ra chiến lược tấn công PT-AE hai giai đoạn đã được chứng minh là hiệu quả hơn các chiến lược tấn công hiện có, đồng thời yêu cầu mức độ hiểu biết tối thiểu của kẻ tấn công.
Bài viết này có sẵn trên arxiv theo giấy phép CC0 1.0 DEED.
[1] Bản demo tấn công của chúng tôi có thể được tìm thấy tại: https://sites.google.com/view/pt-Attack-demo