tác giả:
(1) Juan F. Montesinos, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};
(2) Olga Slizovskaia, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};
(3) Gloria Haro, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]}.
Chúng tôi đã giới thiệu Solos, một tập dữ liệu nghe nhìn mới về bản ghi âm nhạc của các nghệ sĩ độc tấu, phù hợp với các nhiệm vụ học tập tự giám sát khác nhau như tách nguồn bằng chiến lược trộn và tách, bản địa hóa âm thanh, tạo đa phương thức và tìm kiếm hình ảnh nghe nhìn thư từ. Có 13 công cụ khác nhau trong bộ dữ liệu; đó là những nhạc cụ phổ biến trong các dàn nhạc thính phòng và là những nhạc cụ có trong bộ dữ liệu về Trình diễn Âm nhạc Đa phương thức (URMP) của Đại học Rochester [1]. Các đặc điểm của URMP – tập dữ liệu nhỏ về các màn trình diễn thực tế với các nguồn riêng lẻ thực tế – khiến nó trở thành tập dữ liệu phù hợp cho mục đích thử nghiệm nhưng theo hiểu biết tốt nhất của chúng tôi, cho đến nay không có tập dữ liệu quy mô lớn nào có cùng công cụ như trong URMP. Hai mạng khác nhau để phân tách nguồn nghe nhìn dựa trên kiến trúc U-Net đã được huấn luyện trong tập dữ liệu mới và được đánh giá thêm trong URMP, cho thấy tác động của việc huấn luyện trên cùng một bộ công cụ như tập kiểm tra. Hơn nữa, Solos cung cấp khung và dấu thời gian cho các khoảng thời gian video trong đó có thể nhìn thấy rõ bàn tay. Thông tin này có thể hữu ích cho mục đích đào tạo và cũng cho việc học cách giải quyết nhiệm vụ bản địa hóa âm thanh.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan và G. Sharma, “Tạo bộ dữ liệu về hiệu suất âm nhạc cổ điển nhiều bản nhạc để phân tích âm nhạc đa phương thức: Những thách thức, hiểu biết sâu sắc và ứng dụng,” Giao dịch của IEEE trên Đa phương tiện, tập. 21, không. 2, trang 522–535, tháng 2 năm 2019.
[2] B. Li, K. Dinesh, Z. Duan và G. Sharma, “Xem và nghe: Liên kết các bản âm thanh được cung cấp thông tin điểm cho người chơi trong các video biểu diễn nhạc thính phòng,” tại Hội nghị quốc tế IEEE 2017 về Âm học, Lời nói và Tín hiệu Xử lý (ICASSP). IEEE, 2017, trang 2906–2910.
[3] EC Cherry, “Một số thí nghiệm về nhận dạng giọng nói, bằng một và bằng hai tai,” Tạp chí của Hiệp hội Âm học Hoa Kỳ, tập. 25, không. 5, trang 975–979, 1953.
[4] A. Hyvarinen và E. Oja, “Phân tích thành phần độc lập: thuật toán ¨ và ứng dụng,” Mạng thần kinh, tập. 13, không. 4-5, trang 411–430, 2000.
[5] M. Zibulevsky và BA Pearlmutter, “Phân tách nguồn mù bằng cách phân tách thưa thớt trong từ điển tín hiệu,” Tính toán thần kinh, tập. 13, không. 4, trang 863–882, 2001.
[6] T. Virtanen, “Tách nguồn âm thanh đơn âm bằng hệ số ma trận không âm với tiêu chí độ thưa và liên tục theo thời gian,” Giao dịch của IEEE về xử lý âm thanh, giọng nói và ngôn ngữ, tập. 15, không. 3, trang 1066–1074, 2007.
[7] DPW Ellis, “Phân tích cảnh thính giác tính toán dựa trên dự đoán,” Ph.D. luận văn, Viện Công nghệ Massachusetts, 1996.
[8] P. Smaragdis, B. Raj và M. Shashanka, “Một mô hình biến tiềm ẩn xác suất cho mô hình âm thanh,” Những tiến bộ trong mô hình xử lý âm thanh, NIPS, tập. 148, trang 8–1, 2006.
[9] P. Chandna, M. Miron, J. Janer và E. Gomez, “Phân tách nguồn âm thanh đơn âm bằng cách sử dụng mạng thần kinh tích chập sâu,” trong Hội nghị quốc tế về Phân tích biến đổi tiềm ẩn và tách tín hiệu, 2017, trang 258– 266.
[10] D. Stoller, S. Ewert và S. Dixon, “Wave-u-net: Mạng thần kinh đa quy mô để phân tách nguồn âm thanh từ đầu đến cuối,” bản in trước arXiv arXiv:1806.03185, 2018.
[11] JR Hershey và JR Movellan, “Tầm nhìn âm thanh: Sử dụng đồng bộ âm thanh-hình ảnh để xác định vị trí âm thanh,” trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2000, trang 813–819.
[12] E. Kidron, YY Schechner và M. Elad, “Pixels that sound,” trong Thị giác máy tính và Nhận dạng mẫu, 2005. CVPR 2005. Hội nghị Hiệp hội Máy tính IEEE trên, tập. 1, 2005, trang 88–95.
[13] T. Darrell, JW Fisher và P. Viola, “Phân đoạn nghe nhìn và hiệu ứng tiệc cocktail,” trong Những tiến bộ trong giao diện đa phương thứcICMI 2000, 2000, trang 32–40.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch và C. Jutten, “Tách các nguồn giọng nói nghe nhìn: một cách tiếp cận mới khai thác sự mạch lạc nghe nhìn của các kích thích lời nói,” Tạp chí EURASIP về những tiến bộ trong xử lý tín hiệu, tập. 2002, không. 11, tr. 382823, 2002.
[15] B. Rivet, L. Girin và C. Jutten, “Kết hợp xử lý giọng nói nghe nhìn và tách nguồn mù để trích xuất tín hiệu giọng nói từ các hỗn hợp phức tạp,” Giao dịch của IEEE về Xử lý Âm thanh, Lời nói và Ngôn ngữ, tập. 15, không. 1, trang 96–108, 2007.
[16] B. Li, C. Xu và Z. Duan, “Liên kết nguồn nghe nhìn cho các nhóm dây thông qua phân tích rung đa phương thức,” Proc. Máy tính Âm thanh và Âm nhạc (SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Dương, P. Perez và G. Richard, ` “Hướng dẫn tách nguồn âm thanh bằng thông tin đối tượng video,” trong Ứng dụng xử lý tín hiệu cho âm thanh và âm học (WASPAA ), Hội thảo IEEE 2017, 2017, trang 61–65.
[18] R. Gao và K. Grauman, “Âm thanh đồng phân tách của các vật thể thị giác,” trong Kỷ yếu của Hội nghị Quốc tế IEEE về Thị giác Máy tính, 2019, trang 3879–3888.
[19] H. Zhao, C. Gan, W.-C. Ma và A. Torralba, “Âm thanh của chuyển động,” trong Kỷ yếu của Hội nghị Quốc tế IEEE về Thị giác Máy tính, 2019, trang 1735–1744.
[20] X. Xu, B. Dai và D. Lin, “Phân tách âm thanh hình ảnh đệ quy bằng cách sử dụng mạng trừ cộng,” trong Kỷ yếu của Hội nghị Quốc tế IEEE về Thị giác Máy tính, 2019, trang 882–891.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma và Z. Duan, “Hiệp hội nguồn nghe nhìn trực tuyến cho các buổi biểu diễn nhạc thính phòng,” Giao dịch của Hiệp hội truy xuất thông tin âm nhạc quốc tế, tập. 2, không. 1, 2019.
[22] R. Aranjelovic và A. Zisserman, “Các vật thể phát ra âm thanh,” trong Kỷ yếu của Hội nghị IEEE Châu Âu về Thị giác Máy tính, 2018.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott và A. Torralba, “Âm thanh của pixel,” trong Hội nghị Châu Âu về Thị giác Máy tính (ECCV), tháng 9 năm 2018.
[24] A. Owens và AA Efros, “Phân tích cảnh nghe nhìn với các tính năng đa giác quan tự giám sát,” bản in trước arXiv arXiv:1804.03641, 2018.
[25] B. Korbar, D. Tran và L. Torresani, “Học tập hợp tác các mô hình âm thanh và video từ đồng bộ hóa tự giám sát,” trong Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, 2018, trang 7763–7774.
[26] T.-H. Ồ, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein và W. Matusik, “Speech2face: Tìm hiểu khuôn mặt đằng sau giọng nói,” trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu, 2019, trang 7539–7548.
[27] L. Chen, S. Srivastava, Z. Duan và C. Xu, “Thế hệ nghe nhìn đa phương thức sâu sắc,” trong Kỷ yếu Hội thảo chuyên đề của ACM Multimedia 2017, 2017, trang 349–357.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui và TL Berg, “Hình ảnh thành âm thanh: Tạo ra âm thanh tự nhiên cho video trong tự nhiên,” trong Kỷ yếu của Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu , 2018, trang 3550–3558.
[29] E. Shlizerman, LM Dery, H. Schoen và I. Kemelmacher-Shlizerman, “Âm thanh đến động lực học cơ thể,” CVPR, Hội nghị của Hiệp hội Máy tính IEEE về Thị giác Máy tính và Nhận dạng Mẫu, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens và J. Malik, “Học các phong cách cử chỉ đàm thoại của từng cá nhân,” trong Kỷ yếu của Hội nghị IEEE về Tầm nhìn Máy tính và Nhận dạng Mẫu, 2019, trang 3497–3506.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo và X. Wang, “Inpainting âm thanh sâu được truyền vào thị giác,” trong Hội nghị quốc tế IEEE về Thị giác máy tính (ICCV), tháng 10 năm 2019.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum và A. Torralba, “Cử chỉ âm nhạc để tách âm thanh hình ảnh,” trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, 2020, trang . 10 478–10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei và YA Sheikh, “Openpose: Ước tính tư thế 2d nhiều người trong thời gian thực bằng cách sử dụng các trường ái lực một phần,” Giao dịch của IEEE về Phân tích Mẫu và Trí thông minh Máy, 2019 .
[34] CSJ Doire và O. Okubadejo, “Học tập đa nhiệm xen kẽ để tách nguồn âm thanh với cơ sở dữ liệu độc lập,” ArXiv, tập. abs/1908.05182, 2019.
[35] F. Yu, V. Koltun và T. Funkhouser, “Mạng dư bị giãn,” trong Thị giác máy tính và Nhận dạng mẫu (CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar và T. Weyde, “Tách giọng hát bằng mạng tích chập U-Net sâu,” trong Hội nghị truy xuất thông tin âm nhạc quốc tế lần thứ 18 , 2017, trang 23–27.
[37] O. Ronneberger, P. Fischer và T. Brox, “U-net: Mạng tích chập để phân đoạn hình ảnh y sinh,” trong Hội nghị quốc tế về điện toán hình ảnh y tế và can thiệp có sự hỗ trợ của máy tính. Springer, 2015, trang 234–241.
[38] G. Liu, J. Si, Y. Hu và S. Li, “Tổng hợp hình ảnh chụp ảnh với mạng u-net cải tiến,” tại Hội nghị quốc tế lần thứ 10 về trí tuệ tính toán nâng cao (ICACI) năm 2018, tháng 3 năm 2018, trang 402 –407.
[39] X. Mao, C. Shen và Y.-B. Yang, “Khôi phục hình ảnh bằng cách sử dụng mạng bộ mã hóa-giải mã tích chập rất sâu với các kết nối bỏ qua đối xứng,” trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2016, trang 2802–2810.
[40] P. Isola, J.-Y. Zhu, T. Zhou và AA Efros, “Dịch từ hình ảnh sang hình ảnh với mạng đối nghịch có điều kiện,” arxiv, 2016.
[41] DP Kingma và J. Ba, “Adam: Một phương pháp tối ưu hóa ngẫu nhiên,” CoRR, tập. cơ bụng/1412.6980, 2014.
[42] “Chương 7 - xử lý miền tần số,” trong Thiết kế hệ thống xử lý tín hiệu số (Ấn bản thứ hai), ấn bản thứ hai ed., N. Kehtarnavaz, Ed. Burlington: Nhà xuất bản Học thuật, 2008, trang 175 – 196.
[43] E. Vincent, R. Gribonval và C. Fevotte, “Đo lường hiệu suất trong việc tách nguồn âm thanh mù,” Giao dịch IEEE về xử lý âm thanh, lời nói và ngôn ngữ, tập. 14, không. 4, trang 1462–1469, 2006.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.