作者:
(1)Juan F. Montesinos,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};
(2)Olga Slizovskaia,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};
(3)Gloria Haro,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]}。
我们推出了 Solos,这是一个新的独奏者音乐录音视听数据集,适用于不同的自监督学习任务,例如使用混合和分离策略进行源分离、声音定位、跨模态生成和寻找视听对应关系。数据集中有 13 种不同的乐器;这些是室内乐团中的常见乐器,也是罗彻斯特大学多模态音乐表演 (URMP) 数据集 [1] 中包含的乐器。URMP 的特点是包含真实表演的小型数据集,具有真实个体词干,使其成为适合测试目的的数据集,但据我们所知,迄今为止,尚无现有的具有与 URMP 中相同乐器的大规模数据集。基于 U-Net 架构的两种不同的视听源分离网络已在新数据集中进行了训练,并在 URMP 中进行了进一步评估,显示了对与测试集相同的乐器集进行训练的影响。此外,Solos 为手部足够清晰的视频间隔提供了骨架和时间戳。这些信息对于训练目的以及学习解决声音定位任务很有用。
[1] B. Li、X. Liu、K. Dinesh、Z. Duan 和 G. Sharma,“创建用于多模态音乐分析的多轨古典音乐表演数据集:挑战、见解和应用”,IEEE 多媒体学报,第 21 卷,第 2 期,第 522-535 页,2019 年 2 月。
[2] B. Li、K. Dinesh、Z. Duan 和 G. Sharma,“看和听:室内乐表演视频中音轨与演奏者的乐谱关联”,2017 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)。IEEE,2017 年,第 2906-2910 页。
[3] EC Cherry,“用一只耳朵和两只耳朵进行语音识别的一些实验”,《美国声学学会杂志》,第 25 卷,第 5 期,第 975-979 页,1953 年。
[4] A. Hyvarinen 和 E. Oja,“独立成分分析:算法和应用”,神经网络,第 13 卷,第 4-5 期,第 411-430 页,2000 年。
[5] M. Zibulevsky 和 BA Pearlmutter,“通过信号字典中的稀疏分解实现盲源分离”,神经计算,第 13 卷,第 4 期,第 863-882 页,2001 年。
[6] T. Virtanen,“通过时间连续性和稀疏性准则的非负矩阵分解实现单声道声源分离”,IEEE 音频、语音和语言处理学报,第 15 卷,第 3 期,第 1066-1074 页,2007 年。
[7] DPW Ellis,“预测驱动的计算听觉场景分析”,博士论文,麻省理工学院,1996 年。
[8] P. Smaragdis、B. Raj 和 M. Shashanka,“声学建模的概率隐变量模型”,声学处理模型进展,NIPS,第 148 卷,第 8-1 页,2006 年。
[9] P. Chandna、M. Miron、J. Janer 和 E. Gomez,“使用深度卷积神经网络进行单声道音频源分离”,国际隐变量分析与信号分离会议,2017 年,第 258-266 页。
[10] D. Stoller、S. Ewert 和 S. Dixon,“Wave-u-net:用于端到端音频源分离的多尺度神经网络”,arXiv 预印本 arXiv:1806.03185,2018 年。
[11] JR Hershey 和 JR Movellan,“听觉视觉:利用视听同步来定位声音”,神经信息处理系统进展,2000 年,第 813-819 页。
[12] E. Kidron、YY Schechner 和 M. Elad,《发出声音的像素》,《计算机视觉与模式识别》,2005 年。CVPR 2005。IEEE 计算机学会会议,第 1 卷,2005 年,第 88-95 页。
[13] T. Darrell、JW Fisher 和 P. Viola,“视听分割和鸡尾酒会效应”,载于《多模式界面进展》(ICMI 2000),2000 年,第 32-40 页。
[14] D. Sodoyer、J.-L. Schwartz、L. Girin、J. Klinkisch 和 C. Jutten,“视听语音源分离:一种利用语音刺激的视听连贯性的新方法”,EURASIP《信号处理进展杂志》,2002 年第 11 期,第 382-823 页,2002 年。
[15] B. Rivet、L. Girin 和 C. Jutten,“混合视听语音处理和盲源分离以从卷积混合中提取语音信号”,IEEE 音频、语音和语言处理学报,第 15 卷,第 1 期,第 96-108 页,2007 年。
[16] B. Li、C. Xu 和 Z. Duan,“通过多模态颤音分析实现弦乐合奏的视听源关联”,《声音与音乐计算》(SMC)期刊,2017 年。
[17] S. Parekh、S. Essid、A. Ozerov、NQ Duong、P. Perez 和 G. Richard,“通过视频对象信息指导音频源分离”,载于《信号处理在音频和声学中的应用》(WASPAA),2017 年 IEEE 研讨会,2017 年,第 61-65 页。
[18] R.Gao 和 K.Grauman,“视觉对象的声音共分离”,IEEE 国际计算机视觉会议论文集,2019 年,第 3879-3888 页。
[19] H. Zhao、C. Gan、W.-C. Ma 和 A. Torralba,《运动的声音》,载于《IEEE 国际计算机视觉会议论文集》,2019 年,第 1735-1744 页。
[20] X. Xu、B. Dai 和 D. Lin,“使用减加网络的递归视觉声音分离”,IEEE 国际计算机视觉会议论文集,2019 年,第 882-891 页。
[21] B. Li、K. Dinesh、C. Xu、G. Sharma 和 Z. Duan,“室内乐表演的在线视听源关联”,《国际音乐信息检索学会会刊》,第 2 卷,第 1 期,2019 年。
[22] R. Arandjelovic 和 A. Zisserman,“发声的物体”,载于《IEEE 欧洲计算机视觉会议论文集》,2018 年。
[23] H. Zhao、C. Gan、A. Rouditchenko、C. Vondrick、J. McDermott 和 A. Torralba,《像素的声音》,欧洲计算机视觉会议(ECCV),2018 年 9 月。
[24] A. Owens 和 AA Efros,“具有自监督多感官特征的视听场景分析”,arXiv 预印本 arXiv:1804.03641,2018 年。
[25] B. Korbar、D. Tran 和 L. Torresani,“从自监督同步中实现音频和视频模型的协同学习”,《神经信息处理系统进展》,2018 年,第 7763-7774 页。
[26] T.-H. Oh、T. Dekel、C. Kim、I. Mosseri、WT Freeman、M. Rubinstein 和 W. Matusik,《Speech2face:了解声音背后的面部特征》,载于《IEEE 计算机视觉与模式识别会议论文集》,2019 年,第 7539-7548 页。
[27] L. Chen、S. Srivastava、Z. Duan 和 C. Xu,“深度跨模态视听生成”,ACM 多媒体 2017 专题研讨会论文集,2017 年,第 349-357 页。
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui 和 TL Berg,“视觉到声音:为野外视频生成自然声音”,IEEE 计算机视觉与模式识别会议论文集,2018 年,第 3550-3558 页。
[29] E. Shlizerman、LM Dery、H. Schoen 和 I. Kemelmacher-Shlizerman,《音频到身体动态》,CVPR、IEEE 计算机学会计算机视觉与模式识别会议,2017 年。
[30] S. Ginosar、A. Bar、G. Kohavi、C. Chan、A. Owens 和 J. Malik,《学习个人对话手势风格》,载于《IEEE 计算机视觉与模式识别会议论文集》,2019 年,第 3497-3506 页。
[31] H. Zhou, Z. Liu, X. Xu, P. Luo 和 X. Wang,《融合视觉的深度音频修复》,IEEE 国际计算机视觉会议(ICCV),2019 年 10 月。
[32] C. Gan、D. Huang、H. Zhao、JB Tenenbaum 和 A. Torralba,“用于视觉声音分离的音乐手势”,载于 IEEE/CVF 计算机视觉与模式识别会议论文集,2020 年,第 10 478-10 487 页。
[33] Z. Cao、G. Hidalgo Martinez、T. Simon、S. Wei 和 YA Sheikh,“Openpose:使用部位亲和力场进行实时多人二维姿态估计”,IEEE 模式分析与机器智能学报,2019 年。
[34] CSJ Doire 和 O. Okubadejo,“使用独立数据库进行音频源分离的交叉多任务学习”,ArXiv,vol. abs/1908.05182,2019 年。
[35] F. Yu、V. Koltun 和 T. Funkhouser,《扩张残差网络》,载于《计算机视觉与模式识别》(CVPR),2017 年。
[36] A. Jansson、E. Humphrey、N. Montecchio、R. Bittner、A. Kumar 和 T. Weyde,《使用深度 U-Net 卷积网络实现歌唱声音分离》,第 18 届国际音乐信息检索学会会议,2017 年,第 23-27 页。
[37] O. Ronneberger、P. Fischer 和 T. Brox,《U-net:用于生物医学图像分割的卷积网络》,载于《国际医学图像计算与计算机辅助干预会议》。Springer,2015 年,第 234-241 页。
[38] G. Liu、J. Si、Y. Hu 和 S. Li,“使用改进的 u-net 进行摄影图像合成”,2018 年第十届高级计算智能国际会议(ICACI),2018 年 3 月,第 402-407 页。
[39] X. Mao、C. Shen 和 Y.-B. Yang,“使用具有对称跳过连接的超深卷积编码器-解码器网络进行图像恢复”,神经信息处理系统进展,2016 年,第 2802-2810 页。
[40] P. Isola、J.-Y. Zhu、T. Zhou 和 AA Efros,“使用条件对抗网络进行图像到图像翻译”,arxiv,2016 年。
[41] DP Kingma 和 J. Ba,“Adam:一种随机优化方法”,CoRR,vol. abs/1412.6980,2014 年。
[42]“第 7 章 - 频域处理”,《数字信号处理系统设计(第二版)》,第二版,N. Kehtarnavaz 编。伯灵顿:Academic Press,2008 年,第 175-196 页。
[43] E. Vincent、R. Gribonval 和 C. Fevotte,“盲音频源分离中的性能测量”,IEEE 音频、语音和语言处理学报,第 14 卷,第 4 期,第 1462-1469 页,2006 年。