paint-brush
基于情境和对话的深度网络的多层次剖析:结论和参考文献经过@kinetograph

基于情境和对话的深度网络的多层次剖析:结论和参考文献

太長; 讀書

在本文中,研究人员提出了一种利用情境、对话和元数据特征进行电影类型分类的多模态框架。
featured image - 基于情境和对话的深度网络的多层次剖析:结论和参考文献
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;

(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室

(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室

(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室

链接表

六,结论

这项研究扩展了一种新颖的整体方法,该方法涉及电影类型分类问题,包括情感和认知层面,通过考虑多种模态,包括来自框架的情况、来自语音的对话和元数据(电影情节和描述)。我们还建立了一个好莱坞英语电影预告片数据集 EMTD,其中包括来自 5 个类型的约 2000 部预告片,即动作片、喜剧片、恐怖片、爱情片、科幻片,以进行这项研究。我们尝试了第 5.2 节中讨论的各种模型架构,并在 EMTD 和标准 LMTD-9 [2] 上验证了我们的最终框架,分别实现了 0.92 和 0.82 的 AU(PRC)值。我们研究的主要目的是建立一个强大的框架,从短片(即预告片)中对电影类型进行分类。虽然我们的研究包括英语语音作为一个特征,但它也可以应用于一些非英语预告片。对于非英语预告片,我们的模型可以只包含视频特征,因此在此基础上,我们的架构可以进行预测。


为了扩展我们提出的模型,还可以结合基于人声的背景音频研究。因此,未来我们计划在现有框架的基础上构建一个考虑音频中背景人声的框架,以便更好地提取和使用电影预告片中的大多数特征。我们还计划在我们的多标签分类研究中增加更多类型。

7. 参考文献

[1] A. Hanjalic 和 LQ Xu,“情感视频内容表示和建模”,IEEE Trans. Multimed.,第 7 卷,第 1 期,2005 年。


[2] J. Wehrmann 和 RC Barros,“通过时间卷积实现多标签电影类型分类”,载于 ACM 应用计算研讨会论文集,2017 年,第 F1280 卷,第 114-119 页。


[3] Z. Rasheed、Y. Sheikh 和 M. Shah,“论可计算特征在电影分类中的应用”,IEEE 电路系统视频技术汇刊,第 15 卷,第 1 期,第 52-64 页,2005 年 1 月。


[4] LH Chen、YC Lai 和 HY Mark Liao,《利用背景信息进行电影场景分割》,《模式识别》,第 41 卷,第 3 期,2008 年。


[5] SK Jain 和 RS Jadon,“使用神经网络的电影类型分类器”,2009 年。


[6] L. Canini、S. Benini 和 R. Leonardi,“基于选定内涵特征的电影情感推荐”,IEEE 电路系统视频技术汇刊,第 23 卷,第 4 期,2013 年。


[7] 徐梅,徐晨,何晓燕,金建军,罗胜,芮毅,“唤醒度和效价维度的层次情感内容分析”,信号处理,2013年第93卷第8期。


[8] A. Yadav 和 DK Vishwakarma,“使用电影预告片进行类型分类的深度网络统一框架”,Appl. Soft Comput. J.,第 96 卷,2020 年。


[9] K. Choroś,“基于时间聚合视频镜头长度分析的视频类型分类”,《计算机科学讲义》(包括子系列《人工智能讲义》和《生物信息学讲义》),2018 年,第 11056 卷 LNAI,第 509-518 页。


[10] AM Ertugrul 和 P. Karagoz,“使用双向 LSTM 根据情节摘要进行电影类型分类”,载于第 12 届 IEEE 国际语义计算会议论文集,ICSC 2018,2018 年,卷 2018 年 1 月。


[11] G. Païs、P. Lambert、D. Beauchêne、F. Deloule 和 B. Ionescu,“使用文本和图像描述符的符号融合进行动画电影类型检测”,2012 年。


[12] A. Shahin 和 A. Krzyżak,《Genre-ous:电影类型检测器》,载于《计算机与信息科学通讯》,2020 年,第 1178 卷 CCIS。


[13] N. Kumar、A. Harikrishnan 和 R. Sridhar,《基于哈希矢量化的电影类型识别》,《电气工程讲稿》,2020 年,第 605 卷。


[14] PG Shambharkar、P. Thakur、S. Imadoddin、S. Chauhan 和 MN Doja,“使用 3D 卷积神经网络对电影预告片进行类型分类”,2020 年。


[15] WT Chu 和 HJ Guo,“基于深度神经网络的海报图像电影类型分类”,2017 年。


[16] GS Simões、J. Wehrmann、RC Barros 和 DD Ruiz,“使用卷积神经网络进行电影类型分类”,载于《国际神经网络联合会议论文集》,2016 年卷,2016 年 10 月。


[17] J. Li、L. Deng、R. Haeb-Umbach 和 Y. Gong,“第 2 章 - 语音识别基础知识”,载于《鲁棒自动语音识别》,J. Li、L. Deng、R. HaebUmbach 和 Y. Gong 编。牛津:Academic Press,2016 年,第 9-40 页。


[18] S. Pratt、M. Yatskar、L. Weihs、A. Farhadi 和 A. Kembhavi,《Grounded Situation Recognition》,载于《计算机视觉 -- ECCV 2020》,2020 年,第 314-332 页。


[19] B. Beel、Joeran 以及 Langer、Stefan 和 Gipp,“TF-IDuF:一种基于用户个人文档集的用户建模新型术语加权方案”,Proc. iConference 2017,2017 年。


[20] J. Wehrmann、RC Barros、GS Simoes、TS Paula 和 DD Ruiz,“(深度)从框架学习”,2017 年。


[21] DP Kingma 和 JL Ba,“Adam:一种随机优化方法”,2015 年。


[22] E. Fish、A. Gilbert 和 J. Weinbren,“通过细粒度语义聚类重新思考电影类型分类”,arXiv Prepr。arXiv2012.02639,2020 年。


[23] F. Álvarez、F. Sánchez、G. Hernández-Peñaloza、D. Jiménez、JM Menéndez 和 G. Cisneros,“论低级视觉特征对电影分类的影响”,PLoS One,卷。 14,没有。 2,2019。


[24] J. Wehrmann、MA Lopes 和 RC Barros,“基于概要的多标签电影类型分类的自注意力”,2018 年。


[25] J. Wehrmann 和 RC Barros,“电影类型分类:基于时间卷积的多标签方法”,Appl. Soft Comput. J.,第 61 卷,2017 年。