著者:
(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド
(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド
(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド
(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。
本研究では、フレームからの状況、音声からの会話、メタデータ(映画のプロットと説明)など、複数のモダリティを考慮することにより、感情的および認知的レベルを含む映画のジャンル分類問題への新しい全体論的アプローチのアイデアを拡張します。また、この研究を進めるために、アクション、コメディ、ホラー、ロマンス、SFの5つのジャンルから約2000の予告編を含むハリウッド英語映画予告編データセットEMTDを構築しました。セクション5.2で説明したように、さまざまなモデルアーキテクチャを実験し、EMTDと標準LMTD-9 [2]で最終的なフレームワークを検証し、AU(PRC)値がそれぞれ0.92と0.82になりました。私たちの研究の主な目的は、映画のジャンルをその短いクリップ、つまり予告編から分類するための堅牢なフレームワークを構築することです。私たちの研究には英語の音声が特徴として含まれていますが、一部の英語以外の予告編にも適用できます。英語以外の予告編の場合、モデルはビデオの特徴のみを組み込むことができるため、それに基づいてアーキテクチャによって予測を行うことができます。
提案モデルを拡張するために、ボーカルに基づくバックグラウンド オーディオの研究も組み込むことができます。したがって、将来的には、現在のフレームワークに加えて、オーディオのバックグラウンド ボーカルを考慮したフレームワークを構築し、映画の予告編からほとんどの特徴をより適切に抽出して使用することを計画しています。また、マルチラベル分類の研究にさらにいくつかのジャンルを追加する予定です。
[1] A. HanjalicとLQ Xu、「感情的なビデオコンテンツの表現とモデリング」、IEEE Trans. Multimed.、vol. 7、no. 1、2005年。
[2] J. WehrmannとRC Barros、「マルチラベル映画ジャンル分類のための時間による畳み込み」、ACM応用コンピューティングシンポジウム論文集、2017年、第F1280巻、114~119頁。
[3] Z. Rasheed、Y. Sheikh、M. Shah、「映画分類における計算可能な特徴の利用について」、IEEE Trans. Circuits Syst. Video Technol.、vol. 15、no. 1、pp. 52–64、2005年1月。
[4] LH Chen、YC Lai、HY Mark Liao、「背景情報を使用した映画シーンのセグメンテーション」、Pattern Recognit.、vol.41、no.3、2008年。
[5] SK JainとRS Jadon、「ニューラルネットワークを使用した映画ジャンル分類器」、2009年。
[6] L. Canini、S. Benini、R. Leonardi、「選択された含意特徴に基づく映画の感情的推薦」、IEEE Trans. Circuits Syst. Video Technol.、vol. 23、no. 4、2013年。
[7] M. Xu、C. Xu、X. He、JS Jin、S. Luo、Y. Rui、「覚醒と価値の次元における階層的感情内容分析」、Signal Processing、vol.93、no.8、2013年。
[8] A. YadavとDK Vishwakarma、「映画予告編を使用したジャンル分類のためのディープネットワークの統一フレームワーク」、Appl. Soft Comput. J.、vol. 96、2020年。
[9] K. Choroś、「時間的に集約されたビデオショットの長さ分析に基づくビデオジャンル分類」、Lecture Notes in Computer Science(サブシリーズLecture Notes in Artificial IntelligenceおよびLecture Notes in Bioinformaticsを含む)、2018年、vol. 11056 LNAI、pp. 509-518。
[10] AM ErtugrulとP. Karagoz、「双方向LSTMを使用したプロット概要からの映画ジャンル分類」、Proceedings - 12th IEEE International Conference on Semantic Computing、ICSC 2018、2018年1月、vol. 2018。
[11] G. Païs、P. Lambert、D. Beauchêne、F. Deloule、B. Ionescu、「テキストと画像記述子のシンボリック融合を使用したアニメーション映画のジャンル検出」、2012年。
[12] A. ShahinとA. Krzyżak、「Genre-ous:映画のジャンル検出器」、Communications in Computer and Information Science、2020年、vol. 1178 CCIS。
[13] N. Kumar、A. Harikrishnan、R. Sridhar、「ハッシュベクトル化ベースの映画ジャンル識別」、Lecture Notes in Electrical Engineering、2020年、605巻。
[14] PG Shambharkar、P. Thakur、S. Imadoddin、S. Chauhan、MN Doja、「3D畳み込みニューラルネットワークを使用した映画予告編のジャンル分類」、2020年。
[15] WT ChuとHJ Guo、「ディープニューラルネットワークによるポスター画像に基づく映画ジャンル分類」、2017年。
[16] GS Simões、J. Wehrmann、RC Barros、DD Ruiz、「畳み込みニューラルネットワークによる映画のジャンル分類」、国際ニューラルネットワーク合同会議論文集、2016年10月巻。
[17] J. Li、L. Deng、R. Haeb-Umbach、Y. Gong、「第2章 音声認識の基礎」、Robust Automatic Speech Recognition、J. Li、L. Deng、R. HaebUmbach、Y. Gong編、オックスフォード:アカデミックプレス、2016年、9~40頁。
[18] S. Pratt、M. Yatskar、L. Weihs、A. Farhadi、A. Kembhavi、「Grounded Situation Recognition」、Computer Vision -- ECCV 2020、2020年、314-332頁。
[19] B. Beel、Joeran、Langer、Stefan、Gipp、「TF-IDuF:ユーザーの個人文書コレクションに基づくユーザーモデリングのための新しい用語重み付けスキーム」、Proc. iConference 2017、2017年。
[20] J. Wehrmann、RC Barros、GS Simoes、TS Paula、DD Ruiz、「(Deep) Learning from Frames」、2017年。
[21] DP KingmaとJL Ba、「Adam:確率的最適化の方法」、2015年。
[22] E. Fish、A. Gilbert、J. Weinbren、「細粒度セマンティッククラスタリングによる映画ジャンル分類の再考」arXiv Prepr. arXiv2012.02639、2020年。
[23] F. Álvarez、F. Sánchez、G. Hernández-Peñaloza、D. Jiménez、JM Menéndez、およびG. Cisneros、「映画分類における低レベル視覚特徴の影響について」、PLoS One、vol. 14、いいえ。 2019年2月2日。
[24] J. Wehrmann、MA Lopes、RC Barros、「概要ベースのマルチラベル映画ジャンル分類のための自己注意」、2018年。
[25] J. WehrmannとRC Barros、「映画のジャンル分類:時間の経過による畳み込みに基づくマルチラベルアプローチ」、Appl. Soft Comput. J.、vol. 61、2017年。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。