著者:
(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド
(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド
(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド
(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。
このセクションでは、映画のジャンル分類の過去の方法論と、私たちの研究の背後にある動機について説明します。ビデオコンテンツは、主に(1)ビデオフレーム(画像)と(2)オーディオ(音声(セリフ)+非音声(ボーカル))に分割されます。ビデオコンテンツを分析するために、過去にはさまざまな研究が行われており、主に認知レベル[3]-[7]または感情レベル[8]に個別に焦点を当てています。より効果的な研究のためには、ジャンル分類タスクでより良いパフォーマンスを発揮するために、両方のレベルを考慮する必要があります。
過去の研究では、シーンの構成要素を捉えるために、視覚障害、平均ショット長、ビデオフレーム内の光強度の段階的な変化、オーディオ波形のピーク[3]などの低レベルの特徴に基づく認知ベースのアプローチが数多く提案されてきた[4]。認知分類に使用されるその他の特徴には、フレーム内のRGBカラー[6]、フィルムショット[7]、ショット長[9]、シーンの背景の種類(暗い/暗くない)[6]などがあります。同様に、感情分析のみを対象としたアプローチもいくつか提案されています[8]。
映画には複数のジャンルがあり、視聴者に多くの情報を伝えることができるため、視聴者に映画を推薦するタスクとしても機能します。Jain et al. [5] は、4 つのビデオ機能 (ショットの長さ、動き、色の優位性、照明のキー) と 5 つのオーディオ機能を使用して、わずか 200 のトレーニング サンプルで映画クリップを分類しました。彼らは完全な映画クリップを使用してジャンルを予測しました。ただし、この研究では、モデルのトレーニングに 200 のトレーニング サンプルのみを使用しています。したがって、彼らが報告した精度は、過剰適合によるものである可能性があります。また、この研究では、単一ラベル分類のみに焦点を当てていました。Huang et al. [4] は、223 サイズのデータセットでオーディオとビジュアルの両方の特徴 (合計で約 277 の特徴) を使用する 7 つのスタックされた SVM を備えた Self Adaptive Harmony Search アルゴリズムを提案しました。Ertugrul et al. [10] は、映画のプロットを含む低レベルの特徴を使用するために、プロットを文に分割し、文をジャンルに分類して、最終的なジャンルを最大出現頻度のジャンルとしました。 [11]は、全体的な概要からいくつかの重要な単語に頼って画像とテキストの特徴を融合し、それらの特徴に基づいて映画のジャンル分類を行うことを提案した。このモデルは、107本の映画予告編のセットでテストされた。Shahinら[12]は、映画のあらすじと引用を使用し、ジャンルを分類するための階層的注意ネットワークを提案した。同様に、Kumarら[13]は、全体的な時間計算量を減らすことに焦点を当て、ハッシュベクトル化を使用して映画のあらすじを使用してジャンルを分類することを提案した。上記の研究は低レベルの特徴に依存しており、映画予告編から高レベルの特徴をキャプチャしていないため、優れたレベルの認識システムに頼ることはできない。
最近の研究では、多くの研究者が映画のジャンル分類タスクにディープネットワークを使用しています。Shambharkarら[14]は、空間的および時間的特徴を捉えるための単一ラベルの3D CNNベースのアーキテクチャを提案しました。これにより空間的および時間的特徴が捉えられますが、単一ラベル分類のためモデルは堅牢ではありません。一部の研究者は映画のポスターを使用して映画のジャンルを分類しています。Chuら[15]は、物体検出と視覚的外観を容易にするディープニューラルネットワークを策定しました。この研究ではポスターから多くの情報が捉えられましたが、ポスター自体だけでは映画を完全に説明するには不十分です。Simoesら[16]は、教師なしクラスタリングアルゴリズムによって提供されるシーンヒストグラム、各予告編の加重ジャンル予測、およびいくつかの低レベルのビデオ特徴を含むCNN-Motionを提案しました。これは、ビデオから主要な特徴グループを提供しましたが、ジャンルを分類するための感情的および認知ベースの特徴がいくつか欠けていました。
したがって、過去の文献から、認知研究と感情研究の両方において、主要な情報はビデオ予告編から抽出する必要があることは明らかです。したがって、この研究の背後にある私たちの動機は、[1]のように、ビデオコンテンツ分析の両方のレベルに依存するアプローチを考案することです。提案されたアーキテクチャとモデルは斬新で堅牢であり、将来さまざまな研究の観点で使用できると考えています。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。