paint-brush
状況と対話に基づくディープネットワークのマルチレベルプロファイリング: 概要と概要@kinetograph
115 測定値

状況と対話に基づくディープネットワークのマルチレベルプロファイリング: 概要と概要

長すぎる; 読むには

この論文では、研究者らは、状況、会話、メタデータの特徴を活用した映画のジャンル分類のためのマルチモダリティ フレームワークを提案しています。
featured image - 状況と対話に基づくディープネットワークのマルチレベルプロファイリング: 概要と概要
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

著者:

(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド

(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド

(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド

(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。

リンク一覧

抽象的な

映画のジャンルの自動分類は、活発かつ不可欠な研究および調査分野として浮上しています。ビデオコンテンツは認知レベルと感情レベルの機能で構成されているため、短時間の映画予告編は映画に関する有用な洞察を提供します。以前のアプローチは、認知または感情コンテンツ分析のいずれかに焦点を当てていました。この論文では、認知と感情ベースの機能の両方を考慮した、新しいマルチモダリティ、つまり状況、ダイアログ、メタデータベースの映画ジャンル分類フレームワークを提案します。事前機能融合ベースのフレームワークでは、次の点を考慮します。対応するジャンルとの有用な感情ベースのマッピングを提供する名詞と動詞を含む予告編の通常のスナップショットからの状況ベースの機能、オーディオからのダイアログ(音声)ベースの機能、認知および感情ベースのビデオ分析に関連する情報を提供するメタデータ。また、アクション、ロマンス、コメディ、ホラー、サイエンスフィクションの5つの人気ジャンルに属する2000本のハリウッド映画予告編を含む英語映画予告編データセット(EMTD)を開発し、提案されたフレームワークを検証するために標準LMTD-9データセットでクロス検証を実行します。結果は、F1 スコア、精度、再現率、および精度再現率曲線の下の領域で示されるように、映画のジャンル分類に提案された方法論が優れたパフォーマンスを発揮したことを示しています。


キーワード: 映画ジャンル分類、畳み込みニューラル ネットワーク、英語映画予告編データセット、マルチモーダル データ分析。

1. はじめに

映画は観客にとって素晴らしい娯楽の源であり、さまざまな形で社会に影響を与えています。映画のジャンルを手動で特定することは、個人の好みによって異なる場合があります。そのため、映画のジャンルの自動予測は、研究と調査が活発に行われている分野です。映画の予告編は、映画のジャンルを予測するための有用な情報源になりつつあります。予告編は、非常に短い時間で映画に関する有用な洞察を提供します。映画の予告編は、認知コンテンツと感情コンテンツという 2 種類のコンテンツで構成されています。


認知コンテンツは、映画予告編の特定のビデオフレーム内のイベント、オブジェクト、人物の構成を説明するものであり、情緒コンテンツは、映画予告編内の感情や情緒などの心理的特徴の種類を説明するものです [1]。認知コンテンツの例としては、遊び場、建物、男性、犬などが挙げられます。情緒コンテンツの例としては、幸福、悲しみ、怒りなどの感情/情緒が挙げられます。認知コンテンツと情緒ベースのコンテンツはどちらも、映画のジャンルを予測するための重要な特徴を提供します。


本稿では、映画予告編のビデオ、オーディオ、メタデータ(プロット/説明)コンテンツを使用して映画のジャンルを予測することを目的とした、新しいマルチモダリティ状況、対話、メタデータベースの映画ジャンル分類フレームワークを提案します。私たちの新しいフレームワークは、映画予告編から認知的特徴と情緒的特徴の両方を抽出することに重点を置いています。これを実現するために、関連する名詞と動詞で構成された文(状況から生成)がビデオフレームから抽出されます。名詞は予告編の認知コンテンツに関する関連情報を提供し、動詞は対応するジャンルとの有用な情緒ベースのマッピングを提供します。たとえば、笑う、くすくす笑う、くすぐるなどの動詞は、「コメディ」ジャンルとの情緒ベースのマッピングを提供します。攻撃する、殴る、打つなどの動詞は、「アクション」ジャンルとの情緒ベースのマッピングを提供します。状況に加えて、対話とメタデータベースの特徴は、イベントの説明(認知コンテンツ)と心理的特徴(情緒コンテンツ)を含むため、認知コンテンツと情緒コンテンツにさらに貢献します。


標準的な機械学習プロセスと同様に、この作業は複数のフェーズで実行されます。第 1 フェーズはデータセット生成フェーズで、アクション、ロマンス、コメディ、ホラー、SF の 5 つの人気ジャンルに属する 2000 本のハリウッド映画予告編を含む EMTD を生成します。第 2 フェーズでは、ビデオ予告編の前処理が行われ、すべての繰り返しフレームが削除され、サイズが変更されます。重要な名詞と動詞を含む文章は、有用なフレームから抽出されます。また、映画予告編の音声トランスクリプトを準備して、予告編から会話を取得します。第 3 フェーズでは、予告編から重要な特徴を抽出して学習する、提案されたアーキテクチャを設計およびトレーニングします。最後に、第 4 フェーズでは、提案されたアーキテクチャのパフォーマンスが、PrecisionRecall Curve (AU (PRC)) メトリックの下の領域を使用して評価されます。以下は、私たちの作業の重要な貢献です。


  • 私たちは、アクション、ロマンス、コメディ、ホラー、SF という 5 つの人気があり異なるジャンルに属する英語のハリウッド映画の予告編を含む新しい EMTD (英語映画予告編データセット) を提案します。


  • この研究では、認知的および感情ベースの特徴を使用して映画のジャンルを予測する新しいアプローチを提案します。これまでの文献では、私たちの知る限り、映画の予告編から抽出された会話、状況、メタデータベースの特徴の組み合わせに焦点を当てたものはありませんでした。そのため、名詞と動詞を使用した状況ベースの分析、音声認識を使用した会話ベースの分析、予告編で利用可能なメタデータを使用したメタデータベースの分析を実行します。


  • 提案されたアーキテクチャは、標準のLMTD-9 [2]データセットでクロスデータセットテストを実行して評価されました。結果は、提案されたアーキテクチャが優れたパフォーマンスを発揮し、フレームワークの優れたパフォーマンスを実証していることを示しています。


論文の残りの部分は、次のように構成されています。セクション 2 では、映画のジャンル分類に関する過去の文献をレビューし、提案された作業の背後にある動機について説明します。セクション 3 では、提案された EMTD について説明します。セクション 4 では、提案されたアーキテクチャについて詳しく説明します。セクション 5 では、提案されたフレームワークのパフォーマンスを評価し、2 つの異なるデータセットに対して検証します。セクション 6 で論文を締めくくります。


この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています