Авторы:
(1) Динеш Кумар Вишвакарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия;
(2) Маянк Джиндал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(3) Аюш Миттал, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия
(4) Адитья Шарма, Лаборатория биометрических исследований, факультет информационных технологий, Делийский технологический университет, Дели, Индия.
В этом разделе обсуждаются прежние методологии классификации жанров фильмов и мотивы нашего исследования. Видеоконтент в основном разделен на (1) видеокадры (изображения) и (2) аудио (речь {диалоги} + неречевые {вокал}). Для анализа видеоконтента в прошлом проводились различные исследования, в которых основное внимание уделялось когнитивному [3]–[7] или аффективному [8] уровням индивидуально. Для более эффективного исследования необходимо учитывать оба уровня, чтобы лучше справиться с задачей классификации жанров.
В прошлых исследованиях для захвата компонентов сцены было предложено множество подходов, основанных на когнитивных способностях, основанных на характеристиках низкого уровня, включая зрительные помехи, среднюю длину кадра, постепенное изменение интенсивности света в видеокадрах и пики формы звуковых сигналов [3]. [4]. Другие признаки, используемые для когнитивной классификации, включают цвета RGB в кадрах [6], кадры фильма [7], длину кадра [9], тип фона в сценах (темный/нетемный) [6] и т. д. Аналогичным образом, некоторые подходы предложено использовать только аффективный анализ [8].
Фильм может иметь несколько жанров, предоставляя зрителям много информации, что также служит задачей рекомендовать фильм зрителю. Джайн и др. [5] использовали 4 видеофункции (длина кадра, движение, доминирование цвета, ключ освещения) и 5 аудиофункций для классификации видеороликов, используя всего 200 обучающих выборок. Они использовали полные видеоролики, чтобы предсказать жанры. Однако в исследовании для обучения модели используется только 200 обучающих выборок. Соответственно, точность, о которой они сообщают, может быть связана с переобучением. Кроме того, исследование было сосредоточено только на классификации по одному признаку. Хуанг и др. [4] предложили алгоритм самоадаптивного поиска гармонии с 7 сложенными SVM, который использовал как аудио, так и визуальные функции (всего около 277 функций) в наборе данных размером 223. Эртугрул и др. [10] использовали функции низкого уровня, в том числе сюжет фильмов, разбивая сюжет на предложения, классифицируя предложения по жанрам и принимая окончательный жанр за тот, который встречается чаще всего. Паис и др. [11] предложили объединить характеристики изображения и текста, опираясь на некоторые важные слова из общего синопсиса, и провели классификацию жанров фильмов на основе этих признаков. Модель тестировалась на наборе из 107 трейлеров к фильмам. Шахин и др. [12] использовали сюжеты и цитаты из фильмов и предложили иерархические сети внимания для классификации жанров. Аналогичным образом, Кумар и др. [13] предложили использовать сюжеты фильмов для классификации жанров с использованием хэш-векторизации, уделяя особое внимание снижению общей временной сложности. Вышеупомянутые исследования основаны на функциях низкого уровня и не фиксируют какие-либо функции высокого уровня из трейлеров к фильмам, поэтому на них нельзя полагаться при создании хорошей системы распознавания уровня.
Согласно более поздним исследованиям, многие исследователи использовали глубокие сети для задач классификации жанров фильмов. Шамбхаркар и др. [14] предложили архитектуру на основе 3D CNN с одной меткой для учета пространственных и временных характеристик. Хотя в этом учитываются пространственные и временные характеристики, модель не является надежной из-за классификации по одной метке. Некоторые исследователи работали над киноплакатами, чтобы классифицировать жанры фильмов. Чу и др. [15] сформулировали глубокую нейронную сеть для облегчения обнаружения объектов и их внешнего вида. Хотя работа собрала много информации с плакатов, самого постера недостаточно, чтобы полностью описать фильм. Симоес и др. [16] предложили CNN-Motion, который включал гистограммы сцен, предоставляемые алгоритмом неконтролируемой кластеризации, взвешенные прогнозы жанра для каждого трейлера, а также некоторые низкоуровневые видеофункции. Это обеспечило основную группу характеристик видео, но не имело некоторых аффективных и когнитивных функций для классификации жанра.
Таким образом, из предыдущей литературы становится очевидным, что основную информацию следует извлекать из видеотрейлеров как для когнитивных, так и для аффективных исследований. Итак, наша мотивация в работе — разработать подход, основанный на обоих уровнях анализа видеоконтента, как в [1]. Мы считаем, что предлагаемая архитектура и модель являются новыми и надежными и могут быть использованы в будущем для различных исследовательских целей.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.