Авторы:
(1) Правин Тирупаттур, Университет Центральной Флориды.
Объем мультимедийного контента, загружаемого на веб-сайты социальных сетей, и легкость доступа к нему для детей создают проблему для родителей, которые хотят защитить своих детей от воздействия контента для взрослых и насилия в Интернете. Число загрузок видео на такие сайты, как YouTube и Facebook, растет. За последний год количество видеопостов на Facebook (Blog-FB [3]) выросло на 75%, а на YouTube ежедневно загружается более 120 000 видеороликов (Wesch [56], Gill et al. [ 26]). По оценкам, 20% видео, загруженных на эти веб-сайты, содержат контент, содержащий насилие или материалы для взрослых (Спаркс [54]). Это позволяет детям легко получить доступ к этому небезопасному содержимому или случайно столкнуться с ним. Влияние просмотра контента с насилием на детей хорошо изучено в психологии (Томпкинс [55], Спаркс [54], Бушман и Хьюсманн [6], а также Хьюсманн и Тейлор [32]), и результаты этих исследований показывают, что просмотр жестоких фильмов Содержание оказывает существенное влияние на эмоции детей. Основными последствиями являются увеличение вероятности агрессивного или испуганного поведения и снижение чувствительности к боли и страданиям других. Хьюсманн и Эрон [31] провели исследование с участием детей начальной школы, которые много часов смотрели насилие по телевидению. Наблюдая за этими детьми во взрослом возрасте, они обнаружили, что те, кто много смотрел по телевидению сцены насилия, когда им было 8 лет, с большей вероятностью были арестованы и привлечены к ответственности за преступные деяния во взрослом возрасте. Подобные исследования Flood [25] и Mitchell et al. [40] предполагают, что просмотр контента для взрослых также оказывает пагубное воздействие на детей. Это мотивировало исследования в области автоматического обнаружения содержания насилия и контента для взрослых в видеороликах.
Обнаружение контента для взрослых (Чан и др. [8], Шульце и др. [52], Погребняк и др. [47]) хорошо изучено, и достигнут значительный прогресс. С другой стороны, обнаружение насилия изучено меньше и вызвало интерес лишь в недавнем прошлом. В прошлом было предложено несколько подходов к обнаружению насилия, и каждый из этих подходов пытался обнаружить насилие, используя различные визуальные и слуховые характеристики. Например, Нам и др. [41] объединили несколько аудиовизуальных функций для выявления сцен насилия. В их работе пламя и кровь обнаруживались с использованием заранее определенных таблиц цветов, а также использовались различные репрезентативные звуковые эффекты (выстрелы, взрывы и т. д.). Датта и др. [14] предложили подход, основанный на ускоренном векторе движения, для обнаружения человеческого насилия, такого как кулачный бой, удары ногами и т. д. Cheng et al. [11] представили иерархический подход к обнаружению сцен перестрелок и автомобильных гонок посредством обнаружения типичных звуковых событий (например, выстрелов, взрывов и торможения автомобилей).
Дополнительные подходы, предложенные для обнаружения насилия, обсуждаются в главе 2. Все эти подходы ориентированы в основном только на обнаружение насилия в голливудских фильмах, а не в видеороликах из видеохостинга и на веб-сайтах социальных сетей, таких как YouTube или Facebook. Обнаружить насилие в голливудских фильмах относительно легко, поскольку эти фильмы следуют некоторым правилам кинопроизводства. Например, для демонстрации захватывающих боевых сцен атмосфера быстрого темпа создается за счет скоростного визуального движения и динамичного звука. Но видео с сайтов обмена видео, таких как YouTube и Facebook, не соответствуют этим правилам кинопроизводства и часто имеют плохое качество звука и видео. Эти характеристики видеороликов, созданных пользователями, очень затрудняют обнаружение в них насилия.
Прежде чем обсуждать подход к выявлению насилия, важно дать определение термину «Насилие». Все предыдущие подходы к выявлению насилия не следовали одному и тому же определению насилия и использовали разные функции и разные наборы данных. Это сильно затрудняет сравнение различных подходов. Чтобы решить эту проблему и стимулировать исследования в этой области, Демарти и др. представили набор данных под названием «Обнаружение сцен насилия» (VSD). [15] в 2011 году, а последней версией этого набора данных является VSD2014. Согласно этому последнему набору данных, «Насилие» в видео — это «любая сцена, которую восьмилетнему ребенку нельзя смотреть, потому что она содержит физическое насилие» Шедл и др. [51]. Считается, что это определение сформулировано на основе результатов исследований в области психологии, упомянутых выше. Из этого определения можно заметить, что насилие – это не физическая сущность, а концепция, которая является очень общей, абстрактной и в то же время очень субъективной. Таким образом, выявление случаев насилия – нетривиальная задача.
Целью этой работы является создание системы, которая автоматически обнаруживает насилие не только в голливудских фильмах, но и в видеороликах с таких сайтов обмена видео, как YouTube и Facebook. В данной работе предпринята попытка также выявить в видео категорию насилия, которая не рассматривалась ранее подходами. Категории насилия, на которые направлена данная работа: наличие крови, наличие холодного оружия, взрывы, драки, крики, наличие огня, огнестрельного оружия и выстрелов. Они представляют собой подмножество концепций, определенных и используемых в VSD2014 для аннотирования сегментов видео. Категории «кровавые сцены» и «автомобильные погони» из VSD2014 не были выбраны, поскольку в VSD2014 было не так много видеосегментов, аннотированных этими понятиями. Другая такая категория – «Субъективное насилие». Он не выбран, поскольку сцены, относящиеся к этой категории, не содержат видимого насилия и, следовательно, их очень трудно обнаружить. В этой работе для обнаружения насилия используются как аудио, так и визуальные функции, поскольку объединение аудио и визуальной информации обеспечивает более надежные результаты при классификации.
Преимущества разработки такой системы, которая может автоматически обнаруживать насилие в мультимедийном контенте, многочисленны. Его можно использовать для оценки фильмов в зависимости от количества насилия. Сайты социальных сетей могут использовать это для обнаружения и блокировки загрузки видео с насилием на свои платформы. Кроме того, его можно использовать для определения характеристик сцен и классификации жанров, что помогает при поиске и просмотре фильмов. Распознавание насилия в видеопотоках с систем камер реального времени будет очень полезно для видеонаблюдения в таких местах, как аэропорты, больницы, торговые центры, общественные места, тюрьмы, психиатрические отделения, школьные игровые площадки и т. д. Однако обнаружение насилия в реальном времени гораздо сложнее, и в данной работе не предпринимается никаких попыток с ней справиться.
Ниже представлен обзор соответствующей работы, подробное описание предлагаемого подхода и оценка. Следующие главы организованы следующим образом. В главе 2 подробно объясняются некоторые предыдущие работы в области выявления случаев насилия. В главе 3 представлены подробности подхода, используемого для обучения и тестирования классификаторов признаков. Он также включает в себя подробную информацию об извлечении признаков и обучении классификатора. В главе 4 описывается подробная информация об используемых наборах данных, экспериментальной установке и результатах, полученных в ходе экспериментов. Наконец, в главе 5 приводятся выводы, а также возможная будущая работа.
Этот документ доступен на arxiv под лицензией CC 4.0.