Авторы:
(1) Правин Тирупаттур, Университет Центральной Флориды.
В этой главе выводы и направления, в которых можно расширить существующую работу, обсуждаются в разделах 5.1 и 5.2 соответственно.
В этой работе была предпринята попытка разработать систему для обнаружения насильственного контента в видео с использованием как визуальных, так и звуковых функций. Несмотря на то, что подход, используемый в этой работе, основан на более ранних работах в этой области, его уникальными аспектами являются следующие: (i) Обнаружение различных классов насилия, (ii) использование функции SentiBank для описания визуального контента видео, (iii) детектор крови и модель крови, разработанная с использованием изображений из Интернета, и (iv) использование информации из видеокодека для создания функций движения. Вот краткий обзор процесса, использованного для разработки этой системы.
Поскольку насилие не является физическим объектом, его обнаружение на видео — нетривиальная задача. Насилие — это визуальное понятие, и для его обнаружения необходимо использовать множество функций. В этой работе функции MFCC использовались для описания аудиоконтента, а функции Blood, Motion и SentiBank — для описания визуального контента. Классификаторы SVM были обучены для каждого из выбранных признаков, а отдельные баллы классификатора были объединены по взвешенной сумме, чтобы получить окончательные классификационные баллы для каждого из классов насилия. Веса для каждого класса находятся с использованием метода поиска по сетке, при этом критерием оптимизации является минимальный EER. В этой работе используются разные наборы данных, но наиболее важным из них является набор данных VSD, который используется для обучения классификаторов, расчета весов классификаторов и для тестирования системы.
Производительность системы оценивается по двум различным задачам классификации: мультиклассовой и двоичной классификации. В задаче многоклассовой классификации система должна определить класс насилия, присутствующий в видеосегменте. Это гораздо более сложная задача, чем просто выявление наличия насилия, и представленная здесь система — одна из первых, которая решает эту проблему. Задача двоичной классификации заключается в том, что система должна просто обнаружить наличие насилия без необходимости определения класса насилия. В этом задании, если окончательный балл классификации в задаче мультиклассовой классификации для любого класса насилия превышает 0,5, то видеосегмент классифицируется как «Насилие», в противном случае он классифицируется как «Нет насилия». Результаты задачи многоклассовой классификации далеки от совершенства и есть возможности для улучшения, тогда как результаты задач двоичной классификации лучше, чем существующие результаты тестов MediaEval-2014. Однако эти результаты, безусловно, обнадеживают. В разделе 5.2 представлено подробное обсуждение возможных направлений, в которых может быть продолжена текущая работа.
Есть много возможных направлений, в которых можно продолжить текущую работу. Одним из направлений могло бы стать повышение эффективности существующей системы. Для этого необходимо улучшить производительность отдельных классификаторов. Движение и Кровь — это две функции, производительность классификатора которых требует существенного улучшения. Как объяснено в разделе 4.4, подход, используемый для извлечения признаков движения, должен быть изменен для улучшения производительности классификатора движения. В случае с Blood проблема связана с набором данных, используемым для обучения классификатора, а не с экстрактором признаков. Для обучения следует использовать соответствующий набор данных с приличным количеством кадров, содержащих кровь. Внесение этих улучшений должно стать первым шагом на пути к построению лучшей системы. Еще одним направлением будущей работы будет адаптация этой системы и разработка различных инструментов для разных приложений. Например, (i) можно было бы разработать инструмент, который мог бы извлекать фрагменты видео, содержащие насилие, из заданного входного видео. Это может быть полезно при добавлении тегов к видео. (ii) Аналогичный инструмент можно было бы разработать для родительского контроля, где систему можно было бы использовать для оценки фильма в зависимости от количества в нем содержания насилия. Еще одним возможным направлением будущей работы является повышение скорости работы системы, чтобы ее можно было использовать для обнаружения насилия в режиме реального времени по видеопотокам камер наблюдения. Улучшения, необходимые для разработки такой системы, не будут тривиальными.
Этот документ доступен на arxiv под лицензией CC 4.0.