paint-brush
Detección de Violencia en Videos: Trabajo Relacionado por@kinetograph

Detección de Violencia en Videos: Trabajo Relacionado

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un sistema para la detección automática de violencia en videos, utilizando señales de audio y visuales para la clasificación.
featured image - Detección de Violencia en Videos: Trabajo Relacionado
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidad de Florida Central.

Tabla de enlaces

2. Trabajo relacionado

La detección de violencia es una subtarea del reconocimiento de actividades en la que se deben detectar actividades violentas a partir de un vídeo. También puede considerarse como una especie de detección de eventos multimedia. Ya se han propuesto algunos enfoques para abordar este problema. Estos enfoques propuestos se pueden clasificar en tres categorías: (i) Enfoques en los que sólo se utilizan las características visuales. (ii) Enfoques en los que solo se utilizan las funciones de audio. (iii) Enfoques en los que se utilizan funciones tanto de audio como visuales. La categoría de interés aquí es la tercera, donde se utilizan tanto vídeo como audio. Este capítulo proporciona una visión general de algunos de los enfoques anteriores que pertenecen a cada una de estas categorías.

2.1. Uso de audio y vídeo

El intento inicial de detectar la violencia utilizando señales tanto auditivas como visuales es el de Nam et al. [41]. En su trabajo, se aprovechan tanto las funciones de audio como las visuales para detectar escenas violentas y generar índices que permitan la búsqueda de vídeos basada en el contenido. Aquí, se extrae la firma de actividad dinámica espacio-temporal de cada toma para clasificarla como violenta o no violenta. Esta característica de actividad dinámica espacio-temporal se basa en la cantidad de movimiento dinámico presente en la toma.


Cuanto mayor es el movimiento espacial entre los fotogramas de la toma, más significativa es la característica. El razonamiento detrás de este enfoque es que la mayoría de las escenas de acción implican un movimiento rápido y significativo de personas u objetos. Para calcular la característica de actividad espacio-temporal de una toma, se obtienen secuencias de movimiento de la toma y se normalizan según la duración de la toma para garantizar que solo las tomas con longitudes más cortas y un alto movimiento espacial entre los fotogramas tengan mayor valor. de la característica de actividad.


Aparte de esto, para detectar llamas provenientes de disparos o explosiones, se examina una variación repentina en los valores de intensidad de los píxeles entre cuadros. Para eliminar falsos positivos, como la variación de intensidad debido a las linternas de las cámaras, se utiliza una tabla de colores predefinida con valores de color cercanos a los colores de las llamas, como amarillo, naranja y rojo. De manera similar, para detectar sangre, lo cual es común en la mayoría de las escenas violentas, los colores de los píxeles dentro de un cuadro se combinan con una tabla de colores predefinida que contiene colores similares a la sangre. Estas características visuales por sí solas no son suficientes para detectar la violencia de forma eficaz. Por lo tanto, también se consideran las funciones de audio.


El cambio repentino en el nivel de energía de la señal de audio se utiliza como señal de audio. La entropía de energía se calcula para cada cuadro y el cambio repentino en este valor se utiliza para identificar eventos violentos como explosiones o disparos. Las pistas sonoras y visuales están sincronizadas en el tiempo para obtener tomas que contengan violencia con mayor precisión. Una de las principales contribuciones de este artículo es resaltar la necesidad de señales tanto sonoras como visuales para detectar la violencia.


Gong et al. [27] también utilizaron señales visuales y auditivas para detectar violencia en las películas. Se describe un enfoque de tres etapas para detectar la violencia. En la primera etapa, se extraen características visuales y auditivas de bajo nivel para cada toma del vídeo. Estas funciones se utilizan para entrenar a un clasificador para que detecte tomas candidatas con contenido potencialmente violento. En la siguiente etapa, se utilizan efectos de audio de alto nivel para detectar tomas candidatas. En esta etapa, para detectar efectos de audio de alto nivel, los clasificadores SVM se entrenan para cada categoría del efecto de audio mediante el uso de características de audio de bajo nivel como espectro de potencia, tono, MFCC (coeficientes cepstrales de frecuencia de fusión) y prominencia de armonicidad (Cai). y otros [7]). La salida de cada una de las SVM se puede interpretar como un mapeo de probabilidad a un sigmoide, que es un valor continuo entre [0,1] (Platt et al. [46]). En la última etapa, los resultados probabilísticos de las dos primeras etapas se combinan mediante refuerzo y la puntuación de violencia final de un disparo se calcula como una suma ponderada de las puntuaciones de las dos primeras etapas.


Estas ponderaciones se calculan utilizando un conjunto de datos de validación y se espera que maximicen la precisión promedio. El trabajo de Gong et al. [27] se concentra únicamente en detectar la violencia en películas donde se siguen reglas universales de realización cinematográfica. Por ejemplo, el sonido trepidante durante las escenas de acción. El contenido violento se identifica detectando escenas de ritmo rápido y eventos de audio asociados con la violencia, como explosiones y disparos. Los datos de entrenamiento y pruebas utilizados provienen de una colección de cuatro películas de acción de Hollywood que contienen muchas escenas violentas. Aunque este enfoque produjo buenos resultados, cabe señalar que está optimizado para detectar violencia sólo en películas que siguen algunas reglas cinematográficas y no funcionará con los vídeos que suben los usuarios a sitios web como Facebook, Youtube. , etc.


En el trabajo de Lin y Wang [38], una secuencia de vídeo se divide en tomas y para cada toma, tanto las características de audio como de vídeo se clasifican en violentas o no violentas y los resultados se combinan mediante co-entrenamiento. Se utiliza un algoritmo pLSA modificado (Hofmann [30]) para detectar violencia en el segmento de audio. El segmento de audio se divide en clips de audio de un segundo cada uno y se representa mediante un vector de características que contiene características de bajo nivel, como espectro de potencia, MFCC, tono, relación de velocidad de cruce cero (ZCR) y prominencia de armonicidad (Cai et al. [7]). . Estos vectores se agrupan para obtener centros de agrupación que denotan un vocabulario de audio. Luego, cada segmento de audio se representa utilizando este vocabulario como un documento de audio. El algoritmo de Maximización de Expectativas (Dempster et al. [20]) se utiliza para ajustar un modelo de audio que luego se utiliza para la clasificación de segmentos de audio. Para detectar violencia en un segmento de vídeo, se utilizan los tres eventos violentos visuales comunes: movimiento, llamas/explosiones y sangre. La intensidad del movimiento se utiliza para detectar áreas con movimiento rápido y extraer características de movimiento para cada cuadro, que luego se usa para clasificar un cuadro como violento o no violento. Los modelos de color y de movimiento se utilizan para detectar llamas y explosiones en un marco y clasificarlas. De manera similar, el modelo de color y la intensidad del movimiento se utilizan para detectar la región que contiene sangre y, si es mayor que un valor predefinido para un cuadro, se clasifica como violenta. La puntuación final de violencia para el segmento de vídeo se obtiene mediante la suma ponderada de las tres puntuaciones individuales mencionadas anteriormente. Las características utilizadas aquí son las mismas que las utilizadas por Nam et al. [41]. Para combinar las puntuaciones de clasificación del flujo de vídeo y audio, se utiliza el entrenamiento conjunto. Para el entrenamiento y las pruebas, se utiliza un conjunto de datos que consta de cinco películas de Hollywood y se obtiene una precisión de alrededor de 0,85 y una recuperación de alrededor de 0,90 en la detección de escenas violentas. Incluso este trabajo apunta a la detección de violencia sólo en películas, pero no en los videos disponibles en la web. Pero los resultados sugieren que las características visuales como el movimiento y la sangre son cruciales para la detección de violencia.

2.2. Usar audio o vídeo

Todos los enfoques mencionados hasta ahora utilizan señales tanto de audio como visuales, pero hay otros que utilizan vídeo o audio para detectar la violencia y otros que intentan detectar sólo un tipo específico de violencia, como las peleas a puñetazos. A continuación se presenta una breve descripción de estos enfoques.


Uno de los únicos trabajos que utilizó únicamente audio para detectar el contexto semántico en videos es el de Cheng et al. [11], donde se utiliza un enfoque jerárquico basado en modelos de mezcla gaussiana y modelos ocultos de Markov para reconocer disparos, explosiones y frenado de automóviles. Datta et al. [14] intentaron detectar violencia entre personas en vídeos que involucran solo peleas a puñetazos, patadas, golpes con objetos, etc., analizando la violencia a nivel de objeto en lugar de a nivel de escena como lo hacen la mayoría de los enfoques. Aquí se detectan los objetos en movimiento en una escena y se utiliza un modelo de persona para detectar sólo los objetos que representan personas. A partir de esto, la trayectoria del movimiento y la información de orientación de las extremidades de una persona se utilizan para detectar peleas entre personas.


Clarín et al. [12] desarrolló un sistema automatizado llamado DOVE para detectar violencia en películas. En este caso, se utiliza únicamente sangre para detectar escenas violentas. El sistema extrae fotogramas clave de cada escena y los pasa a un mapa autoorganizado entrenado para etiquetar los píxeles con las etiquetas: piel, sangre o sin piel/sin sangre. Luego, los píxeles etiquetados se agrupan a través de componentes conectados y se observan en busca de posible violencia. Una escena se considera violenta si hay un gran cambio en las regiones de píxeles con componentes de piel y sangre. Otro trabajo sobre la detección de peleas es el de Nievas et al. [42] en el que se utiliza el marco Bag-of-Words junto con los descriptores de acción Puntos de interés espacio-temporales (STIP - Laptev [37]) y transformación de características invariantes de escala de movimiento (MoSIFT - Chen y Hauptmann [10]). Los autores introdujeron un nuevo conjunto de datos de vídeo que consta de 1.000 vídeos, divididos en dos grupos, peleas y no peleas. Cada grupo tiene 500 videos y cada video tiene una duración de un segundo. La experimentación con este conjunto de datos ha producido una precisión del 90 % en un conjunto de datos con peleas de películas de acción.


Deniz et al. [21] propusieron un método novedoso para detectar violencia en vídeos utilizando patrones de aceleración extrema como característica principal. Este método es 15 veces más rápido que los sistemas de reconocimiento de acciones de última generación y también tiene una precisión muy alta en la detección de escenas que contienen peleas. Este enfoque es muy útil en los sistemas de detección de violencia en tiempo real, donde no sólo importa la precisión sino también la velocidad. Este enfoque compara el espectro de potencia de dos fotogramas consecutivos para detectar movimientos repentinos y, según la cantidad de movimiento, una escena se clasifica como violenta o no violenta. Este método no utiliza el seguimiento de funciones para detectar movimiento, lo que lo hace inmune al desenfoque. Hassner y cols. [28] introdujo un enfoque para la detección de violencia en tiempo real en escenas concurridas. Este método considera el cambio de las magnitudes del vector de flujo a lo largo del tiempo. Estos cambios para secuencias de fotogramas cortos se denominan descriptores de flujos violentos (ViF). Estos descriptores se utilizan luego para clasificar escenas violentas y no violentas utilizando una máquina de vectores de soporte (SVM) lineal. Como este método utiliza solo información de flujo entre cuadros y renuncia al análisis de forma y movimiento de alto nivel, es capaz de operar en tiempo real. Para este trabajo, los autores crearon su propio conjunto de datos descargando vídeos que contenían comportamientos violentos de multitudes de Youtube.


Todos estos trabajos utilizan diferentes enfoques para detectar la violencia a partir de vídeos y todos utilizan sus propios conjuntos de datos para la formación y las pruebas. Todos tienen su propia definición de violencia. Esto demuestra un problema importante para la detección de la violencia, que es la falta de conjuntos de datos de referencia independientes y una definición común de violencia, sin los cuales la comparación entre diferentes enfoques no tiene sentido.


Para abordar este problema, Demarty et al. [16] presentó un punto de referencia para la detección automática de segmentos de violencia en películas como parte de la iniciativa de evaluación comparativa multimedia MediaEval-2011 [1]. Este punto de referencia es muy útil ya que proporciona un conjunto de datos consistente y sustancial con una definición común de violencia y protocolos y métricas de evaluación. Los detalles del conjunto de datos proporcionado se analizan en detalle en la Sección 4.1. Trabajos recientes sobre el reconocimiento de la violencia en videos han utilizado este conjunto de datos y a continuación se brindan detalles sobre algunos de ellos.

2.3. Usando MediaEval VSD

Acar et al. [1] propuso un enfoque que combina características visuales y de audio de manera supervisada utilizando SVM de una y dos clases para la detección de violencia en películas. Las características visuales y de audio de bajo nivel se extraen de tomas de vídeo de las películas y luego se combinan en una forma de fusión temprana para entrenar SVM. Las características de MFCC se extraen para describir el contenido de audio y el enfoque de bolsa de palabras basado en SIFT (Transformación de características invariantes de escala - Lowe [39]) se utiliza para el contenido visual.


Jiang et al. [33] propusieron un método para detectar violencia basado en un conjunto de características derivadas de la apariencia y el movimiento de trayectorias de parches locales (Jiang et al. [34]). Junto con estas trayectorias de parches, se extraen otras características, como SIFT, STIP y MFCC, que se utilizan para entrenar un clasificador SVM para detectar diferentes categorías de violencia. La puntuación y el suavizado de características se realizan para aumentar la precisión.


Lam et al. [36] evaluaron el rendimiento de funciones audiovisuales de bajo nivel para la tarea de detección de escenas violentas utilizando los conjuntos de datos y protocolos de evaluación proporcionados por MediaEval. En este trabajo se utilizan funciones visuales locales y globales junto con funciones de movimiento y audio MFCC. Todas estas características se extraen para cada fotograma clave de una toma y se combinan para formar un único vector de características para esa toma. Un clasificador SVM está capacitado para clasificar los disparos como violentos o no violentos en función de este vector de características. Eyben et al. [23] aplicaron extracción de características segmentarias a gran escala junto con clasificación audiovisual para detectar violencia. La extracción de funciones de audio se realiza con el kit de herramientas de extracción de funciones de código abierto openSmile (Eyben y Schuller [22]). Las características visuales de bajo nivel, como el histograma de valor de tono-saturación (HSV), el análisis de flujo óptico y la detección de bordes laplacianos, se calculan y utilizan para la detección de violencia. Los clasificadores SVM lineales se utilizan para la clasificación y un promedio de puntuación simple para la fusión.

2.4. Resumen

En resumen, casi todos los métodos descritos anteriormente intentan detectar la violencia en las películas utilizando diferentes características audiovisuales con la expectativa de que solo un par [Nievas et al. [42], Hassner y cols. [28]], que utilizan datos de vídeo de cámaras de vigilancia o de otros sistemas de vídeo en tiempo real. También se puede observar que no todos estos trabajos utilizan el mismo conjunto de datos y cada uno tiene su propia definición de violencia. La introducción del conjunto de datos MediaEval para la detección de escenas violentas (VSD) en 2011 ha resuelto este problema. La versión reciente del conjunto de datos, VSD2014, también incluye contenido de vídeo de Youtube además de las películas de Hollywood y anima a los investigadores a probar su enfoque en contenido de vídeo generado por los usuarios.

2.5. Contribuciones

El enfoque propuesto presentado en el Capítulo 3 está motivado por trabajos anteriores sobre detección de violencia, discutidos en el Capítulo 2. En el enfoque propuesto, se utilizan señales tanto auditivas como visuales para detectar la violencia. Las funciones MFCC se utilizan para describir contenido de audio y las funciones de sangre, movimiento y SentiBank se utilizan para describir contenido de video. Los clasificadores SVM se utilizan para clasificar cada una de estas características y se aplica una fusión tardía para fusionar las puntuaciones del clasificador.


Si bien este enfoque se basa en trabajos anteriores sobre detección de violencia, sus contribuciones importantes son: (i) Detección de diferentes clases de violencia. Trabajos anteriores sobre detección de violencia se concentraron únicamente en detectar la presencia de violencia en un vídeo. Este enfoque propuesto es uno de los primeros en abordar este problema. (ii) Uso de la función SentiBank para describir el contenido visual de un vídeo. SentiBank es una característica visual que se utiliza para describir los sentimientos en una imagen. Esta función se utilizó anteriormente para detectar contenido para adultos en vídeos (Schulze et al. [52]). En este trabajo se utiliza por primera vez para detectar contenidos violentos. (iii) Uso de un modelo de color tridimensional, generado a partir de imágenes de la web, para detectar píxeles que representan sangre. Este modelo de color es muy robusto y ha mostrado muy buenos resultados en la detección de sangre. (iv) Uso de información integrada en un códec de vídeo para generar funciones de movimiento. Este enfoque es muy rápido en comparación con los demás, ya que los vectores de movimiento para cada píxel se calculan previamente y se almacenan en el códec de vídeo. En el siguiente capítulo, Capítulo 3, se presenta una explicación detallada de este enfoque propuesto.



Este documento está disponible en arxiv bajo licencia CC 4.0.


[1] http://www.multimediaeval.org