paint-brush
Detección de violencia en videos: enfoque propuestopor@kinetograph
144 lecturas

Detección de violencia en videos: enfoque propuesto

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un sistema para la detección automática de violencia en videos, utilizando señales de audio y visuales para la clasificación.
featured image - Detección de violencia en videos: enfoque propuesto
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidad de Florida Central.

Tabla de enlaces

3. Enfoque propuesto

Este capítulo proporciona una descripción detallada del enfoque seguido en este trabajo. El enfoque propuesto consta de dos fases principales: formación y pruebas. Durante la fase de capacitación, el sistema aprende a detectar la categoría de violencia presente en un video entrenando clasificadores con características visuales y de audio extraídas del conjunto de datos de capacitación. En la fase de prueba, el sistema se evalúa calculando la precisión del sistema para detectar violencia en un video determinado. Cada una de estas fases se explica detalladamente en los siguientes apartados. Consulte la Figura 3.1 para obtener una descripción general del enfoque propuesto. Finalmente, se presenta una sección que describe las métricas utilizadas para evaluar el sistema.

3.1. Capacitación

En esta sección, se analizan los detalles de los pasos involucrados en la fase de capacitación. El enfoque de capacitación propuesto tiene tres pasos principales: extracción de características, clasificación de características y fusión de características. Cada uno de estos tres pasos se explica en detalle en las siguientes secciones. En los primeros dos pasos de esta fase, las características de audio y visuales de los segmentos de video que contienen violencia y no violencia se extraen y se utilizan para entrenar clasificadores SVM de dos clases. Luego, en el paso de fusión de características, se calculan las ponderaciones de las características para cada tipo de violencia al que apunta el sistema. Estos pesos de características se obtienen realizando una búsqueda en la cuadrícula de la posible combinación de pesos y encontrando la mejor combinación que optimice el rendimiento del sistema en el conjunto de validación. El criterio de optimización aquí es la minimización de la EER (tasa de error igual) del sistema. Para encontrar estos pesos, se utiliza un conjunto de datos separado del conjunto de entrenamiento, que contiene videos violentos de todas las categorías específicas. Consulte el Capítulo 1 para obtener detalles sobre las categorías específicas.


Figura 3.1: Figura que muestra la descripción general del sistema. Se entrenan cuatro clasificadores SVM diferentes, uno para funciones de Audio, Sangre, Movimiento y SentiBank. Se utilizan imágenes de la web para desarrollar un modelo de sangre para detectar sangre en fotogramas de vídeo. Para entrenar clasificadores para todas las funciones, se utilizan datos del conjunto de datos VSD2104. Cada uno de estos clasificadores da individualmente la probabilidad de que un segmento de video contenga violencia. Estas probabilidades individuales luego se combinan utilizando la técnica de fusión tardía y la probabilidad de salida final, que es la suma ponderada de las probabilidades individuales, se presenta como salida del sistema. El vídeo proporcionado como entrada al sistema se divide en segmentos de un segundo y como salida se obtiene la probabilidad de que cada uno de los segmentos contenga violencia.

3.1.1. Extracción de características

Muchos investigadores han intentado resolver el problema de detección de violencia utilizando diferentes funciones visuales y de audio. En el Capítulo 2 se presenta información detallada sobre la investigación relacionada con la detección de violencia. En los trabajos anteriores, las características visuales más comunes utilizadas para detectar la violencia son el movimiento y la sangre y la característica de audio más común utilizada es el MFCC. Junto con estas tres características comunes de bajo nivel, este enfoque propuesto también incluye SentiBank (Borth et al. [4]), que es una característica visual que representa sentimientos en imágenes. El detalle de cada una de las características y su importancia en la detección de violencia y los métodos de extracción utilizados se describen en los siguientes apartados.

3.1.1.1. Características de MFCC

Las funciones de audio juegan un papel muy importante en la detección de eventos como disparos, explosiones, etc., que son muy comunes en escenas violentas. Muchos investigadores han utilizado funciones de audio para la detección de violencia y han obtenido buenos resultados. Aunque algunos de los trabajos anteriores analizaron la entropía energética [Nam et al. [41]] en la señal de audio, la mayoría de ellos utilizaron funciones MFCC para describir el contenido de audio en los videos. Estas funciones de MFCC se utilizan comúnmente en el reconocimiento de voz y audio.


En este trabajo, las características de MFCC proporcionadas en el conjunto de datos VSD2014 se utilizan para entrenar el clasificador SVM mientras se desarrolla el sistema. Durante la evaluación, las características de MFCC se extraen del flujo de audio del video de entrada, con el tamaño de la ventana establecido en la cantidad de muestras de audio por cuadro en el flujo de audio. Esto se calcula dividiendo la frecuencia de muestreo de audio por el valor de fps (cuadros por segundo) del video. Por ejemplo, si la frecuencia de muestreo de audio es de 44.100 Hz y el vídeo está codificado a 25 fps, entonces cada ventana tiene 1.764 muestras de audio. La región de superposición de la ventana se establece en cero y se calculan 22 MFCC para cada ventana. Con esta configuración, se obtiene un vector de características MFCC de 22 dimensiones para cada cuadro de video.

3.1.1.2. Características de la sangre

La sangre es el elemento visible más común en escenas de extrema violencia. Por ejemplo, escenas que contengan palizas, apuñalamientos, disparos y explosiones. En muchos trabajos anteriores sobre detección de violencia, se utiliza la detección de píxeles que representan sangre, ya que es un indicador importante de violencia. Para detectar sangre en un marco, en la mayoría de los trabajos anteriores se utiliza una tabla de colores predefinida, por ejemplo, Nam et al. [41] y Lin y Wang [38]. En algunos de los trabajos anteriores también se utilizan otros enfoques para detectar sangre, como el uso del mapa autoorganizado (SOM) de Kohonen (Clarin et al. [12]).


En este trabajo, se utiliza un modelo de color para detectar píxeles que representan sangre. Se representa mediante un histograma tridimensional con una dimensión cada uno para los valores rojo, verde y azul de los píxeles. En cada dimensión, hay 32 contenedores y cada contenedor tiene un ancho de 8 (32 × 8 = 256). Este modelo de sangre se genera en dos pasos. En el primer paso, el modelo de sangre se inicia utilizando los valores RGB (rojo, verde, azul) de los píxeles que contienen sangre. El histograma agrupado tridimensional se completa con los valores RGB de estos píxeles que contienen sangre. El valor en el contenedor al que pertenece un píxel de sangre se incrementa en 1 cada vez que se agrega un nuevo píxel de sangre al modelo. Una vez que se utiliza una cantidad suficiente de píxeles sangrientos para llenar el histograma, los valores en los contenedores se normalizan mediante la suma de todos los valores. Los valores en cada uno de los contenedores ahora representan la probabilidad de que un píxel muestre sangre dados sus valores RGB. Para completar el modelo de sangre, se recortan píxeles que contienen sangre de varias imágenes que contienen sangre que se descargan de Google. El recorte de las regiones que contienen sólo píxeles de sangre se realiza manualmente. Consulte la imagen de la Figura 3.2 para ver muestras de las regiones recortadas, cada una con un tamaño de 20 × 20 píxeles.


Figura 3.2: Figura que muestra regiones recortadas de muestra de tamaño 20 × 20 que contienen sangre.


Una vez que se inicia el modelo, se utiliza para detectar sangre en las imágenes descargadas de Google. Solo se utilizan píxeles que tienen una alta probabilidad de representar sangre para ampliar aún más el modelo de arranque. La descarga de las imágenes y la ampliación del modelo de sangre se realiza de forma automática. Para descargar imágenes de Google que contienen sangre, se utilizan palabras de búsqueda como “imágenes sangrientas”, “escenas sangrientas”, “sangrado”, “salpicaduras de sangre real”, “goteo de sangre”. Algunas de las muestras de las imágenes descargadas se pueden ver en la Figura 3.3. Los valores de píxeles con alta probabilidad de sangre se agregan al modelo de sangre hasta que tenga, al menos, un millón de valores de píxeles.


Este modelo de sangre por sí solo no es suficiente para detectar sangre con precisión. Junto con este modelo sanguíneo, también se necesita un modelo sin sangre. Para generar esto, de manera similar al enfoque anterior, se descargan imágenes de Google que no contienen sangre y los valores de píxeles RGB de estas imágenes se utilizan para construir el modelo sin sangre. En la Figura 3.3 se muestran algunas imágenes de muestra utilizadas para generar este modelo sin sangre. Ahora, utilizando estos modelos sanguíneos y no sanguíneos, la probabilidad de que un píxel represente sangre se calcula de la siguiente manera



Figura 3.3: Figura que muestra imágenes de muestra descargadas de Google para generar modelos sanguíneos y no sanguíneos.


Usando esta fórmula, para una imagen determinada, se calcula la probabilidad de que cada píxel represente sangre y se genera el Mapa de probabilidad de sangre (BPM). Este mapa tiene el mismo tamaño que el de la imagen de entrada y contiene los valores de probabilidad de sangre para cada píxel. Este BPM se binariza utilizando un valor umbral para generar el BPM binarizado final. Se estima el umbral utilizado para binarizar los BPM (Jones y Rehg [35]). A partir de este BPM binario, se genera un vector de características unidimensional de longitud 14 que contiene valores como la proporción de sangre, la proporción de probabilidad de sangre, el tamaño del componente conectado más grande, la media, la varianza, etc. Este vector de características se extrae para cada cuadro. en el video y se utiliza para entrenar el clasificador SVM. En la Figura 3.4 se presenta una imagen de muestra junto con su BPM y BPM binario. En esta figura se puede observar que este enfoque ha funcionado muy bien en la detección de píxeles que contienen sangre.


Figura 3.4: Figura que muestra el rendimiento del modelo de sangre generado en la detección de sangre. La primera columna tiene las imágenes de entrada, la segunda columna tiene los mapas de probabilidad de sangre y la última columna tiene los mapas de probabilidad de sangre binarizados.

3.1.1.3. Funciones de movimiento

El movimiento es otra característica visual ampliamente utilizada para la detección de violencia. El trabajo de Deniz et al. [21], Nievas et al. [42] y Hassner et al. [28] son algunos de los ejemplos en los que el movimiento se utiliza como característica principal para la detección de violencia. Aquí, el movimiento se refiere a la cantidad de variación espacio-temporal entre dos fotogramas consecutivos en un vídeo. El movimiento se considera un buen indicador de violencia, ya que se espera una cantidad sustancial de violencia en las escenas que contienen violencia. Por ejemplo, en las escenas que contienen peleas persona a persona, hay un movimiento rápido de partes del cuerpo humano como piernas y manos, y en escenas que contienen explosiones, hay mucho movimiento de las partes que se separan debido a La explosión.


La idea de utilizar información de movimiento para detectar actividad proviene de la psicología. Las investigaciones sobre la percepción humana han demostrado que el patrón cinemático del movimiento es suficiente para la percepción de las acciones (Blake y Shiffrar [2]). Los estudios de investigación en visión por computadora (Saerbeck y Bartneck [50], Clarke et al. [13] e Hidaka [29]) también han demostrado que características dinámicas relativamente simples, como la velocidad y la aceleración, se correlacionan con las emociones percibidas por un ser humano.


En este trabajo, para calcular la cantidad de movimiento en un segmento de vídeo, se evalúan dos enfoques diferentes. El primer enfoque es utilizar la información de movimiento incorporada dentro del códec de vídeo y el siguiente enfoque es utilizar flujo óptico para detectar movimiento. Estos enfoques se presentan a continuación.


3.1.1.3.1. Usando códec

En este método, la información de movimiento se extrae del códec de vídeo. La magnitud del movimiento en cada píxel por cuadro, denominada vector de movimiento, se recupera del códec. Este vector de movimiento es un vector bidimensional y tiene el mismo tamaño que un fotograma de la secuencia de vídeo. A partir de este vector de movimiento, se genera una característica de movimiento que representa la cantidad de movimiento en el cuadro. Para generar esta característica de movimiento, primero el vector de movimiento se divide en doce subregiones de iguales tamaños cortándolo a lo largo de los ejes xey en tres y cuatro regiones respectivamente. La cantidad de movimiento a lo largo de los ejes x e y en cada píxel de cada una de estas subregiones se agrega y estas sumas se utilizan para generar un histograma de movimiento bidimensional para cada cuadro. Este histograma representa el vector de movimiento de un fotograma. Consulte la imagen de la izquierda en la Figura 3.5 para ver la visualización de los vectores de movimiento agregados para un cuadro de un video de muestra. En esta visualización, los vectores de movimiento se agregan para subregiones de tamaño 16 × 16 píxeles. La magnitud y dirección del movimiento en estas regiones se representa utilizando la longitud y orientación de las líneas discontinuas verdes que están superpuestas en la imagen.

3.1.1.3.2. Usando flujo óptico

El siguiente método para detectar movimiento utiliza el flujo óptico (Wikipedia [57]). Aquí, el movimiento en cada píxel de un cuadro se calcula utilizando un flujo óptico denso. Para ello se utiliza la implementación del algoritmo de Gunner Farneback (Farneb¨ack [24]) proporcionado por OpenCV (Bradski [5]). La implementación se proporciona como una función en OpenCV y para obtener más detalles sobre la función y los parámetros, consulte la documentación proporcionada por OpenCV (OpticalFlow [43]). Los valores 0,5, 3, 15, 3, 5, 1,2 y 0 se pasan a los parámetros de función escala pyr, niveles, tamaño de ganancia, iteraciones, poli n, poli sigma y banderas respectivamente. Una vez que los vectores de movimiento en cada píxel se calculan utilizando el flujo óptico, la característica de movimiento de un cuadro se extrae mediante el mismo proceso mencionado en la Sección 3.1.1.3.1 anterior. Consulte la imagen de la derecha en la Figura 3.5 para obtener una impresión de los vectores de movimiento agregados extraídos de un cuadro. Los vectores de movimiento se agregan para subregiones de tamaño 16×16 píxeles como en el enfoque anterior para proporcionar una mejor comparación entre las características extraídas mediante el uso de información de códec y flujo óptico.


Después de la evaluación de ambos enfoques para extraer información de movimiento de videos, se realizan las siguientes observaciones. En primer lugar, extraer movimiento de los códecs es mucho más rápido que utilizar el flujo óptico, ya que los vectores de movimiento se calculan previamente y se almacenan en los códecs de vídeo. En segundo lugar, la extracción de movimiento mediante flujo óptico no es muy eficiente cuando hay regiones borrosas en un cuadro. Este desenfoque suele ser causado por movimientos repentinos en una escena, lo cual es muy común en escenas que contienen violencia. Por tanto, el uso de flujo óptico para extraer información de movimiento para detectar violencia no es un enfoque prometedor. Por lo tanto, en este trabajo la información almacenada en los códecs de vídeo se utiliza para extraer características de movimiento. Las características de movimiento se extraen de cada cuadro del video y se utilizan para entrenar un clasificador SVM.


Figura 3.5: Información de movimiento de fotogramas extraídos mediante códec frente a flujo óptico.

3.1.1.4. Características de SentiBank

Además de las funciones de bajo nivel antes mencionadas, la función SentiBank introducida por Borth et al. [4] también se aplica. SentiBank es una representación de nivel medio de contenido visual basada en la ontología de sentimiento visual (VSO) a gran escala [1]. SentiBank consta de 1200 conceptos semánticos y sus correspondientes clasificadores automáticos, cada uno de los cuales se define como un par adjetivo-sustantivo (ANP). Estos PAN combinan fuertes adjetivos emocionales que se vinculan con sustantivos que corresponden a objetos o escenas (por ejemplo, “hermoso cielo”, “insecto repugnante” o “lindo bebé”). Además, cada ANP (1) refleja un sentimiento fuerte, (2) tiene un vínculo con una emoción, (3) se utiliza con frecuencia en plataformas como Flickr o YouTube y (4) tiene una precisión de detección razonable. Además, el VSO pretende ser lo suficientemente completo y diverso como para cubrir una amplia gama de clases de conceptos diferentes, como personas, animales, objetos, lugares naturales o creados por el hombre y, por lo tanto, proporciona información adicional sobre el tipo de contenido que se analiza. Debido a que SentiBank demostró su rendimiento superior en comparación con las funciones visuales de bajo nivel en el análisis de sentimiento, Borth et al. [4], se utiliza ahora por primera vez para detectar emociones complejas, como la violencia, en fotogramas de vídeo.


SentiBank consta de 1200 SVM, cada una de ellas entrenada para detectar uno de los 1200 conceptos semánticos de una imagen. Cada SVM es un clasificador binario que proporciona una salida binaria 0/1 dependiendo de si la imagen contiene o no un sentimiento específico. Para un fotograma determinado de un vídeo, un vector que contiene la salida de las 1200 SVM se considera la función SentiBank. Para extraer esta característica, se utiliza una implementación basada en Python. Para entrenar el clasificador SVM, se utilizan las características de SentiBank extraídas de cada cuadro en los videos de capacitación. La extracción de funciones de SentiBank tarda unos segundos, ya que implica recopilar resultados de 1200 SVM previamente entrenados. Para reducir el tiempo necesario para la extracción de funciones, la función SentiBank para cada uno de los fotogramas se extrae en paralelo mediante multiprocesamiento.

3.1.2. Clasificación de características

El siguiente paso en el proceso después de la extracción de características es la clasificación de características y esta sección proporciona los detalles de este paso. La selección del clasificador y las técnicas de entrenamiento utilizadas juegan un papel muy importante para conseguir buenos resultados de clasificación. En este trabajo, se utilizan SVM para la clasificación. La razón principal detrás de esta elección es el hecho de que los trabajos anteriores sobre detección de violencia han utilizado SVM para clasificar características de audio y visuales y han producido buenos resultados. En casi todos los trabajos mencionados en el Capítulo 2 se utilizan SVM para la clasificación, aunque pueden diferir en las funciones del núcleo utilizadas.


De todos los videos disponibles en el conjunto de capacitación, las características de audio y visuales se extraen mediante el proceso descrito en la Sección 3.1.1. Luego, estas características se dividen en dos conjuntos, uno para entrenar al clasificador y el otro para probar la precisión de la clasificación del clasificador entrenado. Como los clasificadores utilizados aquí son SVM, se debe elegir qué kernel usar y qué parámetros de kernel establecer. Para encontrar el mejor tipo de kernel y parámetros de kernel, se utiliza una técnica de búsqueda en cuadrícula. En esta búsqueda de cuadrícula, se prueban los núcleos lineal, RBF (función de base radial) y Chi-cuadrado junto con un rango de valores para sus parámetros, para encontrar la mejor combinación que proporcione los mejores resultados de clasificación. Con este enfoque, se entrenan cuatro clasificadores diferentes, uno para cada tipo de característica. Estos clasificadores entrenados se utilizan luego para encontrar los pesos de las características en el siguiente paso. En este trabajo, se utiliza la implementación SVM proporcionada por scikit-learn (Pedregosa et al. [45]) y LibSVM (Chang y Lin [9]).

3.1.3. Fusión de funciones

En el paso de fusión de características, las probabilidades de salida de cada uno de los clasificadores de características se fusionan para obtener la puntuación final de la violencia en un segmento de video junto con la clase de violencia presente en él. Esta fusión se realiza calculando la suma ponderada de las probabilidades de cada uno de los clasificadores de características. Para detectar la clase de violencia a la que pertenece un vídeo el procedimiento es el siguiente. Primero, las características audiovisuales se extraen de los videos pertenecientes a cada una de las clases de violencia dirigida. Luego, estas características se pasan a los clasificadores SVM binarios entrenados para obtener las probabilidades de que cada uno de los videos contenga violencia. Ahora, estas probabilidades de salida de cada uno de los clasificadores de características se fusionan asignando a cada clasificador de características un peso para cada clase de violencia y calculando la suma ponderada. Los pesos asignados a cada uno de los clasificadores de características representan la importancia de una característica en la detección de una clase específica de violencia. Estas ponderaciones de características deben ajustarse adecuadamente para cada clase de violencia para que el sistema detecte la clase correcta de violencia.


Hay dos métodos para encontrar los pesos. El primer enfoque consiste en ajustar manualmente los pesos de un clasificador de características para cada tipo de violencia. Este enfoque necesita mucha intuición sobre la importancia de una característica en la detección de una clase de violencia y es muy propenso a errores. El otro enfoque es encontrar las ponderaciones utilizando un mecanismo de búsqueda de cuadrícula en el que se muestrea un conjunto de ponderaciones del rango de ponderaciones posibles. En este caso, el rango de pesos posibles para cada clasificador de características es [0,1], sujeto a la restricción de que la suma de los pesos de todos los clasificadores de características sea 1. En este trabajo, se utiliza este último enfoque y todos los Se enumeran las combinaciones de pesos que suman 1. Cada una de estas combinaciones de ponderaciones se utiliza para calcular la suma ponderada de las probabilidades del clasificador para una clase de violencia y las ponderaciones de la combinación de ponderaciones que produce la suma más alta se asignan a cada uno de los clasificadores para la clase de violencia correspondiente. Para calcular estos pesos, se utiliza un conjunto de datos que es diferente del conjunto de entrenamiento, para evitar un ajuste excesivo de los pesos al conjunto de entrenamiento. El conjunto de datos utilizado para calcular el peso tiene videos de todas las clases de violencia a las que se dirige este trabajo. Es importante señalar que, aunque cada uno de los clasificadores SVM entrenados es de naturaleza binaria, los valores de salida de estos clasificadores se pueden combinar usando una suma ponderada para encontrar la clase específica de violencia a la que pertenece un video.

3.2. Pruebas

En esta etapa, para un video de entrada determinado, se detecta cada segmento que contiene violencia junto con la clase de violencia presente en él. Para un video determinado, se utiliza el siguiente enfoque para detectar los segmentos que contienen violencia y la categoría de violencia en ellos. Primero, las características visuales y de audio se extraen de un cuadro cada segundo a partir del primer cuadro del video, en lugar de extraer características de cada cuadro. Estos fotogramas de los que se extraen las características representan un segmento de 1 segundo del vídeo. Las características de estos segmentos de video de 1 segundo luego se pasan a los clasificadores SVM binarios entrenados para obtener las puntuaciones de cada segmento de video para determinar si es violento o no violento. Luego, se calculan las sumas ponderadas de los valores de salida de los clasificadores individuales para cada categoría de violencia utilizando las ponderaciones correspondientes encontradas durante el paso de fusión. Por lo tanto, para un vídeo determinado de duración 'X' segundos, el sistema genera un vector de duración 'X'. Cada elemento de este vector es un diccionario que asigna cada clase de violencia con un valor de puntuación. La razón para utilizar este enfoque es doble: primero, detectar intervalos de tiempo en los que hay violencia en el video y aumentar la velocidad del sistema para detectar violencia. La extracción de funciones, especialmente la extracción de la función Sentibank, lleva mucho tiempo y hacerlo para cada cuadro hará que el sistema sea lento. Pero este enfoque tiene un efecto negativo en la precisión del sistema, ya que detecta violencia no en cada fotograma sino en cada segundo.

3.3. Métricas de evaluación

Hay muchas métricas que se pueden utilizar para medir el desempeño de un sistema de clasificación. Algunas de las medidas utilizadas para la clasificación binaria son exactitud, precisión, recuperación (sensibilidad), especificidad, puntuación F, tasa de error igual (EER) y área bajo la curva (AUC). Algunas otras medidas, como la precisión promedio (AP) y la precisión promedio promedio (MAP), se utilizan para sistemas que devuelven una lista clasificada como resultado de una consulta. La mayoría de estas medidas que se utilizan cada vez más en la investigación sobre aprendizaje automático y minería de datos se toman prestadas de otras disciplinas como la recuperación de información (Rijsbergen [49]) y la biometría. Para una discusión detallada sobre estas medidas, consulte los trabajos de Parker [44] y Sokolova y Lapalme [53]. La curva ROC (Receiver Operating Characteristic) es otro método ampliamente utilizado para evaluar o comparar sistemas de clasificación binaria. Medidas como AUC y EER se pueden calcular a partir de la curva ROC.


En este trabajo, las curvas ROC se utilizan para: (i) Comparar el desempeño de clasificadores individuales. (ii) Comparar el desempeño del sistema en la detección de diferentes clases de violencia en la tarea de clasificación de clases múltiples. (iii) Compare el rendimiento del sistema en Youtube y el conjunto de datos de Hollywood-Test en la tarea de clasificación binaria. Otras métricas que se utilizan aquí son precisión, recuperación y EER. Estas medidas se utilizan porque son las medidas más utilizadas en trabajos anteriores sobre detección de violencia. En este sistema, los parámetros (pesos de fusión) se ajustan para minimizar el EER.

3.4. Resumen

En este capítulo se presenta una descripción detallada del enfoque seguido en este trabajo para detectar la violencia. La primera sección trata de la fase de formación y la segunda sección trata de la fase de prueba. En la primera sección se explican en detalle los diferentes pasos involucrados en la fase de capacitación. Primero, se analiza la extracción de características audiovisuales y se presentan los detalles de qué características se utilizan y cómo se extraen. A continuación, se analizan las técnicas de clasificación utilizadas para clasificar las características extraídas. Finalmente, se analiza el proceso utilizado para calcular los pesos de las características para la fusión de características. En la segunda sección, se analiza el proceso utilizado durante la fase de prueba para extraer segmentos de video que contienen violencia y detectar la clase de violencia en estos segmentos.


En resumen, los pasos seguidos en este enfoque son la extracción de características, la clasificación de características, la fusión de características y las pruebas. Los primeros tres pasos constituyen la fase de capacitación y el último paso es la fase de prueba. En la fase de entrenamiento, las características de audio y visuales se extraen del video y se utilizan para entrenar clasificadores SVM binarios, uno para cada característica. Luego, se utiliza un conjunto de datos separado para encontrar las ponderaciones de características que minimizan el EER del sistema en el conjunto de datos de validación. En la fase de prueba final, primero se extraen las características visuales y de audio una por cada segmento de video de 1 segundo del video de prueba de entrada. Luego, estas características se pasan a los clasificadores SVM entrenados para obtener las probabilidades de que estas características representen violencia. Se calcula una suma ponderada de estas probabilidades de resultado para cada tipo de violencia utilizando las ponderaciones obtenidas en el paso de fusión de características. El tipo de violencia para el cual la suma ponderada es máxima se asigna como etiqueta al segmento de video de 1 segundo correspondiente. Usando estas etiquetas, los segmentos que contienen violencia y la clase de violencia contenida en ellos se presentan como una salida del sistema. La configuración experimental y la evaluación de este sistema se presentan en el siguiente capítulo.



Este documento está disponible en arxiv bajo licencia CC 4.0.


[1] http://visual-sentiment-ontology.appspot.com