paint-brush
VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: resumen e introducciónpor@kinetograph
154 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: resumen e introducción

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: resumen e introducción
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

Abstracto

El reconocimiento del afecto humano ha sido un tema importante en psicofísica y visión por computadora. Sin embargo, los conjuntos de datos actualmente publicados tienen muchas limitaciones. Por ejemplo, la mayoría de los conjuntos de datos contienen marcos que solo contienen información sobre expresiones faciales. Debido a las limitaciones de los conjuntos de datos anteriores, es muy difícil comprender los mecanismos para el reconocimiento del afecto de los humanos o generalizar bien en casos comunes para modelos de visión por computadora entrenados en esos conjuntos de datos. En este trabajo, presentamos un nuevo gran conjunto de datos, el conjunto de datos de seguimiento de emociones y afectos en contexto basado en video (VEATIC), que puede superar las limitaciones de los conjuntos de datos anteriores. VEATIC tiene 124 videoclips de películas, documentales y videos caseros de Hollywood con calificaciones continuas de valencia y excitación de cada cuadro mediante anotaciones en tiempo real. Junto con el conjunto de datos, proponemos una nueva tarea de visión por computadora para inferir el efecto del personaje seleccionado a través del contexto y la información del personaje en cada cuadro de video. Además, proponemos un modelo simple para comparar esta nueva tarea de visión por computadora. También comparamos el rendimiento del modelo previamente entrenado utilizando nuestro conjunto de datos con otros conjuntos de datos similares. Los experimentos muestran los resultados competitivos de nuestro modelo previamente entrenado a través de VEATIC, lo que indica la generalización de VEATIC. Nuestro conjunto de datos está disponible en https://veatic.github.io.

1. Introducción

Reconocer el afecto humano es de vital importancia en nuestra vida diaria. Podemos inferir los sentimientos de las personas y predecir sus reacciones posteriores en función de sus expresiones faciales, interacciones con otras personas y el contexto de la escena. Es una parte invaluable de nuestra comunicación. Por tanto, muchos estudios se dedican a comprender el mecanismo de reconocimiento del afecto. Con el surgimiento de la Inteligencia Artificial (IA), muchos estudios también han propuesto algoritmos para percibir e interpretar automáticamente el afecto humano, con la posible implicación de que sistemas como robots y humanos virtuales puedan interactuar con las personas de una manera naturalista.


Figura 1. Importancia del contexto en el reconocimiento de emociones. ¿Cómo se siente ella? Mire a la mujer en la imagen (a). Si tuvieras que adivinar su emoción, podrías decir que está triste o afligida. Sin embargo, la imagen (b) revela el contexto de la escena permitiéndonos observar correctamente que ella está muy feliz o emocionada.


Cuando se les asigna la tarea de reconocer emociones en el mundo real, los humanos tienen acceso a mucha más información que solo expresiones faciales. A pesar de esto, muchos estudios que investigan el reconocimiento de emociones suelen utilizar estímulos estáticos de expresiones faciales aislados del contexto, especialmente en evaluaciones de trastornos psicológicos [3, 18] y en modelos de visión por computadora [60, 62]. Además, si bien estudios anteriores continúan investigando el proceso mediante el cual los humanos perciben las emociones, muchos de estos estudios no logran investigar cómo el reconocimiento de las emociones está influenciado por factores contextuales como la escena visual, la información de fondo, los movimientos corporales, otras caras e incluso nuestras creencias. deseos y procesamiento conceptual [4, 34, 8, 42, 44]. Curiosamente, se ha descubierto que la información contextual visual se integra de forma automática y sin esfuerzo con las expresiones faciales [2]. También puede anular las señales faciales durante los juicios emocionales [26] (Figura 1) e incluso puede influir en la percepción de las emociones en las primeras etapas del procesamiento visual [7]. De hecho, la información contextual suele ser tan valiosa para comprender las emociones de una persona como el rostro mismo [8, 9, 10]. La creciente evidencia de la importancia de la información contextual en el reconocimiento de emociones [4] exige que los investigadores reevalúen los paradigmas experimentales en los que investigan el reconocimiento de emociones humanas. Por ejemplo, para comprender mejor los mecanismos y procesos que conducen al reconocimiento de las emociones humanas durante las interacciones sociales cotidianas, se debe considerar seriamente la generalización de los estudios de investigación. Lo más importante es que los conjuntos de datos para el seguimiento de emociones y afectos no solo deben contener rostros o personajes específicos aislados, sino que también deben incluirse factores contextuales como información visual de fondo de la escena y las interacciones entre personajes.


Para representar el estado emocional de los humanos, numerosos estudios en Psicología y Neurociencia han propuesto métodos para cuantificar el estado emocional de los humanos que incluyen modelos de emoción tanto categóricos como continuos. La teoría categórica de la emoción más famosa y dominante es la teoría de las emociones básicas, que afirma que ciertas emociones son universalmente reconocidas en todas las culturas (ira, miedo, felicidad, etc.) y que todas las emociones difieren en su respuesta conductual y fisiológica, su evaluación, y en expresión [16]. Alternativamente, el modelo circumplejo de afecto, un modelo continuo de emoción, propone que todos los estados afectivos surgen de dos sistemas neurofisiológicos relacionados con la valencia y la excitación y que todas las emociones pueden describirse mediante una combinación lineal de estas dos dimensiones [52, 47, 53]. . Otro modelo de reconocimiento de emociones, el modelo del Sistema de Codificación de Acción Facial, afirma que todas las expresiones faciales se pueden descomponer en los componentes centrales de los movimientos musculares llamados Unidades de Acción [17]. Los modelos anteriores de reconocimiento de emociones se han construido teniendo en cuenta estos diferentes modelos [61, 63, 41]. Sin embargo, pocos modelos se centran en medir el afecto utilizando dimensiones continuas, un desafortunado producto de la escasez de bases de datos comentadas disponibles para la computación afectiva.


Sobre la base de las métricas de emociones antes mencionadas, se han desarrollado muchos conjuntos de datos de reconocimiento de emociones. Los primeros conjuntos de datos, como SAL [15], SEMAINE [39], Belfast inducido [58], DEAP [28] y MAHNOB-HCI [59] se recopilan en entornos de laboratorio altamente controlados y generalmente tienen un tamaño de datos pequeño. Estos conjuntos de datos anteriores carecen de diversidad en términos de personajes, movimientos, iluminación de la escena y fondos. Además, las representaciones en los primeros conjuntos de datos suelen ser discretas. Conjuntos de datos recientes, como RECOLA [49], MELD [46], OMG-emotion dataset [5], Aff-Wild [69] y Aff-Wild2 [29, 30], comienzan a recopilar estados emocionales a través de calificaciones continuas y utilizan videos. en Internet o llamado "en la naturaleza". Sin embargo, estos conjuntos de datos carecen de información contextual y se centran únicamente en las expresiones faciales. Los encuadres están dominados por personajes o rostros particulares. Además, los conjuntos de datos antes mencionados tienen anotadores limitados (normalmente menos de 10). Como los observadores humanos tienen fuertes diferencias individuales y sufren muchos sesgos [12, 45, 48], los anotadores limitados pueden generar sesgos de anotación sustanciales.


En este estudio, presentamos el conjunto de datos de seguimiento de emociones y afectos en contexto basado en video (VEATIC, /ve"ætIc/), un gran conjunto de datos que puede ser beneficioso tanto para los grupos de psicología como para los de visión por computadora. El conjunto de datos incluye 124 videoclips de Hollywood. películas, documentales y videos caseros con valencia continua y calificaciones de excitación de cada cuadro mediante anotaciones en tiempo real. También reclutamos una gran cantidad de participantes para anotar los datos con base en este conjunto de datos, proponemos una nueva tarea de visión por computadora, es decir, inferir automáticamente el efecto del personaje seleccionado a través del contexto y la información del personaje en cada cuadro de video. En este estudio, también proporcionamos una solución simple para esta tarea. Los experimentos muestran la efectividad del método, así como los beneficios del conjunto de datos VEATIC propuesto. En pocas palabras, los principales aportes de este trabajo son:


• Creamos el primer gran conjunto de datos de vídeo, VEATIC, para el seguimiento de emociones y afectos que contiene tanto rasgos faciales como factores contextuales. El conjunto de datos tiene calificaciones continuas de valencia y excitación para cada cuadro.


• Para aliviar los sesgos de los anotadores, reclutamos un gran conjunto de anotadores (192 en total) para anotar el conjunto de datos en comparación con conjuntos de datos anteriores (generalmente menos de 10).


• Proporcionamos un modelo de referencia para predecir la excitación y la valencia del personaje seleccionado en cada cuadro utilizando tanto información del personaje como factores contextuales.



Este documento está disponible en arxiv bajo licencia CC 4.0.