Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
Dans cette étude, nous proposons une nouvelle tâche de reconnaissance des émotions en contexte, c'est-à-dire déduire la valence et l'excitation du personnage sélectionné via à la fois le contexte et les informations sur le personnage dans chaque image vidéo. Ici, nous proposons un modèle de base simple pour comparer la nouvelle tâche de reconnaissance des émotions dans le contexte. Le pipeline du modèle est illustré à la figure 8. Nous avons adopté deux sous-modules simples : un module de réseau neuronal convolutif (CNN) pour l'extraction de fonctionnalités et un module de transformateur visuel pour le traitement des informations temporelles. La structure du module CNN est adoptée à partir de Resnet50 [21]. Contrairement à CAER [33] et EMOTIC [32], où les caractéristiques du visage/caractère et du contexte sont extraites séparément et fusionnées plus tard, nous codons directement la trame entièrement informée. Pour une seule prédiction, N images vidéo consécutives sont codées indépendamment. Ensuite, les vecteurs de caractéristiques des trames consécutives sont d'abord intégrés en position et introduits dans le codeur de transformateur contenant L ensembles de modules d'attention. Enfin, la prédiction de l'éveil et de la valence est réalisée par une tête de perceptron multicouche (MLP).
La fonction de perte de notre modèle de base est une combinaison pondérée de deux pertes distinctes. La perte MSE régularise l’alignement local de la vérité terrain des notations et des prédictions du modèle. Afin de garantir l'alignement des notes et des prédictions à plus grande échelle, comme l'apprentissage des statistiques temporelles des notes émotionnelles, nous utilisons également le coefficient de corrélation de concordance (CCC) comme régularisation. Ce coefficient est défini comme suit,
Le SAGR mesure dans quelle mesure les signes des valeurs individuelles de deux vecteurs X et Y correspondent. Il prend des valeurs dans [0, 1], où 1 représente l'accord complet et 0 représente une contradiction complète. La métrique SAGR peut capturer des informations de performances supplémentaires par rapport aux autres. Par exemple, étant donné une vérité terrain de valence de 0,2, les prédictions de 0,7 et -0,3 conduiront à la même valeur RMSE. Mais clairement, 0,7 est mieux adapté car c’est une valence positive.
Nous évaluons la nouvelle tâche de reconnaissance des émotions dans le contexte en utilisant les 4 métriques susmentionnées, CCC, PCC, RMSE et SAGR. Les résultats sont présentés dans le tableau 3. Par rapport à d'autres ensembles de données, la méthode simple que nous proposons est comparable aux méthodes de pointe sur leurs ensembles de données.
Nous étudions également l'importance du contexte et des informations sur les personnages dans les tâches de reconnaissance des émotions en introduisant les cadres contextuels et uniquement les caractères dans le modèle pré-entraîné sur des cadres entièrement informés. Afin d'obtenir des comparaisons équitables et d'exclure l'influence des différences de distribution des pixels des images, nous affinons également le modèle pré-entraîné sur les images de contexte uniquement et de caractères uniquement. Les résultats correspondants sont également présentés dans le tableau 3. Sans informations complètes, les performances du modèle chutent pour les conditions contextuelles uniquement et pour les caractères uniquement.
Afin de montrer l'efficacité de l'ensemble de données VEATIC, nous avons utilisé notre modèle pré-entraîné sur VEATIC, l'avons affiné sur d'autres ensembles de données et testé ses performances. Nous avons testé uniquement EMOTIC [32] et CAER-S [33] étant donné la simplicité de notre modèle et la similitude de notre modèle avec les modèles proposés dans d'autres articles sur les ensembles de données. Les résultats sont présentés dans le tableau 4. Notre modèle pré-entraîné fonctionne à égalité avec les méthodes proposées dans EMOTIC [32] et CAERS [33]. Ainsi, cela montre l’efficacité de notre ensemble de données VEATIC proposé.
Cet article est disponible sur arxiv sous licence CC 4.0.