Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
In dieser Studie schlagen wir eine neue Aufgabe zur Emotionserkennung im Kontext vor, nämlich die Valenz und Erregung des ausgewählten Charakters anhand von Kontext- und Charakterinformationen in jedem Videobild abzuleiten. Hier schlagen wir ein einfaches Basismodell vor, um die neue Aufgabe zur Emotionserkennung im Kontext zu bewerten. Die Pipeline des Modells ist in Abbildung 8 dargestellt. Wir haben zwei einfache Untermodule übernommen: ein Convolutional Neural Network (CNN)-Modul zur Merkmalsextraktion und ein Visual Transformer-Modul zur Verarbeitung zeitlicher Informationen. Die CNN-Modulstruktur wurde von Resnet50 [21] übernommen. Im Gegensatz zu CAER [33] und EMOTIC [32], wo Gesichts-/Charakter- und Kontextmerkmale separat extrahiert und später zusammengeführt werden, kodieren wir das vollständig informierte Bild direkt. Für eine einzelne Vorhersage werden aufeinanderfolgende N Videobilder unabhängig voneinander kodiert. Dann werden die Merkmalsvektoren aufeinanderfolgender Bilder zunächst in die Position eingebettet und in den Transformer-Encoder eingespeist, der L Sätze von Aufmerksamkeitsmodulen enthält. Schließlich wird die Vorhersage von Erregung und Valenz durch einen Multilayer Perceptron (MLP)-Kopf durchgeführt.
Die Verlustfunktion unseres Basismodells ist eine gewichtete Kombination aus zwei separaten Verlusten. Der MSE-Verlust reguliert die lokale Ausrichtung der Grundwahrheit der Bewertungen und der Modellvorhersagen. Um die Ausrichtung der Bewertungen und Vorhersagen in größerem Maßstab zu gewährleisten, beispielsweise beim Erlernen der zeitlichen Statistiken der emotionalen Bewertungen, verwenden wir auch den Konkordanzkorrelationskoeffizienten (CCC) als Regularisierung. Dieser Koeffizient ist wie folgt definiert:
Der SAGR misst, wie gut die Vorzeichen der einzelnen Werte zweier Vektoren X und Y übereinstimmen. Er nimmt Werte zwischen [0, 1] an, wobei 1 die vollständige Übereinstimmung und 0 einen vollständigen Widerspruch darstellt. Die SAGR-Metrik kann mehr Leistungsinformationen erfassen als andere. Bei einer Valenz-Grundwahrheit von 0,2 führen beispielsweise Vorhersagen von 0,7 und -0,3 zum gleichen RMSE-Wert. Aber 0,7 ist eindeutig besser geeignet, da es sich um eine positive Valenz handelt.
Wir vergleichen die neue Emotionserkennung im Kontext anhand der oben genannten 4 Metriken CCC, PCC, RMSE und SAGR. Die Ergebnisse sind in Tabelle 3 dargestellt. Im Vergleich zu anderen Datensätzen ist unsere vorgeschlagene einfache Methode mit den modernsten Methoden für ihre Datensätze vergleichbar.
Wir untersuchen auch die Bedeutung von Kontext- und Charakterinformationen bei Aufgaben zur Emotionserkennung, indem wir die Nur-Kontext- und Nur-Charakter-Frames in das vortrainierte Modell mit vollständig informierten Frames einspeisen. Um faire Vergleiche zu erhalten und den Einfluss von Unterschieden in der Frame-Pixelverteilung auszuschließen, optimieren wir das vortrainierte Modell auch mit den Nur-Kontext- und Nur-Charakter-Frames. Die entsprechenden Ergebnisse sind ebenfalls in Tabelle 3 dargestellt. Ohne vollständige Informationen sinkt die Modellleistung sowohl unter Kontext- als auch unter Nur-Charakter-Bedingungen.
Um die Wirksamkeit des VEATIC-Datensatzes zu zeigen, haben wir unser vorab trainiertes Modell auf VEATIC angewendet, es auf anderen Datensätzen feinabgestimmt und seine Leistung getestet. Aufgrund der Einfachheit unseres Modells und der Ähnlichkeit unseres Modells mit den in anderen Datensatzpapieren vorgeschlagenen Modellen haben wir nur auf EMOTIC [32] und CAER-S [33] getestet. Die Ergebnisse sind in Tabelle 4 dargestellt. Unser vorab trainiertes Modell ist genauso leistungsfähig wie die in EMOTIC [32] und CAERS [33] vorgeschlagenen Methoden. Dies zeigt die Wirksamkeit unseres vorgeschlagenen VEATIC-Datensatzes.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .