Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
In diesem Abschnitt stellen wir den videobasierten Datensatz „Emotion and Affect Tracking in Context“ ( VEATIC ) vor. Zunächst beschreiben wir, wie wir alle Videoclips erhalten haben. Als Nächstes veranschaulichen wir die Verfahren zur Datenannotation und den Vorverarbeitungsprozess. Abschließend berichten wir über wichtige Datensatzstatistiken und visualisieren die Ergebnisse der Datenanalyse.
Alle im Datensatz verwendeten Videoclips wurden von einer Online-Video-Sharing-Website (YouTube) bezogen und die Videoclips wurden auf der Grundlage ausgewählt, dass die Emotionen/Atmosphäre der Charaktere in den Clips im Laufe der Zeit variieren sollten. Insgesamt enthält der VEATIC-Datensatz 124 Videoclips, 104 Clips aus Hollywood-Filmen, 15 Clips aus Heimvideos und 5 Clips aus Dokumentationen oder Reality-TV-Shows. Beispielbilder aus dem VEATIC-Datensatz werden in (Abbildung 2) angezeigt. Diese Videos enthalten null bis mehrere interagierende Charaktere. Der gesamte Ton wurde aus den Videos entfernt, sodass die Beobachter beim Verfolgen der Emotionen des Zielcharakters nur Zugriff auf visuelle Informationen hatten.
Insgesamt waren 192 Beobachter an der Annotation der Videos im Datensatz beteiligt. Alle Teilnehmer gaben ihre unterzeichnete Einwilligung gemäß den Richtlinien und Vorschriften des UC Berkeley Institutional Review Board und alle experimentellen Verfahren wurden genehmigt.
Die Teilnehmer sahen sich insgesamt 124 Videos im Datensatz an und bewerteten sie. Um zu verhindern, dass die Beobachter ermüden, teilten wir das Annotationsverfahren in zwei Annotationssitzungen von je 1 Stunde und 30 Minuten auf. Bevor die Teilnehmer Videos annotieren konnten, wurde ihnen eine gedruckte Version des Bewertungsrasters für Valenz-Erregung-Affekte mit Beispielen von Emotionen gezeigt, die an verschiedenen Stellen des Rasters entsprechend den Bewertungen von Bradley und Lang (1999) [6] beschriftet waren. Die Annotatoren wurden angewiesen, sich mit den Dimensionen und den Beispielwortstellen vertraut zu machen, die sie später im Annotationsprozess verwenden würden. Nachdem sich die Teilnehmer mit dem Bewertungsraster für Affekte vertraut gemacht hatten, führten sie eine zweiminütige Übungsannotation durch, bei der sie die Valenz und Erregung einer Zielfigur in einem Video kontinuierlich verfolgten (Abbildung 3b). Die Annotatoren wurden angewiesen, die Valenz und Erregung der Zielfigur im Video zu verfolgen, indem sie ihren Mauszeiger in Echtzeit kontinuierlich innerhalb des 2D-Valenz-Erregungsrasters bewegten. Das Raster würde ihre Valenz- und Erregungsbewertungen im Bereich von [−1, 1] abbilden. Um mögliche motorische Verzerrungen zu kontrollieren, haben wir die Valenz-Erregungsdimensionen zwischen den Teilnehmern ausgeglichen, wobei die Hälfte der Kommentatoren Valenz auf der x-Achse und Erregung auf der y-Achse hatte und die andere Hälfte die Dimensionen vertauscht hatte, sodass Erregung auf der x-Achse und Valenz auf der y-Achse lag. Nachdem die Beobachter die Übungssitzung zur Kommentierung beendet hatten, begannen sie mit der Kommentierung der Videos im Datensatz.
Bevor die Teilnehmer mit den Anmerkungen begannen, wurde ihnen ein Bild mit der eingekreisten Zielfigur gezeigt (Abbildung 3a), das den Teilnehmern mitteilte, welche Figur sie verfolgen werden, wenn das Video beginnt. Dann kommentierten sie die Videoclips in Echtzeit. Am Ende jeder Videoanmerkung berichteten die Teilnehmer über ihre Vertrautheit mit dem Videoclip anhand einer diskreten Likert-Skala von 1–5, die von „Nicht vertraut“, „Ein wenig vertraut“, „Etwas vertraut“, „Mäßig vertraut“ und „Extrem vertraut“ reichte. Die Teilnehmer wurden auch nach ihrem Spaß beim Ansehen des Clips gefragt, der anhand einer diskreten Likert-Skala von 1–9 bewertet wurde, die von 1 (Nicht unterhaltsam) bis 9 (Extrem unterhaltsam) reichte. Damit den Teilnehmern nicht langweilig wurde, wurden alle 124 Videoclips in zwei Sitzungen aufgeteilt. Die Teilnehmer bewerteten die Videoclips in zwei Sitzungen separat.
Während jedes Versuchs beurteilten wir, ob die Teilnehmer unaufmerksam waren, indem wir die Dauer verfolgten, die sie den Mauszeiger an einer einzelnen Stelle hielten. Wenn die Dauer länger als 10 Sekunden war, begann das Bewertungsraster der Affekte zu schwanken, was die Teilnehmer daran erinnerte, weiterhin die Emotion der Zielfigur zu verfolgen. Um zu beurteilen, ob es in unserem Datensatz verrauschte Annotatoren gab, berechneten wir die Übereinstimmung jedes einzelnen Annotators mit dem Konsens, indem wir die Pearson-Korrelation zwischen jedem Annotator und dem Leave-One-Out-Konsens (Gesamtheit der Antworten außer dem aktuellen Annotator) für jedes Video berechneten. Wir fanden heraus, dass nur ein Annotator eine Korrelation von weniger als 0,2 über alle Videos hinweg mit dem Leave-One-Out-Konsens aufwies. Da nur ein Annotator unter unseren Schwellenwert fiel, entschieden wir uns, den Annotator im Datensatz zu belassen, um keine wichtigen alternativen Annotationen zu den Videos zu entfernen.
Abbildung 4 zeigt Beispiele für Durchschnittsbewertungen und Schlüsselbilder in zwei verschiedenen Videoclips. Sowohl die Valenz als auch die Erregung weisen hier eindeutig eine große Bandbreite an Bewertungen auf. Darüber hinaus zeigt es, dass Kontextinformationen, entweder räumlich und/oder zeitlich, bei Aufgaben zur Emotionserkennung eine wichtige Rolle spielen. Im Valenzbeispiel (obere Abbildung) wäre es ohne die zeitlichen und/oder räumlichen Kontextinformationen des Kampfes schwer zu erkennen, ob die Figur (die Frau) im letzten Bild (gelb) überraschend glücklich oder erstaunt ist. Im Erregungsbeispiel (untere Abbildung) können Beobachter selbst ohne das Gesicht der ausgewählten Figur anhand des intensiven Kontexts leicht und konsistent auf die Erregung der Figur schließen.
Abbildung 5 zeigt exemplarische Valenz- und Erregungsbewertungen aller Teilnehmer für ein einzelnes Video in unserem Datensatz. Die Bewertungen der einzelnen Probanden (graue Linien) folgten den Konsensbewertungen aller Teilnehmer (grüne Linie) sowohl für die Valenz- als auch für die Erregungsbewertungen. Die dichte graue Linie, die sich um die grüne Konsenslinie überlappt, weist auf Übereinstimmungen zwischen einer großen Bandbreite von Beobachtern hin. Zusätzlich untersuchten wir, wie die Antworten der Beobachter zwischen den Videos variierten, indem wir die Standardabweichung aller Beobachter für jedes Video berechneten. Wir stellten fest, dass die Varianz zwischen den Beobachtern sowohl für die Valenz- als auch für die Erregungsdimension gering war, wobei die Valenz eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,222 und die Erregung eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,244 aufwies, was mit der Varianz der Valenz- und Erregungsbewertungen von EMOTIC [32] vergleichbar ist.
Die Verteilung der Valenz- und Erregungsbewertungen über alle unsere Videos hinweg ist in Abbildung 6 dargestellt. Wir haben festgestellt, dass die Bewertungen der einzelnen Teilnehmer vollständig über beide Dimensionen verteilt waren, Valenz und Erregung, was die Vielfalt des VEATIC-Datensatzes unterstreicht. Wir haben auch Vertrautheits- und Genussbewertungen für jedes Video unter den Teilnehmern erfasst (siehe Abbildung 7). Wir haben festgestellt, dass die Beobachter mit den im Datensatz verwendeten Videos nicht vertraut waren, da die durchschnittliche Vertrautheitsbewertung für die Video-IDs 0-97 1,61 betrug. Darüber hinaus bewerteten die Beobachter ihren Genuss beim Ansehen der Videos mit durchschnittlich 4,98 für die Video-IDs 0-97, was darauf hindeutet, dass die Beobachter das Ansehen und Kommentieren der Videoclips mäßig genossen. Vertrautheits- und Genussbewertungen wurden für die Video-IDs 98-123 nicht erfasst, da die Kommentierungen für diese Videos zu einem früheren Zeitpunkt während der Datenerfassung erfasst wurden, der diese Bewertungen nicht enthielt.
Tabelle 2 unten fasst die grundlegenden Statistiken des VEATIC-Datensatzes zusammen. Kurz gesagt, VEATIC hat eine lange Gesamtdauer der Videoclips und eine Vielzahl von Videoquellen, die ein breites Spektrum an Kontexten und emotionalen Zuständen abdecken. Darüber hinaus haben wir im Vergleich zu früheren Datensätzen weitaus mehr Teilnehmer rekrutiert, um die Bewertungen zu kommentieren.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .