Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);
(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);
(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);
(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).
Nesta seção, apresentamos o conjunto de dados de rastreamento de emoção e afeto baseado em vídeo em contexto ( VEATIC ). Primeiro, descrevemos como obtivemos todos os videoclipes. A seguir, ilustramos os procedimentos de anotação de dados e o processo de pré-processamento. Por fim, relatamos estatísticas importantes do conjunto de dados e visualizamos os resultados da análise de dados.
Todos os videoclipes utilizados no conjunto de dados foram adquiridos de um site de compartilhamento de vídeos on-line (YouTube) e os videoclipes foram selecionados com base no fato de que as emoções/afetos dos personagens nos clipes deveriam variar ao longo do tempo. No total, o conjunto de dados VEATIC contém 124 videoclipes, 104 clipes de filmes de Hollywood, 15 clipes de vídeos caseiros e 5 clipes de documentários ou reality shows. Quadros de amostra do conjunto de dados VEATIC são mostrados na (Figura 2). Esses vídeos contêm de zero a vários personagens em interação. Todo o som foi removido dos vídeos para que os observadores só tivessem acesso às informações visuais ao rastrear a emoção do personagem alvo.
No total, tivemos 192 observadores que participaram da anotação dos vídeos no conjunto de dados. Todos os participantes forneceram consentimento assinado de acordo com as diretrizes e regulamentos do Conselho de Revisão Institucional da UC Berkeley e todos os procedimentos experimentais foram aprovados.
Os participantes assistiram e avaliaram um total de 124 vídeos no conjunto de dados. Para evitar que os observadores fiquem cansados, dividimos o procedimento de anotação em duas sessões de anotação de 1 hora e 30 minutos. Antes que os participantes pudessem anotar qualquer vídeo, eles viram uma versão impressa da grade de classificação de afeto de excitação de valência com exemplos de emoções rotuladas em diferentes locais da grade de acordo com as classificações fornecidas por Bradley e Lang (1999) [6]. Os anotadores foram instruídos a se familiarizarem com as dimensões e as localizações das palavras de amostra que utilizariam posteriormente no processo de anotação. Depois que os participantes se familiarizaram com a grade de classificação de afeto, eles completaram uma anotação prática de dois minutos, onde rastrearam continuamente a valência e a excitação de um personagem alvo em um vídeo (Figura 3b). Os anotadores foram instruídos a rastrear a valência e a excitação do personagem alvo no vídeo, movendo continuamente o ponteiro do mouse em tempo real dentro da grade 2D de excitação de valência. A grade seria mapeada para suas classificações de valência e excitação no intervalo de [−1, 1]. Para controlar possíveis vieses motores, contrabalançamos as dimensões de excitação de valência entre os participantes, onde metade dos anotadores tinha valência no eixo x e excitação no eixo y e a outra metade teve as dimensões invertidas para que a excitação estivesse no x -eixo e valência estavam no eixo y. Depois que os observadores terminaram a sessão de anotação prática, eles começaram a anotar os vídeos no conjunto de dados.
Antes dos participantes iniciarem as anotações, foi mostrada uma imagem com o personagem alvo circulado (Figura 3a) que informa aos participantes qual personagem eles irão rastrear quando o vídeo começar. Em seguida, eles anotaram os videoclipes em tempo real. No final de cada anotação de vídeo, os participantes relataram sua familiaridade com o videoclipe usando uma escala Likert discreta de 1 a 5 que variava de “Não familiarizado”, “Um pouco familiar”, “Um pouco familiar”, “Moderadamente familiar” e “Extremamente familiar”. familiar". Os participantes também foram questionados sobre seu nível de prazer ao assistir ao clipe, que foi avaliado usando uma escala Likert discreta de 1 a 9, que variou de 1 (Não Agradável) a 9 (Extremamente Agradável). Além disso, para não deixar os participantes entediados, todos os 124 videoclipes foram divididos em duas sessões. Os participantes avaliaram os videoclipes em duas sessões separadamente.
Durante cada tentativa, avaliamos se os participantes não estavam prestando atenção, rastreando o tempo que mantiveram o ponteiro do mouse em um único local. Se a duração fosse superior a 10 segundos, a grelha de classificação de efeitos começaria a flutuar, o que lembrava aos participantes que continuassem a monitorizar a emoção do personagem alvo. Para avaliar se havia algum anotador ruidoso em nosso conjunto de dados, calculamos a concordância de cada anotador individual com o consenso calculando a correlação de Pearson entre cada anotador e o consenso de exclusão (agregado de respostas, exceto para o anotador atual) para cada vídeo. Descobrimos que apenas um anotador teve uma correlação inferior a 0,2 em todos os vídeos com o consenso de deixar um de fora. Como apenas um anotador ficou abaixo do nosso limite, decidimos mantê-lo no conjunto de dados para não remover nenhuma anotação alternativa importante dos vídeos.
A Figura 4 mostra amostras de classificações médias e quadros-chave em dois videoclipes diferentes. Claramente, tanto a valência quanto a excitação aqui têm uma ampla gama de classificações. Além disso, mostra que a informação de contexto, seja espacial e/ou temporal, desempenha um papel importante nas tarefas de reconhecimento de emoções. No exemplo de valência (figura superior), sem a informação do contexto temporal e/ou espacial do combate, seria difícil reconhecer se a personagem (a mulher) do último quadro (amarelo) está surpreendentemente feliz ou atônita. No exemplo de excitação (figura inferior), mesmo sem o rosto do personagem selecionado, os observadores podem inferir de forma fácil e consistente a excitação do personagem através do contexto intenso.
A Figura 5 ilustra amostras de avaliações de valência e excitação de todos os participantes para um único vídeo em nosso conjunto de dados. As classificações individuais dos sujeitos (linhas cinzentas) seguiram as classificações de consenso entre os participantes (linha verde) tanto para as classificações de valência como de excitação. A densa linha cinzenta sobreposta à linha verde de consenso indica acordos entre uma vasta gama de observadores. Além disso, investigamos como as respostas dos observadores variavam entre os vídeos calculando o desvio padrão entre os observadores para cada vídeo. Descobrimos que a variância entre os observadores para as dimensões de valência e excitação era pequena, com a valência tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,222 e a excitação tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,244, que são comparável com a variação da classificação de valência e excitação do EMOTIC [32].
A distribuição das classificações de valência e excitação em todos os nossos vídeos é mostrada na Figura 6. Descobrimos que as classificações individuais dos participantes foram totalmente distribuídas entre as dimensões de valência e excitação, o que destaca a diversidade do conjunto de dados VEATIC. Também coletamos classificações de familiaridade e diversão para cada vídeo entre os participantes (mostrados na Figura 7). Descobrimos que os observadores não estavam familiarizados com os vídeos usados no conjunto de dados, pois a classificação média de familiaridade foi de 1,61 para IDs de vídeo de 0 a 97. Além disso, os observadores avaliaram seu prazer ao assistir aos vídeos com uma média de 4,98 para IDs de vídeo de 0 a 97, indicando que os observadores gostaram moderadamente de assistir e anotar os videoclipes. As classificações de familiaridade e diversão não foram coletadas para os IDs de vídeo 98 a 123, pois as anotações desses vídeos foram coletadas em um momento anterior durante a coleta de dados que não incluía essas classificações.
A Tabela 2 abaixo resume as estatísticas básicas do conjunto de dados VEATIC. Em poucas palavras, VEATIC tem uma longa duração total de videoclipe e uma variedade de fontes de vídeo que cobrem uma ampla gama de contextos e condições emocionais. Além disso, em comparação com conjuntos de dados anteriores, recrutamos muito mais participantes para anotar as classificações.
Este artigo está disponível no arxiv sob licença CC 4.0.