VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentos

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).

Tabela de links

4. Experimentos

Neste estudo, propomos uma nova tarefa de reconhecimento de emoções em contexto, ou seja, inferir a valência e a excitação do personagem selecionado através do contexto e das informações do personagem em cada quadro de vídeo. Aqui, propomos um modelo de linha de base simples para avaliar o novo reconhecimento de emoções na tarefa de contexto. O pipeline do modelo é mostrado na Figura 8. Adotamos dois submódulos simples: um módulo de rede neural convolucional (CNN) para extração de características e um módulo transformador visual para processamento de informações temporais. A estrutura do módulo CNN é adotada do Resnet50 [21]. Ao contrário de CAER [33] e EMOTIC [32], onde recursos faciais/personagens e de contexto são extraídos separadamente e mesclados posteriormente, codificamos diretamente o quadro totalmente informado. Para uma única previsão, N quadros de vídeo consecutivos são codificados de forma independente. Em seguida, os vetores de recursos de quadros consecutivos são incorporados na primeira posição e alimentados no codificador do transformador contendo L conjuntos de módulos de atenção. Por fim, a previsão de excitação e valência é realizada por uma cabeça perceptron multicamadas (MLP).

4.1. Função de perda e configuração de treinamento

A função de perda do nosso modelo de base é uma combinação ponderada de duas perdas separadas. A perda do MSE regulariza o alinhamento local da verdade básica das classificações e das previsões do modelo. Para garantir o alinhamento das avaliações e previsões em maior escala, como aprender as estatísticas temporais das avaliações emocionais, também utilizamos o coeficiente de correlação de concordância (CCC) como regularização. Este coeficiente é definido como segue,

4.2. Métricas de avaliação

O SAGR mede o quanto os sinais dos valores individuais de dois vetores X e Y correspondem. Assume valores em [0, 1], onde 1 representa a concordância completa e 0 representa uma contradição completa. A métrica SAGR pode capturar informações de desempenho adicionais do que outras. Por exemplo, dada uma verdade fundamental de valência de 0,2, as previsões de 0,7 e -0,3 levarão ao mesmo valor RMSE. Mas claramente, 0,7 é mais adequado porque é uma valência positiva.

4.3. Resultados de referência

Comparamos a nova tarefa de reconhecimento de emoção em contexto usando as 4 métricas mencionadas acima, CCC, PCC, RMSE e SAGR. Os resultados são mostrados na Tabela 3. Em comparação com outros conjuntos de dados, nosso método simples proposto está no mesmo nível dos métodos de última geração em seus conjuntos de dados.

Também investigamos a importância das informações de contexto e caráter em tarefas de reconhecimento de emoções, alimentando os quadros somente de contexto e somente de personagem no modelo pré-treinado em quadros totalmente informados. Para obter comparações justas e excluir a influência das diferenças na distribuição de pixels dos quadros, também ajustamos o modelo pré-treinado nos quadros somente de contexto e somente de caracteres. Os resultados correspondentes também são mostrados na Tabela 3. Sem informações completas, o desempenho do modelo cai tanto para condições somente de contexto quanto apenas para caracteres.

Para mostrar a eficácia do conjunto de dados VEATIC, utilizamos nosso modelo pré-treinado no VEATIC, ajustamos-no em outros conjuntos de dados e testamos seu desempenho. Testamos apenas EMOTIC [32] e CAER-S [33], dada a simplicidade do nosso modelo e a semelhança do nosso modelo com os modelos propostos em outros artigos de conjunto de dados. Os resultados são mostrados na Tabela 4. Nosso modelo pré-treinado tem desempenho equivalente aos métodos propostos em EMOTIC [32] e CAERS [33]. Assim, mostra a eficácia do nosso conjunto de dados VEATIC proposto.

Este artigo está disponível no arxiv sob licença CC 4.0.

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentos

Muito longo; Para ler

Tabela de links

4. Experimentos

4.1. Função de perda e configuração de treinamento

4.2. Métricas de avaliação

4.3. Resultados de referência

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

Categories

Trending Topics

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: experimentos

Muito longo; Para ler

Tabela de links

4. Experimentos

4.1. Função de perda e configuração de treinamento

4.2. Métricas de avaliação

4.3. Resultados de referência

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

HISTÓRIAS RELACIONADAS

Categories

Trending Topics