Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamento

Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.

Tabela de links

F. Detalhes do treinamento

Classificador F.1 L/R

Ajustamos XLM-RoBERTa grande (Conneau et al., 2020) para classificação L vs. R conforme esquematizado na Figura 1. Nosso classificador é uma pequena rede no topo de RoBERTa que primeiro executa dropout com probabilidade 0,1 no token [CLS] de RoBERTa, seguido por uma camada linear e um tanh. Passamos por outra camada de dropout com probabilidade 0,1 e uma camada linear final se projeta nas duas classes. Toda a arquitetura é ajustada.

Usamos uma perda de entropia cruzada, um otimizador AdamW e uma taxa de aprendizado que diminui linearmente. Ajustamos o tamanho do lote, a taxa de aprendizado, o período de aquecimento e o número de épocas. Os melhores valores por linguagem e modelo estão resumidos na Tabela 12.

Todos os treinamentos são realizados usando uma única GPU NVIDIA Tesla V100 Volta com 32GB.

F.2 Modelagem de Tópicos

Utilizamos Mallet (McCallum, 2002) para realizar LDA no corpus após a remoção das stopwords, com a opção de otimização de hiperparâmetros ativada e feita a cada 10 iterações. Outros parâmetros são os padrões. Fazemos uma corrida por idioma com 10 tópicos e outra corrida com 15 tópicos. Marcamos o corpus com ambos os rótulos.

Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamento

Muito longo; Para ler

Tabela de links

F. Detalhes do treinamento

Classificador F.1 L/R

F.2 Modelagem de Tópicos

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

Categories

Trending Topics

Classificação multilíngue da posição política grosseira da mídia: detalhes do treinamento

Muito longo; Para ler

Tabela de links

F. Detalhes do treinamento

Classificador F.1 L/R

F.2 Modelagem de Tópicos

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

HISTÓRIAS RELACIONADAS

Categories

Trending Topics