paint-brush
Classificação Multilíngue da Posição Política Grosseira da Mídia: Resumo e Introduçãopor@mediabias
175 leituras

Classificação Multilíngue da Posição Política Grosseira da Mídia: Resumo e Introdução

Muito longo; Para ler

Neste artigo, os pesquisadores analisam a neutralidade dos artigos de notícias gerados por IA e a evolução da postura em vários idiomas, usando classificações autênticas de meios de comunicação.
featured image - Classificação Multilíngue da Posição Política Grosseira da Mídia: Resumo e Introdução
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.

Tabela de links


Abstrato

A neutralidade é difícil de alcançar e, em política, subjetiva. A mídia tradicional normalmente adota uma linha editorial que pode ser usada por seus leitores potenciais como um indicador do preconceito da mídia. Várias plataformas classificam atualmente os meios de comunicação de acordo com o seu preconceito político. A linha editorial e as classificações auxiliam os leitores a obter uma visão equilibrada das notícias. Mas com o advento dos modelos de linguagem que seguem instruções, tarefas como escrever um artigo de jornal podem ser delegadas a computadores. Sem impor uma personalidade tendenciosa, onde estaria um meio de comunicação baseado em IA dentro das classificações tendenciosas? Neste trabalho, utilizamos as classificações de meios de comunicação autênticos para criar um corpus multilíngue de notícias com anotações grosseiras de postura (esquerda e direita), juntamente com anotações de tópicos extraídas automaticamente. Mostramos que classificadores treinados nestes dados são capazes de identificar a linha editorial da maioria dos jornais não vistos em inglês, alemão, espanhol e catalão. Em seguida, aplicamos os classificadores a 101 artigos semelhantes a jornais escritos por ChatGPT e Bard nos 4 idiomas em diferentes períodos de tempo. Observamos que, assim como os jornais tradicionais, a linha editorial do ChatGPT evolui com o tempo e, por ser um sistema baseado em dados, a postura dos artigos gerados difere entre os idiomas.


1. Introdução

Os modelos de linguagem que seguem instruções (ILMs) são onipresentes. Seu uso ainda não é tão difundido quanto o dos buscadores, mas devido à disponibilidade e alta qualidade de sistemas e modelos como Alpaca (Taori et al., 2023), Bard (Google, 2023), BLOOMZ e mT0 (Muennighoff et al., 2023), al., 2023), ChatGPT (OpenAI, 2023), Llama 2-chat (Touvron et al., 2023) ou Koala (Geng et al., 2023), espera-se que seu uso seja mais comum em um futuro próximo. Estes modelos enfrentam vários problemas sendo o mais relevante a falta de fiabilidade (van Dis et al., 2023; Huang et al., 2023; Wang et al., 2023a). Não estão preparados para serem utilizados como fonte de informação fiável se os seus resultados não forem verificados. Um segundo grande problema com sistemas baseados em modelos de linguagem (LM) é o fato de que eles podem reproduzir os vieses presentes nos dados de treinamento (Navigli et al., 2023). Os preconceitos variam desde a má representação cultural devido ao desequilíbrio de dados até ao comportamento ofensivo reproduzido a partir de textos escritos. Os LMs são ajustados em ILMs de forma supervisionada usando pares de entrada-saída e uma instrução (Wei et al., 2022; Wang et al., 2022, 2023b) ou com aprendizagem por reforço a partir de feedback humano (Ouyang et al., 2022; Nakano et al., 2021). Em ambos os casos, o ajuste fino deve ajudar a remover distorções. Mas a neutralidade é algo muito difícil de alcançar, também para os seres humanos que geram os dados de supervisão. A fase de ajuste fino pode, portanto, corrigir excessivamente os preconceitos originais ou introduzir novos. Para métodos que geram os dados de supervisão com o próprio LM, os vieses originais podem ser herdados. Nós nos concentramos em um uso específico dos ILMs: a redação de artigos de jornal. As revistas e jornais seguem uma linha editorial geralmente conhecida do leitor. Além disso, sites como AllSides [1] Media Bias Fact Check [2] (MB/FC), ou Ad Fontes Media [3] fornecem classificações sobre o preconceito político de fontes de mídia (principalmente dos EUA) e sua qualidade em relação à informação factual. Com estas classificações, leitores conscientes podem tomar decisões informadas sobre quais meios de comunicação escolher, a fim de obter uma perspectiva equilibrada. Mas o que acontece quando os jornalistas usam sistemas como ChatGPT ou Bard para ajudar na sua escrita? Como dito acima, os humanos também têm preconceitos, o perigo reside em desconhece-los, pois podem afetar a perspetiva do utilizador/leitor (Jakesch et al., 2023; Carroll et al., 2023). O ChatGPT já alerta seus usuários sobre desinformação. No entanto, o preconceito político, se houver, não é conhecido independentemente da percepção subjetiva que o usuário tem.


Abordamos a questão acima para artigos gerados por ChatGPT e Bard em quatro idiomas: inglês, alemão, espanhol e catalão. Fazemos isso de forma automática e sistemática, quase sem intervenção humana, para que o método possa ser facilmente estendido a novas linguagens e outros ILMs com pouco esforço. Não pretendemos classificar artigos individuais com o seu preconceito específico, mas classificar a fonte mediática (um ILM, neste caso) como orientada para a esquerda ou para a direita, de forma semelhante ao que os sites de preconceito mediático fazem para jornais e outros meios de comunicação social.



1. https://www.allsides.com

2. https://mediabiasfactcheck.com

3. https://adfontesmedia.com