paint-brush
Clasificación multilingüe de posturas políticas generales de los medios: compilación de corpuspor@mediabias
245 lecturas

Clasificación multilingüe de posturas políticas generales de los medios: compilación de corpus

Demasiado Largo; Para Leer

En este artículo, los investigadores analizan la neutralidad de los artículos de noticias generados por IA y la evolución de la postura en todos los idiomas utilizando calificaciones auténticas de los medios de comunicación.
featured image - Clasificación multilingüe de posturas políticas generales de los medios: compilación de corpus
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática del Sarre.

Tabla de enlaces

2. Compilación de corpus

Abordamos nuestra tarea como un problema de clasificación con dos clases: orientaciones políticas de izquierda (L) y derecha (R). Esta es una simplificación del problema real, donde los artículos también pueden ser neutrales y puede haber diferentes grados de sesgo. Trabajos anteriores se basaron en 3 o 5 clases, incluyendo siempre la opción neutral (Baly et al., 2020; Aksenov et al., 2021). En estos trabajos, los datos se anotaron manualmente creando datos de capacitación de alta calidad pero también limitando mucho el alcance del trabajo en términos de idiomas y países cubiertos. Al utilizar la escala de clasificación detallada, los autores reconocen una mala generalización de los clasificadores a nuevas fuentes. Por otro lado, García-Díaz et al. (2022) y Russo et al. (2023) excluyen la clase neutral y trabajan con clasificaciones binarias o multiclase izquierda-derecha de tweets de políticos españoles e italianos respectivamente, pero su trabajo no incluye textos más largos. La clasificación binaria podría estar justificada ya que trabajaron con tweets, un género en el que las personas tienden a ser más viscerales y, por lo tanto, probablemente más polarizadas. En nuestro caso, debemos asegurarnos de que el clasificador se generalice bien a fuentes invisibles y nos atenemos a la tarea de 2 clases mientras minimizamos la cantidad de artículos neutrales en el entrenamiento (ver más abajo).


Supervisión a distancia. Hasta donde sabemos, solo están disponibles un corpus periodístico anotado manualmente en inglés (Baly et al., 2020) y otro en alemán (Aksenov et al., 2021). Seguimos un enfoque diferente en el espíritu de Kulkarni et al. (2018) y Kiesel et al. (2019). No anotamos manualmente ningún artículo, pero confiamos en AllSides, MB/FC, Political Watch y Wikipedia (este último sólo en los casos en que la información no está disponible en los sitios anteriores) con su clasificación de sesgo periodístico. Extraemos esta información para periódicos de EE.UU., Alemania, España y Cataluña. Con el listado de periódicos, su URL[4] y su postura, utilizamos OSCAR, un corpus multilingüe obtenido mediante el filtrado del Common Crawl (Ortiz Suárez et al., 2019; Abadji et al., 2021), para recuperar los artículos. . En el Apéndice A se enumeran las fuentes utilizadas en este trabajo: 47 periódicos estadounidenses con 742.691 artículos, 12 alemanes con 143.200, 38 españoles con 301.825 y 19 catalanes con 70.496.


Modelado de temas. No todos los artículos tienen sesgos, algunos temas son más propensos que otros. Mientras que la sección de Deportes de un periódico suele ser menos propensa a reflejar sesgos políticos, ocurre lo contrario con la sección Internacional. Por lo tanto, utilizamos temas para seleccionar un subconjunto de datos de entrenamiento relevantes para nuestra clasificación binaria. Realizamos modelado de temas en los artículos extraídos de OSCAR usando Mallet (McCallum, 2002) que aplica LDA con muestreo de Gibbs. Agrupamos los datos en 10 y 15 grupos por idioma, lo que corresponde aproximadamente al número de secciones que tiene un periódico. Las palabras clave extraídas para cada tema se enumeran en el Apéndice B. Elegimos artículos que se incluyen en los temas que etiquetamos como Internacional, Gobierno, Derecho y Justicia, Economía, Ciencias Vivas/Ecología y temas específicos que dependen del idioma, como Inmigración y Violencia para Inglés, Nazismo para el alemán y Social para el español. La selección se realiza tras la inspección de las palabras clave. Para el conjunto de datos final, hacemos la unión de los artículos seleccionados agrupados en 10 y 15 temas. El proceso filtra el 49% de los artículos españoles, el 39% de los alemanes y el 31% de los ingleses.


Preprocesamiento y Limpieza. Desechamos artículos con más de 2000 o menos de 20 palabras antes de realizar la limpieza. Posteriormente, eliminamos encabezados, pies de página y cualquier texto repetitivo detectado. Este texto tiene el potencial de engañar a un clasificador neuronal, ya que podría alentarlo a aprender a distinguir entre periódicos en lugar de centrarse en su postura política. Seleccionamos un periódico por idioma y postura para probar y limpiar manualmente sus artículos. Para crear un corpus de entrenamiento equilibrado para cada idioma, seleccionamos aleatoriamente una cantidad similar de artículos orientados a la izquierda y a la derecha de la colección restante. Este conjunto de datos equilibrado se divide en entrenamiento y validación como se muestra en la Tabla 1 (filas superiores).


ChatGPT/Bard Corpus. Creamos un conjunto de datos multilingüe con 101 artículos. Para ello, definimos 101 temas que incluyen precios de la vivienda, aborto, tabaco, Barak Obama, etc. y los traducimos manualmente a los 4 idiomas (ver Apéndice D). Las materias consideran temas proclives a tener una postura política como los relacionados con el feminismo, capitalismo, ecologismo, tecnología, etc. También incluimos nombres propios de personas en los 4 países considerados, cuya biografía puede diferir dependiendo de la postura política del escritor. Estos temas se insertan en la plantilla (y sus traducciones al alemán, español y catalán):[5] Escribe un artículo periodístico sobre [SUBJECT]en


Tabla 1: Número de artículos (recuento promedio de palabras entre paréntesis) divididos como artículos pertenecientes a un periódico con orientación Izquierda (L) y Derecha (R). Para las pruebas utilizamos periódicos que no se ven en la formación ni en la validación: Slate (L) y The National Pulse (R) para EE. UU., My Heimat (L) y die Preußische Allgemeine Zeitung (R) para Alemania.


Solicitamos ChatGPT (GPT-3.5-Turbo) cinco veces utilizando los mismos temas en cuatro períodos de tiempo. Generamos el conjunto de datos con las versiones de ChatGPT del 13 de febrero (v02), 23 de marzo (v03), 24 de mayo (v05) y 3 de agosto (v08); cubrimos los 4 idiomas simultáneamente solo con los dos últimos. ChatGPTv05 genera textos significativamente más largos que los demás con una estructura orientada a artículos con espacios para llenar con el nombre del autor, fecha y/o ciudad. Bard multilingüe estuvo disponible más tarde y lo solicitamos dos veces durante el mismo período que ChatGPTv8.[6] La Tabla 1 muestra las estadísticas de este corpus.




[4] Esto implica seleccionar todos los artículos que se encuentran bajo un nombre de dominio de un medio de comunicación, sean noticiosos o no.


[5] Las indicaciones más específicas no condujeron a diferentes estilos para las primeras versiones de ChatGPT, para la última agregamos más información como... sin subtítulos. para evitar subsecciones excesivas y/o viñetas. Ni ChatGPT ni Bard siempre siguieron correctamente las instrucciones. El conjunto de datos que proporcionamos incluye las indicaciones que utilizamos.


[6] Solicitado del 14 al 21 de agosto de 2023 desde Berlín para inglés y alemán y desde Barcelona para español y catalán ya que, a diferencia de ChatGPT, la generación depende de la ubicación.