Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.
Autores:
(1) Yejin Bang, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong;
(2) Nayeon Lee, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong;
(3) Pascale Fung, Centro de Investigación en Inteligencia Artificial (CAiRE), Universidad de Ciencia y Tecnología de Hong Kong.
El estudio está limitado por su adherencia a la configuración de tareas basada en inglés del punto de referencia. El análisis se limita a las ideologías políticas de Estados Unidos y del idioma inglés. Además, el límite de entrada de 1024 subtokens del modelo BART restringe la cantidad de artículos fuente sesgados que se pueden incluir como entrada. Es importante señalar que estas limitaciones, si bien pueden afectar el alcance de los hallazgos del estudio, no son infrecuentes en la investigación del procesamiento del lenguaje natural. No obstante, las investigaciones futuras pueden beneficiarse al abordar estas limitaciones explorando métodos alternativos para una gama más amplia de ideologías políticas (ideologías políticas no estadounidenses) e idiomas, así como incorporando textos de entrada más largos para capturar una gama más completa de artículos fuente.
El tema de los artículos sesgados y con marcos ha sido ampliamente estudiado, ya que pueden generar polarización al influir en las opiniones de los lectores hacia una determinada persona, grupo o tema. Para abordar este problema, nuestra investigación se centra en introducir una función de pérdida que pueda incorporarse para permitir que el modelo reduzca el sesgo de encuadre en el resumen generado.
Sin embargo, es importante reconocer que las tecnologías automáticas también pueden tener consecuencias negativas no deseadas si no se desarrollan con una cuidadosa consideración de sus impactos más amplios. Por ejemplo, los modelos de aprendizaje automático pueden introducir sesgos en su producción, reemplazando el sesgo de fuente conocida por otra forma de sesgo (Lee et al., 2022). Para mitigar este riesgo, Lee et al. (2022) han sugerido incluir una mención explícita de los artículos fuente junto con resúmenes neutrales generados automáticamente. Además, si bien nuestro trabajo tiene como objetivo eliminar el sesgo de encuadre en los artículos generados por humanos, existe la posibilidad de que se produzcan alucinaciones en la generación, que es un problema bien conocido de los modelos generativos (Ji et al., 2023). Por lo tanto, es importante equipar una barandilla (por ejemplo, una provisión de referencia de fuente) si dicha tecnología automática se implementa para casos de uso reales.
A pesar de estos desafíos, nuestra investigación puede contribuir al esfuerzo de mitigar el sesgo de encuadre generado por humanos para reducir la polarización en la sociedad. Uno de los casos de uso puede ser ayudar a expertos humanos en el proceso de proporcionar artículos sintetizados de múltiples vistas sin sesgos de encuadre. En términos de impacto social más amplio, esperamos que nuestro trabajo pueda ayudar a los usuarios en línea a acceder a información más despolarizada en línea.
2021. Centro: ¿qué significa una calificación de sesgo de los medios de "centro"?
Ramy Baly, Giovanni Da San Martino, James Glass y Preslav Nakov. 2020. Podemos detectar su sesgo: predecir la ideología política de los artículos periodísticos. En Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), páginas 4982–4991, en línea. Asociación de Lingüística Computacional.
Adriana Beratšová, Kristína Krchová, Nikola Gažová y Michal Jirásek. 2016. Encuadre y sesgo: una revisión de la literatura de hallazgos recientes. Revista de gestión de Europa Central, 3 (2).
Dennis Chong y James N. Druckman. 2007. Teoría del encuadre. Año. Rev. Polit. Ciencia, 10:103–126.
Robert M. Entman. 2002. Encuadre: hacia la clarificación de un paradigma fracturado. Lector de McQuail en teoría de la comunicación de masas. Londres, California y Nueva Delhi: Sage.
Robert M. Entman. 2007. Sesgo de encuadre: los medios en la distribución del poder. Revista de comunicación, 57(1):163–173.
Robert M. Entman. 2010. Sesgos en el marco de los medios y poder político: explicación de la inclinación en las noticias de la campaña de 2008. Periodismo, 11(4):389–408.
Alexander R Fabbri, Irene Li, Tianwei She, Suyi Li y Dragomir R Radev. 2019. Multinoticias: un conjunto de datos de resumen de múltiples documentos a gran escala y un modelo jerárquico abstracto. preimpresión de arXiv arXiv:1906.01749
Lisa Fan, Marshall White, Eva Sharma, Ruisi Su, Prafulla Kumar Choubey, Ruihong Huang y Lu Wang. 2019. A la vista: el sesgo de los medios a través de la lente de los informes fácticos. Preimpresión de arXiv arXiv:1909.02670.
Matthew Gentzkow y Jesse M Shapiro. 2006. Sesgo y reputación de los medios. Revista de Economía Política, 114(2):280–316.
Matthew Gentzkow, Jesse M Shapiro y Daniel F Stone. 2015. Sesgo de los medios en el mercado: teoría. En Manual de economía de los medios, volumen 1, páginas 623–645. Elsevier.
Erving Goffman. 1974. Análisis de marcos: ensayo sobre la organización de la experiencia. Prensa de la Universidad de Harvard
Félix Hamborg, Karsten Donnay y Béla Gipp. 2019. Identificación automatizada del sesgo de los medios en artículos de noticias: una revisión interdisciplinaria de la literatura. Revista internacional de bibliotecas digitales, 20(4):391–415.
Félix Hamborg, Norman Meuschke y Béla Gipp. 2017. Agregación de noticias basada en matrices: explorando diferentes perspectivas de noticias. En la Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (JCDL) de 2017, páginas 1 a 10. IEEE.
Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto y Pascale Fung. 2023. Encuesta sobre alucinaciones en la generación del lenguaje natural. Computación ACM. Sobrev., 55(12).
Daniel Kahneman y Amos Tversky. 2013. Teoría de la perspectiva: un análisis de la decisión bajo riesgo. En Manual de los fundamentos de la toma de decisiones financieras: Parte I, páginas 99–127. Científico mundial.
Philippe Laban y Martí A. Hearst. 2017. newslens: creación y visualización de noticias de largo alcance. En Actas de los eventos e historias del taller de noticias, páginas 1–9.
Nayeon Lee, Yejin Bang, Tiezheng Yu, Andrea Madotto y Pascale Fung. 2022. NeuS: resumen neutral de múltiples noticias para mitigar el sesgo de encuadre. En Actas de la Conferencia de 2022 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, páginas 3131–3148, Seattle, Estados Unidos. Asociación de Lingüística Computacional.
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov y Luke Zettlemoyer. 2019. Bart: Entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural. preimpresión de arXiv arXiv:1910.13461.
Yujian Liu, Xinliang Frederick Zhang, David Wegsman, Nicholas Beauchamp y Lu Wang. 2022. POLÍTICA: Entrenamiento previo con comparación de artículos del mismo artículo para predicción de ideología y detección de posturas. En Hallazgos de la Asociación de Lingüística Computacional: NAACL 2022, páginas 1354–1374, Seattle, Estados Unidos. Asociación de Lingüística Computacional.
Saif Mohamed. 2018. Obtención de calificaciones humanas confiables de valencia, excitación y dominancia para 20 000 palabras en inglés. En Actas de la 56ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos), páginas 174–184.
Fred Morstatter, Liang Wu, Uraz Yavanoglu, Stephen R Corman y Huan Liu. 2018. Identificación del sesgo de encuadre en las noticias en línea. Transacciones ACM sobre informática social, 1(2):1–18.
Kishore Papineni, Salim Roukos, Todd Ward y WeiJing Zhu. 2002. Bleu: un método para la evaluación automática de la traducción automática. En Actas de la 40ª reunión anual de la Asociación de Lingüística Computacional, páginas 311–318.
Souneil Park, Seungwoo Kang, Sangyoung Chung y Junehwa Song. 2009. Newscube: ofrecer múltiples aspectos de las noticias para mitigar el sesgo de los medios. En Actas de la conferencia SIGCHI sobre factores humanos en sistemas informáticos, páginas 443–452.
Dietram A. Scheufele. 2000. Revisión del establecimiento, preparación y encuadre de la agenda: otra mirada a los efectos cognitivos de la comunicación política. Comunicación de masas y sociedad, 3(2-3):297–316.
Todos los lados. 2018. Calificaciones de sesgo de los medios. Allsides.com.
Timo Spinde, Christina Kreuter, Wolfgang Gaissmaier, Felix Hamborg, Bela Gipp y Helge Giese. 2021. ¿Crees que es parcial? cómo preguntar por la percepción de sesgo de los medios. En 2021, Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (JCDL), páginas 61–69. IEEE.
Esther van den Berg y Katja Markert. 2020. Contexto en la detección de sesgos informativos. En Actas de la 28ª Conferencia Internacional sobre Lingüística Computacional, páginas 6315–6326, Barcelona, España (en línea). Comité Internacional de Lingüística Computacional.
George Wright y Paul Goodwin. 2002. Eliminación de un sesgo de encuadre mediante el uso de instrucciones simples para "pensar más" y encuestados con experiencia gerencial: comentario sobre "romper el marco". Revista de gestión estratégica, 23(11):1059–1067.
Jingqing Zhang, Yao Zhao, Mohammad Saleh y Peter J. Liu. 2019a. Pegasus: entrenamiento previo con oraciones vacías extraídas para un resumen abstracto.
Tianyi Zhang*, Varsha Kishore*, Felix Wu*, Kilian Q. Weinberger y Yoav Artzi. 2020. Bertscore: Evaluación de la generación de texto con bert. En Conferencia Internacional sobre Representaciones del Aprendizaje.
Yifan Zhang, Giovanni Da San Martino, Alberto Barrón Cedeno, Salvatore Romeo, Jisun An, Haewoon Kwak, Todor Staykovski, Israa Jaradat, Georgi Karadzhov, Ramy Baly, et al. 2019b. Tanbih: Conozca lo que está leyendo. EMNLP-IJCNLP 2019, página 223.