Mehrsprachige grobe politische Haltung Klassifizierung von Medien: Einschränkungen und Ethikerklärung

Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar.

Autoren:

(1) Cristina España-Bonet, DFKI GmbH, Saarland Informatics Campus.

Linktabelle

5.1 Einschränkungen

Wir gehen davon aus, dass alle Medienquellen eine redaktionelle Linie und eine damit verbundene Tendenz haben , und wir behandeln das ILM wie jede andere Medienquelle. Wir ziehen nicht in Betracht, dass ein ChatGPT- oder Bard-Artikel unvoreingenommen sein könnte. Dies hängt mit der Methode der Fernüberwachung zusammen, die zur Datenerfassung verwendet wird und derzeit eine binäre Kommentierung politischer Standpunkte ermöglicht. Da die manuelle Kommentierung von Hunderttausenden von Artikeln mit politischen Tendenzen in einem wirklich mehrsprachigen Umfeld in absehbarer Zukunft nicht möglich scheint, haben wir uns entschieden, eine vollständig datenbasierte Methode zu implementieren und ihre Möglichkeiten zur Sprach- und Kulturübertragung zu untersuchen.

Die Verwendung von Fernüberwachung zur Ermittlung der politischen Haltung auf Artikelebene ist jedoch ein heikles Thema. Erstens, weil dieselbe Zeitung im Laufe der Zeit ihre Ideologie ändern kann. Zweitens, und dies hängt eher mit dem Inhalt eines einzelnen Artikels zusammen, sind nicht umstrittene Themen möglicherweise nicht voreingenommen. Selbst in Fällen, in denen Voreingenommenheit vorliegt, gibt es ein Spektrum von der extremen Linken bis zur extremen Rechten und keine klare Trennung zwischen den beiden Ideologien.

Um die derzeitigen Einschränkungen zu quantifizieren und wenn möglich zu mildern, planen wir eine stilistische Analyse der von Menschen annotierten Korpora (Baly et al., 2020; Aksenov et al., 2021) und vergleichen sie mit unserem halbautomatisch annotierten Korpus. Als Folge dieser Arbeit werden wir auch eine stilistische Analyse der ILM-generierten Texte durchführen, da ein ähnlicher Stil zwischen den Trainingsdaten und diesen Texten erforderlich ist, um gute Generalisierungs- und Übertragungsmöglichkeiten zu gewährleisten.

5.2. Ethikerklärung

Wir verwenden generative Sprachmodelle, ChatGPT und Bard, um unsere Testdaten zu erstellen. Da wir uns mit mehreren kontroversen Themen befassen (Todesstrafe, sexuelle Belästigung, Drogen usw.), kann die automatische Generierung schädliche Texte produzieren. Die hier präsentierten Daten wurden keiner menschlichen Überarbeitung unterzogen. Wir analysieren und stellen das Corpus so zur Verfügung, wie es generiert wurde, zusammen mit der Angabe der verwendeten Systemversion.

Mehrsprachige grobe politische Haltung Klassifizierung von Medien: Einschränkungen und Ethikerklärung

Zu lang; Lesen

Linktabelle

5.1 Einschränkungen

5.2. Ethikerklärung

About Author

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN...

Categories

Trending Topics

Mehrsprachige grobe politische Haltung Klassifizierung von Medien: Einschränkungen und Ethikerklärung

Zu lang; Lesen

Linktabelle

5.1 Einschränkungen

5.2. Ethikerklärung

About Author

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN...

ÄHNLICHE BEITRÄGE

Categories

Trending Topics