paint-brush
মিডিয়ার বহুভাষিক মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগ: কর্পোরা সংকলনদ্বারা@mediabias
245 পড়া

মিডিয়ার বহুভাষিক মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগ: কর্পোরা সংকলন

দ্বারা Tech Media Bias [Research Publication]5m2024/05/19
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা প্রামাণিক নিউজ আউটলেট রেটিং ব্যবহার করে AI-উত্পন্ন সংবাদ নিবন্ধগুলির নিরপেক্ষতা এবং বিভিন্ন ভাষা জুড়ে অবস্থানের বিবর্তন বিশ্লেষণ করেছেন।
featured image - মিডিয়ার বহুভাষিক মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগ: কর্পোরা সংকলন
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।

লিঙ্কের টেবিল

2. কর্পোরা সংকলন

আমরা আমাদের কাজটিকে দুটি শ্রেণির সাথে শ্রেণীবিভাগের সমস্যা হিসাবে বিবেচনা করি: বাম (L) এবং ডান (R) রাজনৈতিক অভিমুখ। এটি আসল সমস্যার একটি সরলীকরণ, যেখানে নিবন্ধগুলিও নিরপেক্ষ হতে পারে এবং বিভিন্ন মাত্রার পক্ষপাত থাকতে পারে। পূর্ববর্তী কাজ 3 বা 5টি ক্লাসের উপর নির্ভর করত, সর্বদা নিরপেক্ষ বিকল্প সহ (বালি এট আল।, 2020; আকসেনভ এট আল।, 2021)। এই কাজগুলিতে, ডেটা ম্যানুয়ালি উচ্চ মানের প্রশিক্ষণ ডেটা তৈরি করে টীকা করা হয়েছিল কিন্তু ভাষা ও দেশগুলির পরিপ্রেক্ষিতে কাজের সুযোগকে সীমিত করে। সূক্ষ্ম-দানাযুক্ত শ্রেণিবিন্যাস স্কেল ব্যবহার করার সময়, লেখকরা নতুন উত্সগুলিতে শ্রেণিবিন্যাসকারীদের একটি খারাপ সাধারণীকরণ স্বীকার করেন। অন্যদিকে, গার্সিয়া-ডিয়াজ এট আল। (2022) এবং রুশো এট আল। (2023) নিরপেক্ষ শ্রেণীকে বাদ দিন এবং যথাক্রমে স্প্যানিশ এবং ইতালীয় রাজনীতিবিদদের টুইটগুলির একটি বাইনারি বা মাল্টিক্লাস বাম-ডান শ্রেণিবিন্যাসের সাথে কাজ করুন, তবে তাদের কাজে দীর্ঘ পাঠ্য অন্তর্ভুক্ত নয়। বাইনারি শ্রেণীবিভাগ ন্যায়সঙ্গত হতে পারে কারণ তারা টুইটগুলির সাথে কাজ করেছে, এমন একটি ধারা যেখানে লোকেরা আরও ভিসারাল হতে থাকে এবং তাই সম্ভবত আরও মেরুকরণ হয়৷ আমাদের ক্ষেত্রে, আমাদের নিশ্চিত হওয়া দরকার যে ক্লাসিফায়ারটি অদেখা উত্সগুলির জন্য ভালভাবে সাধারণীকরণ করে এবং আমরা প্রশিক্ষণে নিরপেক্ষ নিবন্ধের সংখ্যা হ্রাস করার সময় 2-শ্রেণীর টাস্কে লেগে থাকি (নীচে দেখুন)।


দূরবর্তী তত্ত্বাবধান। আমরা যতদূর জানি, ইংরেজিতে শুধুমাত্র একটি ম্যানুয়ালি টীকা করা সংবাদপত্রের কর্পাস (Baly et al., 2020) এবং জার্মান ভাষায় আরেকটি (Aksenov et al., 2021) পাওয়া যায়। আমরা কুলকার্নি এট আল-এর চেতনায় একটি ভিন্ন পদ্ধতি অনুসরণ করি। (2018) এবং Kiesel et al. (2019)। আমরা ম্যানুয়ালি কোনো নিবন্ধ টীকা করি না, তবে আমরা AllSides, MB/FC, Political Watch এবং Wikipedia (পরেরটি শুধুমাত্র সেই ক্ষেত্রে যেখানে পূর্ববর্তী সাইটগুলিতে তথ্য পাওয়া যায় না) তাদের সংবাদপত্রের পক্ষপাতের শ্রেণীবিভাগের সাথে বিশ্বাস করি। আমরা মার্কিন যুক্তরাষ্ট্র, জার্মানি, স্পেন এবং কাতালোনিয়া থেকে সংবাদপত্রের জন্য এই তথ্য বের করি। সংবাদপত্রের তালিকা, তাদের URL,[4] এবং তাদের অবস্থানের সাথে, আমরা নিবন্ধগুলি পুনরুদ্ধার করতে OSCAR ব্যবহার করি, একটি বহুভাষিক কর্পাস যা কমন ক্রল (Ortiz Suarez et al., 2019; Abadji et al., 2021) ফিল্টার করে প্রাপ্ত হয়। . পরিশিষ্ট A এই কাজে ব্যবহৃত উত্সগুলির তালিকা দেয়: 742,691টি নিবন্ধ সহ 47টি মার্কিন সংবাদপত্র, 12টি জার্মান 143,200টি, 38টি স্প্যানিশ 301,825টি এবং 19টি কাতালান সহ 70,496টি।


টপিক মডেলিং। সব নিবন্ধে পক্ষপাত নেই, কিছু বিষয় অন্যদের তুলনায় বেশি প্রবণ। একটি সংবাদপত্রের ক্রীড়া বিভাগ সাধারণত রাজনৈতিক পক্ষপাতিত্ব প্রতিফলিত করার প্রবণতা কম থাকে, আন্তর্জাতিক বিভাগের ক্ষেত্রে এর বিপরীত ঘটনা ঘটে। তাই আমরা আমাদের বাইনারি শ্রেণীবিভাগের জন্য প্রাসঙ্গিক প্রশিক্ষণ ডেটার একটি উপসেট নির্বাচন করতে বিষয়গুলি ব্যবহার করি। আমরা ম্যালেট (McCallum, 2002) ব্যবহার করে OSCAR থেকে প্রাপ্ত নিবন্ধগুলিতে টপিক মডেলিং করি যা গিবস স্যাম্পলিংয়ের সাথে LDA প্রযোজ্য। আমরা প্রতি ভাষায় 10 এবং 15 উভয় গ্রুপে ডেটা ক্লাস্টার করি, মোটামুটি একটি সংবাদপত্রের বিভাগগুলির সংখ্যার সাথে সামঞ্জস্যপূর্ণ। প্রতিটি বিষয়ের জন্য বের করা কীওয়ার্ডগুলি পরিশিষ্ট বি-তে তালিকাভুক্ত করা হয়েছে। আমরা আন্তর্জাতিক, সরকার, আইন ও বিচার, অর্থনীতি, লাইভ সায়েন্স/ইকোলজি, এবং নির্দিষ্ট ভাষা-নির্ভর বিষয় যেমন অভিবাসন এবং সহিংসতা হিসাবে লেবেল করা বিষয়গুলির অধীনে পড়ে এমন নিবন্ধগুলি বেছে নিই। ইংরেজি, জার্মানের জন্য নাৎসিবাদ এবং স্প্যানিশের জন্য সামাজিক। নির্বাচন কিওয়ার্ড পরিদর্শন পরে সম্পন্ন করা হয়. চূড়ান্ত ডেটাসেটের জন্য, আমরা 10 এবং 15টি বিষয়ে ক্লাস্টার করা নির্বাচিত নিবন্ধগুলির মিলন করি। প্রক্রিয়াটি স্প্যানিশ নিবন্ধগুলির 49%, জার্মানের 39% এবং ইংরেজীগুলির 31% ফিল্টার করে।


প্রিপ্রসেসিং এবং ক্লিনিং। আমরা পরিষ্কার করার আগে 2000-এর বেশি বা 20-এর কম শব্দ যুক্ত নিবন্ধগুলি বাতিল করি। তারপরে, আমরা শিরোনাম, পাদচরণ এবং সনাক্ত করা যেকোনো বয়লারপ্লেট পাঠ্য সরিয়ে ফেলি। এই টেক্সটটি একটি নিউরাল ক্লাসিফায়ারকে বিভ্রান্ত করার সম্ভাবনা রয়েছে, কারণ এটি ক্লাসিফায়ারকে তাদের রাজনৈতিক অবস্থানের উপর ফোকাস করার পরিবর্তে সংবাদপত্রের মধ্যে পার্থক্য করতে শিখতে উত্সাহিত করতে পারে। আমরা প্রতি ভাষা এবং অবস্থানের জন্য একটি সংবাদপত্র নির্বাচন করি এবং তাদের নিবন্ধগুলি ম্যানুয়ালি পরিষ্কার করি। প্রতিটি ভাষার জন্য একটি ভারসাম্যপূর্ণ প্রশিক্ষণ সংস্থা তৈরি করতে, আমরা বাকি সংগ্রহ থেকে এলোমেলোভাবে একই সংখ্যক বাম এবং ডান-ভিত্তিক নিবন্ধ নির্বাচন করি। এই ভারসাম্যপূর্ণ ডেটাসেটটি সারণী 1 (শীর্ষ সারি) এ দেখানো হিসাবে প্রশিক্ষণ এবং যাচাইকরণে বিভক্ত।


চ্যাটজিপিটি/বার্ড কর্পাস। আমরা 101টি নিবন্ধ সহ একটি বহুভাষিক ডেটাসেট তৈরি করি। এর জন্য, আমরা আবাসন মূল্য, গর্ভপাত, তামাক, বারাক ওবামা ইত্যাদি সহ 101টি বিষয় সংজ্ঞায়িত করি এবং সেগুলিকে 4টি ভাষায় ম্যানুয়ালি অনুবাদ করি (পরিশিষ্ট ডি দেখুন)। বিষয়গুলি রাজনৈতিক অবস্থানের প্রবণ বিষয়গুলি বিবেচনা করে যেমন নারীবাদ, পুঁজিবাদ, পরিবেশবাদ, প্রযুক্তি ইত্যাদির সাথে সম্পর্কিত। আমরা 4টি দেশের লোকেদের সঠিক নামও অন্তর্ভুক্ত করি, যাদের জীবনী তাদের রাজনৈতিক অবস্থানের উপর নির্ভর করে ভিন্ন হতে পারে। লেখক. এই বিষয়গুলি টেমপ্লেট প্রম্পটে ঢোকানো হয়েছে (এবং এর জার্মান, স্প্যানিশ এবং কাতালান ভাষায় অনুবাদ):[5] [SUBJECT]en এ একটি সংবাদপত্রের নিবন্ধ লিখুন


সারণি 1: নিবন্ধের সংখ্যা (বন্ধনীতে গড় শব্দ গণনা) বাম (L) এবং ডান দিকনির্দেশ (R) সহ একটি সংবাদপত্রের নিবন্ধ হিসাবে বিভক্ত। পরীক্ষার জন্য, আমরা প্রশিক্ষণ বা যাচাইকরণে দেখা না হওয়া সংবাদপত্র ব্যবহার করি: USA-এর জন্য Slate (L) এবং The National Pulse (R), My Heimat (L) এবং জার্মানির জন্য die Preußische Allgemeine Zeitung (R),


আমরা চারটি সময়ের মধ্যে একই বিষয় ব্যবহার করে পাঁচবার ChatGPT (GPT-3.5-Turbo) প্রম্পট করি। আমরা 13 ফেব্রুয়ারী (v02), মার্চ 23 (v03), 24 মে (v05) এবং 3 আগস্ট (v08) এর ChatGPT সংস্করণগুলির সাথে ডেটাসেট তৈরি করি; আমরা 4টি ভাষা একসাথে কভার করি শুধুমাত্র শেষ দুটি দিয়ে। ChatGPTv05 লেখকের নাম, তারিখ এবং/অথবা শহরের নাম দিয়ে স্লট সহ একটি নিবন্ধ-ভিত্তিক কাঠামো সহ অন্যান্য পাঠ্যগুলির তুলনায় উল্লেখযোগ্যভাবে দীর্ঘ পাঠ্য তৈরি করে। বহুভাষিক বার্ড পরে উপলব্ধ ছিল, এবং আমরা ChatGPTv8 এর মতো একই সময়কালে এটিকে দুবার অনুরোধ করেছি। সারণি 1 এই কর্পাসের পরিসংখ্যান দেখায়।




[৪] এর অর্থ হল একটি নিউজ আউটলেটের ডোমেইন নামের অধীনে থাকা সমস্ত নিবন্ধ নির্বাচন করা, সেগুলি খবর হোক বা না হোক।


[৫] আরও নির্দিষ্ট প্রম্পট ChatGPT-এর প্রথম সংস্করণগুলির জন্য ভিন্ন শৈলীর দিকে পরিচালিত করেনি, শেষটির জন্য আমরা আরও তথ্য যোগ করেছি যেমন ...সাবহেডার ছাড়াই। অত্যধিক উপধারা এবং/অথবা বুলেট পয়েন্ট এড়াতে। চ্যাটজিপিটি বা বার্ড উভয়ই সর্বদা সঠিকভাবে নির্দেশনা অনুসরণ করেনি। আমরা যে ডেটাসেট প্রদান করি তাতে আমরা যে প্রম্পটগুলি ব্যবহার করি তা অন্তর্ভুক্ত করে।


[৬] 14-21 আগস্ট 2023 বার্লিন থেকে ইংরেজি এবং জার্মানের জন্য এবং বার্সেলোনা থেকে স্প্যানিশ এবং কাতালানের জন্য অনুরোধ করা হয়েছে, ChatGPT এর বিপরীতে, প্রজন্মটি অবস্থানের উপর নির্ভর করে।