এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।
আমরা আমাদের কাজটিকে দুটি শ্রেণির সাথে শ্রেণীবিভাগের সমস্যা হিসাবে বিবেচনা করি: বাম (L) এবং ডান (R) রাজনৈতিক অভিমুখ। এটি আসল সমস্যার একটি সরলীকরণ, যেখানে নিবন্ধগুলিও নিরপেক্ষ হতে পারে এবং বিভিন্ন মাত্রার পক্ষপাত থাকতে পারে। পূর্ববর্তী কাজ 3 বা 5টি ক্লাসের উপর নির্ভর করত, সর্বদা নিরপেক্ষ বিকল্প সহ (বালি এট আল।, 2020; আকসেনভ এট আল।, 2021)। এই কাজগুলিতে, ডেটা ম্যানুয়ালি উচ্চ মানের প্রশিক্ষণ ডেটা তৈরি করে টীকা করা হয়েছিল কিন্তু ভাষা ও দেশগুলির পরিপ্রেক্ষিতে কাজের সুযোগকে সীমিত করে। সূক্ষ্ম-দানাযুক্ত শ্রেণিবিন্যাস স্কেল ব্যবহার করার সময়, লেখকরা নতুন উত্সগুলিতে শ্রেণিবিন্যাসকারীদের একটি খারাপ সাধারণীকরণ স্বীকার করেন। অন্যদিকে, গার্সিয়া-ডিয়াজ এট আল। (2022) এবং রুশো এট আল। (2023) নিরপেক্ষ শ্রেণীকে বাদ দিন এবং যথাক্রমে স্প্যানিশ এবং ইতালীয় রাজনীতিবিদদের টুইটগুলির একটি বাইনারি বা মাল্টিক্লাস বাম-ডান শ্রেণিবিন্যাসের সাথে কাজ করুন, তবে তাদের কাজে দীর্ঘ পাঠ্য অন্তর্ভুক্ত নয়। বাইনারি শ্রেণীবিভাগ ন্যায়সঙ্গত হতে পারে কারণ তারা টুইটগুলির সাথে কাজ করেছে, এমন একটি ধারা যেখানে লোকেরা আরও ভিসারাল হতে থাকে এবং তাই সম্ভবত আরও মেরুকরণ হয়৷ আমাদের ক্ষেত্রে, আমাদের নিশ্চিত হওয়া দরকার যে ক্লাসিফায়ারটি অদেখা উত্সগুলির জন্য ভালভাবে সাধারণীকরণ করে এবং আমরা প্রশিক্ষণে নিরপেক্ষ নিবন্ধের সংখ্যা হ্রাস করার সময় 2-শ্রেণীর টাস্কে লেগে থাকি (নীচে দেখুন)।
দূরবর্তী তত্ত্বাবধান। আমরা যতদূর জানি, ইংরেজিতে শুধুমাত্র একটি ম্যানুয়ালি টীকা করা সংবাদপত্রের কর্পাস (Baly et al., 2020) এবং জার্মান ভাষায় আরেকটি (Aksenov et al., 2021) পাওয়া যায়। আমরা কুলকার্নি এট আল-এর চেতনায় একটি ভিন্ন পদ্ধতি অনুসরণ করি। (2018) এবং Kiesel et al. (2019)। আমরা ম্যানুয়ালি কোনো নিবন্ধ টীকা করি না, তবে আমরা AllSides, MB/FC, Political Watch এবং Wikipedia (পরেরটি শুধুমাত্র সেই ক্ষেত্রে যেখানে পূর্ববর্তী সাইটগুলিতে তথ্য পাওয়া যায় না) তাদের সংবাদপত্রের পক্ষপাতের শ্রেণীবিভাগের সাথে বিশ্বাস করি। আমরা মার্কিন যুক্তরাষ্ট্র, জার্মানি, স্পেন এবং কাতালোনিয়া থেকে সংবাদপত্রের জন্য এই তথ্য বের করি। সংবাদপত্রের তালিকা, তাদের URL,[4] এবং তাদের অবস্থানের সাথে, আমরা নিবন্ধগুলি পুনরুদ্ধার করতে OSCAR ব্যবহার করি, একটি বহুভাষিক কর্পাস যা কমন ক্রল (Ortiz Suarez et al., 2019; Abadji et al., 2021) ফিল্টার করে প্রাপ্ত হয়। . পরিশিষ্ট A এই কাজে ব্যবহৃত উত্সগুলির তালিকা দেয়: 742,691টি নিবন্ধ সহ 47টি মার্কিন সংবাদপত্র, 12টি জার্মান 143,200টি, 38টি স্প্যানিশ 301,825টি এবং 19টি কাতালান সহ 70,496টি।
টপিক মডেলিং। সব নিবন্ধে পক্ষপাত নেই, কিছু বিষয় অন্যদের তুলনায় বেশি প্রবণ। একটি সংবাদপত্রের ক্রীড়া বিভাগ সাধারণত রাজনৈতিক পক্ষপাতিত্ব প্রতিফলিত করার প্রবণতা কম থাকে, আন্তর্জাতিক বিভাগের ক্ষেত্রে এর বিপরীত ঘটনা ঘটে। তাই আমরা আমাদের বাইনারি শ্রেণীবিভাগের জন্য প্রাসঙ্গিক প্রশিক্ষণ ডেটার একটি উপসেট নির্বাচন করতে বিষয়গুলি ব্যবহার করি। আমরা ম্যালেট (McCallum, 2002) ব্যবহার করে OSCAR থেকে প্রাপ্ত নিবন্ধগুলিতে টপিক মডেলিং করি যা গিবস স্যাম্পলিংয়ের সাথে LDA প্রযোজ্য। আমরা প্রতি ভাষায় 10 এবং 15 উভয় গ্রুপে ডেটা ক্লাস্টার করি, মোটামুটি একটি সংবাদপত্রের বিভাগগুলির সংখ্যার সাথে সামঞ্জস্যপূর্ণ। প্রতিটি বিষয়ের জন্য বের করা কীওয়ার্ডগুলি পরিশিষ্ট বি-তে তালিকাভুক্ত করা হয়েছে। আমরা আন্তর্জাতিক, সরকার, আইন ও বিচার, অর্থনীতি, লাইভ সায়েন্স/ইকোলজি, এবং নির্দিষ্ট ভাষা-নির্ভর বিষয় যেমন অভিবাসন এবং সহিংসতা হিসাবে লেবেল করা বিষয়গুলির অধীনে পড়ে এমন নিবন্ধগুলি বেছে নিই। ইংরেজি, জার্মানের জন্য নাৎসিবাদ এবং স্প্যানিশের জন্য সামাজিক। নির্বাচন কিওয়ার্ড পরিদর্শন পরে সম্পন্ন করা হয়. চূড়ান্ত ডেটাসেটের জন্য, আমরা 10 এবং 15টি বিষয়ে ক্লাস্টার করা নির্বাচিত নিবন্ধগুলির মিলন করি। প্রক্রিয়াটি স্প্যানিশ নিবন্ধগুলির 49%, জার্মানের 39% এবং ইংরেজীগুলির 31% ফিল্টার করে।
প্রিপ্রসেসিং এবং ক্লিনিং। আমরা পরিষ্কার করার আগে 2000-এর বেশি বা 20-এর কম শব্দ যুক্ত নিবন্ধগুলি বাতিল করি। তারপরে, আমরা শিরোনাম, পাদচরণ এবং সনাক্ত করা যেকোনো বয়লারপ্লেট পাঠ্য সরিয়ে ফেলি। এই টেক্সটটি একটি নিউরাল ক্লাসিফায়ারকে বিভ্রান্ত করার সম্ভাবনা রয়েছে, কারণ এটি ক্লাসিফায়ারকে তাদের রাজনৈতিক অবস্থানের উপর ফোকাস করার পরিবর্তে সংবাদপত্রের মধ্যে পার্থক্য করতে শিখতে উত্সাহিত করতে পারে। আমরা প্রতি ভাষা এবং অবস্থানের জন্য একটি সংবাদপত্র নির্বাচন করি এবং তাদের নিবন্ধগুলি ম্যানুয়ালি পরিষ্কার করি। প্রতিটি ভাষার জন্য একটি ভারসাম্যপূর্ণ প্রশিক্ষণ সংস্থা তৈরি করতে, আমরা বাকি সংগ্রহ থেকে এলোমেলোভাবে একই সংখ্যক বাম এবং ডান-ভিত্তিক নিবন্ধ নির্বাচন করি। এই ভারসাম্যপূর্ণ ডেটাসেটটি সারণী 1 (শীর্ষ সারি) এ দেখানো হিসাবে প্রশিক্ষণ এবং যাচাইকরণে বিভক্ত।
চ্যাটজিপিটি/বার্ড কর্পাস। আমরা 101টি নিবন্ধ সহ একটি বহুভাষিক ডেটাসেট তৈরি করি। এর জন্য, আমরা আবাসন মূল্য, গর্ভপাত, তামাক, বারাক ওবামা ইত্যাদি সহ 101টি বিষয় সংজ্ঞায়িত করি এবং সেগুলিকে 4টি ভাষায় ম্যানুয়ালি অনুবাদ করি (পরিশিষ্ট ডি দেখুন)। বিষয়গুলি রাজনৈতিক অবস্থানের প্রবণ বিষয়গুলি বিবেচনা করে যেমন নারীবাদ, পুঁজিবাদ, পরিবেশবাদ, প্রযুক্তি ইত্যাদির সাথে সম্পর্কিত। আমরা 4টি দেশের লোকেদের সঠিক নামও অন্তর্ভুক্ত করি, যাদের জীবনী তাদের রাজনৈতিক অবস্থানের উপর নির্ভর করে ভিন্ন হতে পারে। লেখক. এই বিষয়গুলি টেমপ্লেট প্রম্পটে ঢোকানো হয়েছে (এবং এর জার্মান, স্প্যানিশ এবং কাতালান ভাষায় অনুবাদ):[5] [SUBJECT]en এ একটি সংবাদপত্রের নিবন্ধ লিখুন
আমরা চারটি সময়ের মধ্যে একই বিষয় ব্যবহার করে পাঁচবার ChatGPT (GPT-3.5-Turbo) প্রম্পট করি। আমরা 13 ফেব্রুয়ারী (v02), মার্চ 23 (v03), 24 মে (v05) এবং 3 আগস্ট (v08) এর ChatGPT সংস্করণগুলির সাথে ডেটাসেট তৈরি করি; আমরা 4টি ভাষা একসাথে কভার করি শুধুমাত্র শেষ দুটি দিয়ে। ChatGPTv05 লেখকের নাম, তারিখ এবং/অথবা শহরের নাম দিয়ে স্লট সহ একটি নিবন্ধ-ভিত্তিক কাঠামো সহ অন্যান্য পাঠ্যগুলির তুলনায় উল্লেখযোগ্যভাবে দীর্ঘ পাঠ্য তৈরি করে। বহুভাষিক বার্ড পরে উপলব্ধ ছিল, এবং আমরা ChatGPTv8 এর মতো একই সময়কালে এটিকে দুবার অনুরোধ করেছি। সারণি 1 এই কর্পাসের পরিসংখ্যান দেখায়।
[৪] এর অর্থ হল একটি নিউজ আউটলেটের ডোমেইন নামের অধীনে থাকা সমস্ত নিবন্ধ নির্বাচন করা, সেগুলি খবর হোক বা না হোক।
[৫] আরও নির্দিষ্ট প্রম্পট ChatGPT-এর প্রথম সংস্করণগুলির জন্য ভিন্ন শৈলীর দিকে পরিচালিত করেনি, শেষটির জন্য আমরা আরও তথ্য যোগ করেছি যেমন ...সাবহেডার ছাড়াই। অত্যধিক উপধারা এবং/অথবা বুলেট পয়েন্ট এড়াতে। চ্যাটজিপিটি বা বার্ড উভয়ই সর্বদা সঠিকভাবে নির্দেশনা অনুসরণ করেনি। আমরা যে ডেটাসেট প্রদান করি তাতে আমরা যে প্রম্পটগুলি ব্যবহার করি তা অন্তর্ভুক্ত করে।
[৬] 14-21 আগস্ট 2023 বার্লিন থেকে ইংরেজি এবং জার্মানের জন্য এবং বার্সেলোনা থেকে স্প্যানিশ এবং কাতালানের জন্য অনুরোধ করা হয়েছে, ChatGPT এর বিপরীতে, প্রজন্মটি অবস্থানের উপর নির্ভর করে।