172 পড়া

মিডিয়ার বহুভাষিক মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগ: প্রশিক্ষণের বিবরণ

দ্বারা Tech Media Bias [Research Publication]2m2024/05/19

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা প্রামাণিক নিউজ আউটলেট রেটিং ব্যবহার করে AI-উত্পন্ন সংবাদ নিবন্ধগুলির নিরপেক্ষতা এবং বিভিন্ন ভাষা জুড়ে অবস্থানের বিবর্তন বিশ্লেষণ করেছেন।

featured image - মিডিয়ার বহুভাষিক মোটা রাজনৈতিক অবস্থানের শ্রেণীবিভাগ: প্রশিক্ষণের বিবরণ

এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) Cristina España-Bonet, DFKI GmbH, সারল্যান্ড ইনফরমেটিক্স ক্যাম্পাস।

লিঙ্কের টেবিল

F. প্রশিক্ষণের বিবরণ

F.1 L/R ক্লাসিফায়ার

আমরা চিত্র 1-এ L বনাম R শ্রেণিবিন্যাসের জন্য XLM-RoBERTa বড় (কন্যু এট আল।, 2020) ফিনটিউন করি। আমাদের শ্রেণিবদ্ধকারী হল RoBERTa-এর উপরে একটি ছোট নেটওয়ার্ক যা প্রথমে RoBERTA-এর [CLS] টোকেনে সম্ভাব্যতা 0.1 সহ ড্রপআউট সম্পাদন করে, একটি রৈখিক স্তর এবং একটি tanh দ্বারা অনুসরণ. আমরা সম্ভাব্যতা 0.1 সহ আরেকটি ড্রপআউট স্তর এবং একটি চূড়ান্ত রৈখিক স্তর প্রকল্প দুটি শ্রেণিতে পাস করি। পুরো স্থাপত্যটি সুন্দর।

আমরা ক্রস-এনট্রপি লস, অ্যাডামডাব্লু অপটিমাইজার এবং শেখার হার ব্যবহার করি যা রৈখিকভাবে হ্রাস পায়। আমরা ব্যাচের আকার, শেখার হার, ওয়ার্মআপ পিরিয়ড এবং যুগের সংখ্যা টিউন করি। প্রতি ভাষা এবং মডেলের সর্বোত্তম মানগুলি সারণি 12-এ সংক্ষিপ্ত করা হয়েছে।

সমস্ত প্রশিক্ষণ 32GB সহ একটি একক NVIDIA Tesla V100 Volta GPU ব্যবহার করে সম্পাদিত হয়।

F.2 বিষয় মডেলিং

আমরা ম্যালেট (McCallum, 2002) ব্যবহার করি স্টপওয়ার্ডগুলি সরানোর পরে কর্পাসে LDA সম্পাদন করতে, হাইপারপ্যারামিটার অপ্টিমাইজেশান বিকল্পটি সক্রিয় করা হয়েছে এবং প্রতি 10 বার পুনরাবৃত্তি করা হয়েছে। অন্যান্য পরামিতিগুলি ডিফল্ট। আমরা 10টি বিষয় নিয়ে প্রতি ভাষাতে একটি রান করি এবং 15টি বিষয় নিয়ে আরেকটি রান করি। আমরা উভয় লেবেল দিয়ে কর্পাস ট্যাগ করি।