লেখক:
(1) Clemencia Siro, University of Amsterdam, Amsterdam, The Netherlands;
(2) Mohammad Aliannejadi, University of Amsterdam, Amsterdam, The Netherlands;
(3) Maarten de Rijke, University of Amsterdam, Amsterdam, The Netherlands।
লেখক:
লেখক:(1) Clemencia Siro, অ্যামস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস;
(2) Mohammad Aliannejadi, আমস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস;
(3) Maarten de Rijke, আমস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস।
টেবিল লিঙ্ক
বিস্তারিত এবং 1 উদাহরণ2 পদ্ধতি এবং 2.1 পরীক্ষামূলক তথ্য এবং কাজ
2 পদ্ধতি এবং 2.1 পরীক্ষামূলক তথ্য এবং কাজ2.2 স্বয়ংক্রিয়ভাবে বিভিন্ন ডায়ালগ অন্তর্ভুক্ত করুন
2.2 স্বয়ংক্রিয়ভাবে বিভিন্ন ডায়ালগ কনটেক্টর জেনারেশন2.3 Crowdsource পরীক্ষা2.4 পরীক্ষামূলক শর্ত2.5 অংশগ্রহণকারী3 ফলাফল এবং বিশ্লেষণ এবং 3.1 ডেটা পরিসংখ্যান
3 ফলাফল এবং বিশ্লেষণ এবং 3.1 ডেটা পরিসংখ্যান3.2 RQ1: বিভিন্ন সংখ্যক আলোচনার প্রভাব
3.2 RQ1: বদলে যাওয়া সংখ্যার প্রভাব3.3 RQ2: স্বয়ংক্রিয়ভাবে উত্পাদিত ডায়ালগ প্রসঙ্গে প্রভাব
3.3 RQ2: স্বয়ংক্রিয়ভাবে উত্পাদিত ডায়ালগ প্রসঙ্গে প্রভাব4 আলোচনা এবং প্রভাব5 সম্পর্কিত কাজ6 উপসংহার, সীমাবদ্ধতা, এবং নৈতিক বিবেচনা
6 উপসংহার, সীমাবদ্ধতা, এবং নৈতিক বিবেচনা7 স্বীকৃতি এবং রেফারেন্সএ. অ্যাপেন্ডিক্সবিস্তারিত
সংস্থানীয় লেবেলগুলি কাজের দিকে নির্দেশিত ডায়ালগ সিস্টেমগুলি (TDSs) মূল্যায়ন করার ক্ষেত্রে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। উল্লেখকারীদের কাছ থেকে উচ্চ মানের এবং সামঞ্জস্যপূর্ণ মৌলিক সত্য লেবেলগুলি পেতে চ্যালেঞ্জ দেখা দেয়। একটি TDS মূল্যায়ন করার সময়, উল্লেখকারীদের মূল্যায়ন করার আগে ডায়ালগটি সম্পূর্ণরূপে বুঝতে হবে। পূর্ববর্তী গবেষণাগুলি উল্লেখ প্রক্রিয়ায় ডায়ালগ সিস্টেমের শুধুমাত্র একটি অংশ ব্যবহার করার পরামর্শ দেয়। যাইহোক, লেবেলগুলির মানের উপর এই সীমাবদ্ধতার প্রভাব অব্যাহত থাকে। এই গবেষণ
1 প্রবর্তন
প্রতিশিক্ষিত ভাষা মডেল এবং বড় ভাষা মডেল (LLMs) এর সাম্প্রতিক অগ্রগতিগুলির সাথে, টাস্ট-ইনলাইজেশন ডায়ালগ সিস্টেমগুলি (Task-Oriented Dialogue Systems, TDSs) তথ্য অনুসন্ধানের পদ্ধতিটি পুনরায় সংজ্ঞায়িত করেছে, যা ব্যবহারকারীদের তথ্য উৎসগুলির সাথে জড়িত হওয়ার জন্য ব্যবহারকারীদের জন্য একটি স্বাভাবিক পদ্ধতি প্রদর্শন করে (Budzianowski and Vulic ́, 2019; Wu et al., 2020)। তথ্য অনুসন্ধান প্রক্রিয়াগুলির সাথে TDSs ক্রমবর্ধমান অন্তর্ভুক্ত হয়ে যাওয়ার কারণে, তাদের কর্মক্ষমতা কীভাবে সঠিকভাবে এবং কার্যকরভাবে মূল্যায়ন করা যায় তা গুরুত্বপূর্ণ হয়ে উঠ
পরিচয় সত্যের লেবেলগুলি সংগ্রহ করার জন্য বিভিন্ন crowdsourcing প্রযুক্তি ব্যবহার করা হয়েছে, যেমন পরবর্তী লেবেলিং (Sun et al., 2021), যেখানে অ্যানোটেটররা প্রতিটি বাক্যগুলির মাধ্যমে যান এবং তাদের এক-একটি অ্যানোটেট করে। এই পদ্ধতিটি অ্যানোটেটিং প্রক্রিয়ায় নির্দিষ্ট ঝুঁকিগুলি প্রবেশ করে, যেমন অ্যানোটেটরদের ক্লান্তি এবং অতিরিক্ত দীর্ঘ সংলাপে উচ্চ জ্ঞানীয় লোড, যা তাদের মনে রাখতে এবং বাক্যগুলি অ্যানোটেট করার সময় সংলাপের অবস্থা অনুসরণ করতে বাধ্য করে (Siro et al., 2022). যদিও সংলাপের পরিবেশ অনুসরণ এবং বোঝা গুরুত্বপূর্ণ এবং অ্যানোট
এই সমস্যাটি সমাধান করার জন্য, আরেকটি গবেষণা লাইন প্রতিটি অ্যানোটেট করা প্রতিটি ডায়ালগে শুধুমাত্র কয়েকটি বক্তৃতাকে র্যান্ডমভাবে নমুনা করার পরামর্শ দেয় (Mehri and Eskenazi, 2020; Siro et al., 2022, 2023). উচ্চ জ্ঞানী লোড এবং ক্লান্তি মোকাবেলা করার সময়, অ্যানোটেটরদের ডায়ালগের বোঝার সীমাবদ্ধতা অদৃশ্য ঝুঁকি বহন করে, যেমন অবিশ্বাস্য এবং বিভ্রান্তিকর লেবেলগুলি (Schmitt and Ultes, 2015; Siro et al., 2022). বিশেষ করে, ডায়ালগ পরিবেশের পরিমাণ অ্যানোটেটরদের বিভ্রান্তিকর হতে পারে।
পূর্বকৃত কাজটি অ্যানোটেটর বৈশিষ্ট্য সহ crowdsourced evaluation labels এর গুণমান এবং সামঞ্জস্যকে প্রভাবিত করে এমন কারণগুলি তদন্ত করেছে, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 task design, cognitive load, and evaluation protocols (see, উদাহরণস্বরূপ, Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020)।
এই গবেষণায়, আমরা এই গবেষণা বৈষম্যটি সমাধান করার উদ্দেশ্য করেছি, যেহেতু বিভিন্ন পরিমাণে সংশ্লিষ্ট তথ্যগুলি টিডিএস এর জন্য ক্রুডসোর্স লেবেলগুলির গুণমান এবং সামঞ্জস্যকে কীভাবে প্রভাবিত করে, যা এই ধরনের নকশা পছন্দগুলির প্রভাবগুলির বোঝার জন্য অবদান রাখে।
আমরা ব্যবহারকারীর তথ্য প্রয়োজনীয়তা এবং সংক্ষিপ্ত বিবৃতি উৎপাদনের জন্য হেয়ারিস্টিক পদ্ধতি এবং এলএলএম ব্যবহার করার পরিকল্পনা করি। এলএলএমগুলি ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস আরও কার্যকর ও কার্যকরভাবে বুঝতে সহায়তা করে (Faggioli ইত্যাদি, ২০২৩), ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের প্রয়োজনীয়তা এবং সংক্ষিপ্ত বিবৃতি উৎপাদন করে। এই উদ্দেশ্যে, আমরা GPT-4 ব্যবহার করি ডায়ালগের বৈশিষ্ট্য সংক্ষ
আমাদের ফলাফলগুলি দেখায় যে পূর্ববর্তী আলোচনার পরিবেশের উপলব্ধতা উল্লেখযোগ্যভাবে অ্যানোটেটরদের রেটিংগুলি প্রভাবিত করে, তাদের গুণমানের উপর উল্লেখযোগ্য প্রভাব ফেলে। পূর্ববর্তী পরিবেশ ছাড়াই, অ্যানোটেটররা সিস্টেমের প্রতিক্রিয়াগুলির জন্য আরো ইতিবাচক রেটিংগুলি প্রদান করে, সম্ভবত শাস্তির জন্য যথেষ্ট প্রমাণগুলির কারণে, ইতিবাচকতা বিচ্ছিন্নতা প্রবর্তন করে। বিপরীতভাবে, পুরো আলোচনার পরিবেশটি উপস্থাপন করা উচ্চতর প্রাসঙ্গিকতা রেটিংগুলি উত্পাদন করে। উপকারিতা হিসাবে, পুরো আলোচনার পরিবেশটি উপস্থ
আমাদের ফলাফলগুলি অন্যান্য কাজ-নির্দেশিত কথোপকথনের কাজগুলিতে প্রসারিত হয়, যেমন কথোপকথন অনুসন্ধান এবং পছন্দগুলি উত্সাহিত করা, উভয়ই সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য crowdsourced পরীক্ষার উপর নির্ভর করে।
এই কাগজটি একটি CC BY 4.0 DEED লাইসেন্সের অধীনে archiv এ পাওয়া যায়।
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে archiv এ উপলব্ধ।সম্পর্কিত আছে‘চি’
[1] এই ক্ষেত্রে গবেষণা উন্নীত করার জন্য, আমরা আমাদের ডেটা প্রকাশ করি https://github.com/Clemenciah/ Effects-of-Dialogue-Context