131 পড়া নতুন ইতিহাস

এআই চ্যাটবট লেবেল করার সময়, প্রসঙ্গটি একটি দ্বি-ধারী তরবারি

দ্বারা Model Tuning5m2025/04/07

NSO

অতিদীর্ঘ; পড়তে

অতিরিক্ত অথবা খুব কম সংলাপের কাঠামো অ্যানোটেটরদের আইআই সিস্টেমগুলি কীভাবে মূল্যায়ন করে তা বিভ্রান্ত করে।

featured image - এআই চ্যাটবট লেবেল করার সময়, প্রসঙ্গটি একটি দ্বি-ধারী তরবারি

‘ai algorithm on a laptop screen’ Image created by HackerNoon AI Image Generator

লেখক:

(1) Clemencia Siro, University of Amsterdam, Amsterdam, The Netherlands;

(2) Mohammad Aliannejadi, University of Amsterdam, Amsterdam, The Netherlands;

(3) Maarten de Rijke, University of Amsterdam, Amsterdam, The Netherlands।

লেখক:

(1) Clemencia Siro, অ্যামস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস;

(2) Mohammad Aliannejadi, আমস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস;

(3) Maarten de Rijke, আমস্টারডাম বিশ্ববিদ্যালয়, অ্যামস্টারডাম, নেদারল্যান্ডস।

টেবিল লিঙ্ক

বিস্তারিত এবং 1 Introduction

বিস্তারিত এবং 1 উদাহরণ

2 পদ্ধতি এবং 2.1 পরীক্ষামূলক তথ্য এবং কাজ

2.2 স্বয়ংক্রিয়ভাবে বিভিন্ন ডায়ালগ অন্তর্ভুক্ত করুন

2.2 স্বয়ংক্রিয়ভাবে বিভিন্ন ডায়ালগ কনটেক্টর জেনারেশন

2.3 Crowdsource পরীক্ষা

2.4 পরীক্ষামূলক শর্তাবলী

2.4 পরীক্ষামূলক শর্ত

2.5 অংশগ্রহণকারী

3 ফলাফল এবং বিশ্লেষণ এবং 3.1 ডেটা পরিসংখ্যান

3.2 RQ1: বিভিন্ন সংখ্যক আলোচনার প্রভাব

3.2 RQ1: বদলে যাওয়া সংখ্যার প্রভাব

3.3 RQ2: স্বয়ংক্রিয়ভাবে উত্পাদিত ডায়ালগ প্রসঙ্গে প্রভাব

4 আলোচনা এবং প্রভাব

5 সম্পর্কিত কাজ

6 উপসংহার, সীমাবদ্ধতা, এবং নৈতিক বিবেচনা

7 স্বীকৃতি এবং রেফারেন্স

একটি অ্যাপ্লিকেশন

এ. অ্যাপেন্ডিক্স

বিস্তারিত

সংস্থানীয় লেবেলগুলি কাজের দিকে নির্দেশিত ডায়ালগ সিস্টেমগুলি (TDSs) মূল্যায়ন করার ক্ষেত্রে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। উল্লেখকারীদের কাছ থেকে উচ্চ মানের এবং সামঞ্জস্যপূর্ণ মৌলিক সত্য লেবেলগুলি পেতে চ্যালেঞ্জ দেখা দেয়। একটি TDS মূল্যায়ন করার সময়, উল্লেখকারীদের মূল্যায়ন করার আগে ডায়ালগটি সম্পূর্ণরূপে বুঝতে হবে। পূর্ববর্তী গবেষণাগুলি উল্লেখ প্রক্রিয়ায় ডায়ালগ সিস্টেমের শুধুমাত্র একটি অংশ ব্যবহার করার পরামর্শ দেয়। যাইহোক, লেবেলগুলির মানের উপর এই সীমাবদ্ধতার প্রভাব অব্যাহত থাকে। এই গবেষণ

1 প্রবর্তন

প্রতিশিক্ষিত ভাষা মডেল এবং বড় ভাষা মডেল (LLMs) এর সাম্প্রতিক অগ্রগতিগুলির সাথে, টাস্ট-ইনলাইজেশন ডায়ালগ সিস্টেমগুলি (Task-Oriented Dialogue Systems, TDSs) তথ্য অনুসন্ধানের পদ্ধতিটি পুনরায় সংজ্ঞায়িত করেছে, যা ব্যবহারকারীদের তথ্য উৎসগুলির সাথে জড়িত হওয়ার জন্য ব্যবহারকারীদের জন্য একটি স্বাভাবিক পদ্ধতি প্রদর্শন করে (Budzianowski and Vulic ́, 2019; Wu et al., 2020)। তথ্য অনুসন্ধান প্রক্রিয়াগুলির সাথে TDSs ক্রমবর্ধমান অন্তর্ভুক্ত হয়ে যাওয়ার কারণে, তাদের কর্মক্ষমতা কীভাবে সঠিকভাবে এবং কার্যকরভাবে মূল্যায়ন করা যায় তা গুরুত্বপূর্ণ হয়ে উঠ

পরিচয় সত্যের লেবেলগুলি সংগ্রহ করার জন্য বিভিন্ন crowdsourcing প্রযুক্তি ব্যবহার করা হয়েছে, যেমন পরবর্তী লেবেলিং (Sun et al., 2021), যেখানে অ্যানোটেটররা প্রতিটি বাক্যগুলির মাধ্যমে যান এবং তাদের এক-একটি অ্যানোটেট করে। এই পদ্ধতিটি অ্যানোটেটিং প্রক্রিয়ায় নির্দিষ্ট ঝুঁকিগুলি প্রবেশ করে, যেমন অ্যানোটেটরদের ক্লান্তি এবং অতিরিক্ত দীর্ঘ সংলাপে উচ্চ জ্ঞানীয় লোড, যা তাদের মনে রাখতে এবং বাক্যগুলি অ্যানোটেট করার সময় সংলাপের অবস্থা অনুসরণ করতে বাধ্য করে (Siro et al., 2022). যদিও সংলাপের পরিবেশ অনুসরণ এবং বোঝা গুরুত্বপূর্ণ এবং অ্যানোট

এই সমস্যাটি সমাধান করার জন্য, আরেকটি গবেষণা লাইন প্রতিটি অ্যানোটেট করা প্রতিটি ডায়ালগে শুধুমাত্র কয়েকটি বক্তৃতাকে র্যান্ডমভাবে নমুনা করার পরামর্শ দেয় (Mehri and Eskenazi, 2020; Siro et al., 2022, 2023). উচ্চ জ্ঞানী লোড এবং ক্লান্তি মোকাবেলা করার সময়, অ্যানোটেটরদের ডায়ালগের বোঝার সীমাবদ্ধতা অদৃশ্য ঝুঁকি বহন করে, যেমন অবিশ্বাস্য এবং বিভ্রান্তিকর লেবেলগুলি (Schmitt and Ultes, 2015; Siro et al., 2022). বিশেষ করে, ডায়ালগ পরিবেশের পরিমাণ অ্যানোটেটরদের বিভ্রান্তিকর হতে পারে।

পূর্বকৃত কাজটি অ্যানোটেটর বৈশিষ্ট্য সহ crowdsourced evaluation labels এর গুণমান এবং সামঞ্জস্যকে প্রভাবিত করে এমন কারণগুলি তদন্ত করেছে, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 task design, cognitive load, and evaluation protocols (see, উদাহরণস্বরূপ, Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020)।

এই গবেষণায়, আমরা এই গবেষণা বৈষম্যটি সমাধান করার উদ্দেশ্য করেছি, যেহেতু বিভিন্ন পরিমাণে সংশ্লিষ্ট তথ্যগুলি টিডিএস এর জন্য ক্রুডসোর্স লেবেলগুলির গুণমান এবং সামঞ্জস্যকে কীভাবে প্রভাবিত করে, যা এই ধরনের নকশা পছন্দগুলির প্রভাবগুলির বোঝার জন্য অবদান রাখে।

আমরা ব্যবহারকারীর তথ্য প্রয়োজনীয়তা এবং সংক্ষিপ্ত বিবৃতি উৎপাদনের জন্য হেয়ারিস্টিক পদ্ধতি এবং এলএলএম ব্যবহার করার পরিকল্পনা করি। এলএলএমগুলি ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস আরও কার্যকর ও কার্যকরভাবে বুঝতে সহায়তা করে (Faggioli ইত্যাদি, ২০২৩), ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের ইতিহাস সংক্ষিপ্ত করে ডায়ালগের প্রয়োজনীয়তা এবং সংক্ষিপ্ত বিবৃতি উৎপাদন করে। এই উদ্দেশ্যে, আমরা GPT-4 ব্যবহার করি ডায়ালগের বৈশিষ্ট্য সংক্ষ

আমাদের ফলাফলগুলি দেখায় যে পূর্ববর্তী আলোচনার পরিবেশের উপলব্ধতা উল্লেখযোগ্যভাবে অ্যানোটেটরদের রেটিংগুলি প্রভাবিত করে, তাদের গুণমানের উপর উল্লেখযোগ্য প্রভাব ফেলে। পূর্ববর্তী পরিবেশ ছাড়াই, অ্যানোটেটররা সিস্টেমের প্রতিক্রিয়াগুলির জন্য আরো ইতিবাচক রেটিংগুলি প্রদান করে, সম্ভবত শাস্তির জন্য যথেষ্ট প্রমাণগুলির কারণে, ইতিবাচকতা বিচ্ছিন্নতা প্রবর্তন করে। বিপরীতভাবে, পুরো আলোচনার পরিবেশটি উপস্থাপন করা উচ্চতর প্রাসঙ্গিকতা রেটিংগুলি উত্পাদন করে। উপকারিতা হিসাবে, পুরো আলোচনার পরিবেশটি উপস্থ

আমাদের ফলাফলগুলি অন্যান্য কাজ-নির্দেশিত কথোপকথনের কাজগুলিতে প্রসারিত হয়, যেমন কথোপকথন অনুসন্ধান এবং পছন্দগুলি উত্সাহিত করা, উভয়ই সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য crowdsourced পরীক্ষার উপর নির্ভর করে।