1,919 পড়া

মেট্রিক্স পুনরুত্থান: অ্যাকশন! কর্ম! কর্ম!

দ্বারা Prithwish Mukherjee3m2024/06/11

অতিদীর্ঘ; পড়তে

ব্যবহারকারীর রিপোর্ট করা মেট্রিক্স, যদিও ব্যবহারকারীর উপলব্ধি মূল্যায়নের জন্য গুরুত্বপূর্ণ, তাদের গঠনহীন প্রকৃতির কারণে কার্যকর করা কঠিন। যাইহোক, এলএলএম-এর সাম্প্রতিক অগ্রগতিগুলি অসংগঠিত ব্যবহারকারীর প্রতিক্রিয়াকে কাঠামোগত, কর্মযোগ্য মেট্রিক্সে রূপান্তর করার অনুমতি দেয়। এটি দলগুলিকে সিস্টেম-স্তরের মেট্রিক্সের পাশাপাশি ব্যবহারকারীর উপলব্ধির উপর তাদের প্রভাব মূল্যায়ন করে কর্মক্ষমতা উন্নতি প্রকল্পগুলিকে আরও ভালভাবে অগ্রাধিকার দিতে সক্ষম করে। নির্বোধ না হলেও, এই সম্মিলিত পদ্ধতি কথোপকথনমূলক এআই এজেন্টগুলিতে করা পরিবর্তনগুলির কার্যকারিতা সম্পর্কে আরও বিস্তৃত ধারণা প্রদান করে। এটা মনে রাখা গুরুত্বপূর্ণ যে উভয় ধরনের মেট্রিকই ব্যবহারকারীর উপলব্ধি সঠিকভাবে মূল্যায়ন এবং উন্নত করার জন্য মূল্যবান।

featured image - মেট্রিক্স পুনরুত্থান: অ্যাকশন! কর্ম! কর্ম!

পটভূমি

এই সিরিজের প্রথম 3টি নিবন্ধের আশ্চর্যজনক প্রতিক্রিয়া দেখে, আমাকে একটি 4 র্থ অংশ নিয়ে আসতে হয়েছিল।

পূর্ববর্তী 3টি নিবন্ধে, আমরা AI এজেন্টদের কথোপকথনের জন্য কর্মক্ষমতা মেট্রিক সংজ্ঞা, উপকরণ এবং মাপযোগ্যতা নিয়ে আলোচনা করেছি। আপনি যদি আগের নিবন্ধগুলি পরীক্ষা না করে থাকেন তবে এখানে লিঙ্কগুলি রয়েছে:

পার্ট 1 - মেট্রিক্স: লাল বড়ি গিলে ফেলুন
পার্ট 2 - মেট্রিক্স রিলোডেড: দ্য ওরাকল
পার্ট 3 - মেট্রিক্স বিপ্লব: স্কেলিং

এই প্রবন্ধে, আমরা আলোচনা করব কিভাবে এই মেট্রিকগুলিকে আরও কার্যকর করা যায় (সর্বশেষ এলএলএম অগ্রগতিগুলি ব্যবহার করে) চলমান ভিত্তিতে কর্মক্ষমতা উন্নত করার জন্য। এই ডোমেনে কর্মরত প্রত্যেকের জন্য আলোচনাকে সরলীকৃত এবং মোটামুটি উচ্চ স্তরের রাখাই হবে লক্ষ্য।

সমস্যাটি

ইউজার পারসিভড মেট্রিক্স এবং ইউজার রিপোর্টেড মেট্রিক্স হল 2টি উচ্চ-স্তরের মেট্রিক্স যা আমরা আলোচনা করেছি। ঐতিহ্যগতভাবে, পূর্বেরটিকে একটি সিস্টেম-স্তরের মেট্রিক হিসাবে বিবেচনা করা হয় - এই মেট্রিকগুলি সরাসরি লগ থেকে পরিমাপ করা হয়। ফলস্বরূপ, ব্যবহারকারীর অনুভূত মেট্রিক্স প্রকৃতির দ্বারা ক্রিয়াযোগ্য এবং তাই কার্যকর।

অপারেশনাল মেট্রিক্স নিয়মিতভাবে প্রোডাকশন লগ থেকে ট্র্যাক করা হয় এবং টার্গেট সেটিং wrt টিম ওয়াইড OKR-এর জন্য ব্যবহার করা যেতে পারে।

যাইহোক, যদিও ব্যবহারকারীর অনুভূত মেট্রিকগুলি কার্যকর করা সহজ, এটি লক্ষ করা উচিত যে এগুলি "অনুভূত" এবং "প্রকৃত" ব্যবহারকারীর মেট্রিক নয়। ফলস্বরূপ, এই মেট্রিক্সে পাহাড়ে আরোহণ আপনার কথোপকথনমূলক এআই এজেন্ট সম্পর্কে ব্যবহারকারীর উপলব্ধিতে উল্লেখযোগ্য উন্নতি নাও করতে পারে। এই প্রকল্পগুলি একাধিক ত্রৈমাসিক জুড়ে বিস্তৃত হলে এটি সম্পদের অদক্ষ ব্যবস্থাপনার দিকে পরিচালিত করতে পারে।

ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সে সরাসরি সমস্ত কর্মক্ষমতা উন্নতির প্রত্যাশিত প্রভাব পরিমাপ করার একটি উপায় থাকা দরকার। এটিকে "উত্তর তারকা" প্রভাব হিসাবে বিবেচনা করা উচিত। তাহলে সমস্যাটা কি?

প্রত্যক্ষ ব্যবহারকারীর প্রতিক্রিয়া অসংগঠিত হবে বলে আশা করা হচ্ছে যা কর্মযোগ্য নয় এবং কার্যকর করার জন্য ভিন্ন।

বিশদ ব্যবহারকারী-প্রতিবেদিত প্রতিক্রিয়া প্রকৃতির দ্বারা অসংগঠিত হওয়া উচিত। যদি ব্যবহারকারী-প্রতিবেদিত প্রতিক্রিয়াটি কাঠামোগতভাবে তৈরি করা হয়, তাহলে এটি অভ্যন্তরীণ দল ইতিমধ্যেই সচেতন এলাকাগুলিতে ফোকাস করতে পারে। এগুলি ছাড়াও, ব্যবহারকারীর রিপোর্ট করা মেট্রিকগুলিও ঋতু এবং কোম্পানির উপলব্ধির মতো কারণগুলির দ্বারা প্রভাবিত হয়৷

ব্যবহারকারীর অনুভূত মেট্রিক্সের উপর প্রভাব আরও সঠিকভাবে অনুমান করা যেতে পারে তবে ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সে অনেকগুলি অনিয়ন্ত্রিত কারণ রয়েছে।

সমাধান

অসংগঠিত ব্যবহারকারীর রিপোর্ট করা প্রতিক্রিয়া একটি কাঠামোগত বিন্যাসে রূপান্তর করা উচিত যা কার্যকর করা যেতে পারে। অসংগঠিত প্রতিক্রিয়াকে বিদ্যমান সিস্টেম-স্তরের মেট্রিক্সে রূপান্তর করার উদ্দেশ্যে প্রশিক্ষিত নির্দিষ্ট এমএল মডেল থাকতে পারে।

এটি উল্লেখ করা উচিত যে এই মেট্রিক্সের অন্তর্নিহিত তির্যক থেকে রক্ষা করার জন্য "সাম্প্রতিক" ব্যবহারকারীর মেট্রিক রিগ্রেশনের জন্য ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সের প্রাথমিক লক্ষ্য ব্যবহার করা আরও বেশি ব্যবহারিক হতে পারে। আরও অনুভূমিক দীর্ঘমেয়াদী প্রকল্পের জন্য, এই মেট্রিকগুলি সিস্টেম-স্তরের মেট্রিক্সের সাথে ব্যবহারকারীর উপলব্ধির উপর প্রভাব পরিমাপ করতে ব্যবহার করা উচিত।

এলএলএম হল গেম চেঞ্জার

এখন প্রশ্ন থেকে যায়, আমরা যে নির্দিষ্ট মেট্রিকগুলি খুঁজছি তার জন্য এমএল মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য কী প্রচেষ্টা প্রয়োজন? LLM-এর জনপ্রিয়তা এবং প্রাপ্যতার সাম্প্রতিক বৃদ্ধির সাথে, সিস্টেম-স্তরের মেট্রিক্সের মতো ট্র্যাক এবং পরিমাপ করা যেতে পারে এমন কিছুতে আনস্ট্রাকচার্ড ফিডব্যাককে রূপান্তর করতে অ-অফ-দ্য-বক্স API ব্যবহার করা সম্ভব হতে পারে।

এটি লক্ষ করা গুরুত্বপূর্ণ যে LLM যে টোকেনগুলি প্রক্রিয়া করতে পারে তার সংখ্যা বৃদ্ধির সাথে সাথে "প্রম্পট" এর অংশ হিসাবে প্রচুর পণ্য-নির্দিষ্ট তথ্য সরবরাহ করা যেতে পারে। ফলস্বরূপ, কিছু প্রম্পট ইঞ্জিনিয়ারিং সহ অফ-দ্য-শেল্ফ এলএলএম এপিআইগুলি কার্যযোগ্য ব্যবহারকারীর রিপোর্ট করা মেট্রিক্স প্রদান করতে পারে।

এটি ব্যবহারকারীর ধারণার উপর সিস্টেম-স্তরের মেট্রিক উন্নতি প্রকল্পগুলির প্রভাব মূল্যায়ন করার একটি সত্যিই দ্রুত উপায় প্রদান করে যা কর্মক্ষমতা উন্নতি প্রকল্পগুলিকে অগ্রাধিকার দেওয়ার ক্ষেত্রে কার্যকর হতে পারে।

এমনকি স্ট্রাকচার্ড ইউজার রিপোর্টেড মেট্রিক্সের এই পদ্ধতির সাথেও, অপ্রত্যাশিত পরিবর্তনের জন্য এখনও জায়গা রয়েছে। যাইহোক, এটি কিছু স্তরের আত্মবিশ্বাসের সাথে অনুমান করা যেতে পারে যে, যদি একটি নির্দিষ্ট প্রকল্প (একটি সিস্টেম-স্তরের মেট্রিককে উন্নত করার লক্ষ্যে) রিপোর্ট করা মেট্রিক্সকে ইতিবাচকভাবে প্রভাবিত করে, তাহলে প্রকল্পটি সম্ভবত ব্যবহারকারীর ধারণার উন্নতি করছে।

যাইহোক, এর কোন গ্যারান্টি নেই যে সমস্ত প্রকৃতপক্ষে "ভাল" পরিবর্তনগুলি সর্বদা কার্যকরভাবে ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সকে উন্নত করবে। ফলস্বরূপ, কর্মক্ষমতা উন্নয়ন প্রকল্পগুলিকে অগ্রাধিকার দিতে এবং মূল্যায়ন করতে উভয়ের মিশ্রণ ব্যবহার করা গুরুত্বপূর্ণ।