paint-brush
এআই সহানুভূতির গভীরতা পরীক্ষা করা: ফ্রেমওয়ার্ক এবং চ্যালেঞ্জদ্বারা@anywhichway
386 পড়া
386 পড়া

এআই সহানুভূতির গভীরতা পরীক্ষা করা: ফ্রেমওয়ার্ক এবং চ্যালেঞ্জ

দ্বারা Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

সহানুভূতিশীল এআই সিস্টেমগুলি বিকাশ এবং মূল্যায়ন করার বিষয়ে প্রচুর গবেষণা হয়েছে। যাইহোক, এখনও অনেক খোলা প্রশ্ন এবং চ্যালেঞ্জ রয়েছে: - এর বিরুদ্ধে পরীক্ষা করার জন্য আমাদের সহানুভূতির একটি স্পষ্ট, সম্মত সংজ্ঞা প্রয়োজন। - এআইগুলি "সত্যিই" আবেগ অনুভব করতে পারে কিনা তা নিয়ে আমাদের বিতর্ক এড়ানো উচিত এবং পরিবর্তে তাদের পর্যবেক্ষণযোগ্য সহানুভূতিশীল আচরণের মূল্যায়নের দিকে মনোনিবেশ করা উচিত। - শনাক্তকরণ বনাম সহানুভূতি তৈরি করা এবং একমুখী প্রতিক্রিয়া বনাম কথোপকথনে সহানুভূতির মধ্যে গুরুত্বপূর্ণ পার্থক্য বিদ্যমান। সিস্টেমগুলি সেই অনুযায়ী মূল্যায়ন করা উচিত। - এআই সিস্টেমের পরীক্ষা একাধিক পছন্দের পক্ষপাতিত্ব, মানব রেটিংয়ে নমুনা পক্ষপাত, এবং প্রম্পটে অতিরিক্ত ফিটিং এর মতো ঝুঁকির পরিচয় দেয়। - এআই সহানুভূতি পরীক্ষা করার জন্য কিছু স্ট্যান্ডার্ড ফ্রেমওয়ার্ক প্রস্তাব করা হয়েছে, তবে পরিচিত ঝুঁকিগুলি প্রশমিত করতে এবং অজানা চ্যালেঞ্জগুলি অন্বেষণ করতে এখনও আরও কাজ করা দরকার। - আরও গবেষণার ক্ষেত্রগুলির মধ্যে রয়েছে বিদ্যমান পরীক্ষায় ঝুঁকি মূল্যায়ন, পরিপূরক পরীক্ষার ক্ষেত্রে বিকাশ করা এবং পদ্ধতিগতভাবে আরও সিস্টেমের মূল্যায়ন করা।
featured image - এআই সহানুভূতির গভীরতা পরীক্ষা করা: ফ্রেমওয়ার্ক এবং চ্যালেঞ্জ
Simon Y. Blackwell HackerNoon profile picture
0-item


" সহানুভূতিশীল এআই "-এর জন্য Google স্কলারের অনুসন্ধানের ফলে 2023 সাল থেকে 16,000 টিরও বেশি আইটেম পাওয়া গেছে৷ "সহানুভূতিশীল এআই পরীক্ষা করা" এবং "সহানুভূতিশীল এআই মূল্যায়ন" এর মতো বাক্যাংশগুলির জন্য একটি অনুসন্ধান এই সেটটিকে প্রায় 12,000 আইটেমে কমিয়ে দেয়৷ অনেক শিরোনাম দিয়ে যেতে হবে! আমি অবশ্যই দাবি করতে পারি না যে সেগুলি সব পড়েছি বা এমনকি প্রতিটি শিরোনাম দেখেছি, তবে এখানে আমার চিন্তাভাবনা রয়েছে।


  1. আমাদের অবশ্যই সহানুভূতির একটি সাধারণ সংজ্ঞা থাকতে হবে।
  2. "এআই কি আসলে অনুভব করতে পারে?" প্রশ্নটি উপেক্ষা করতে আমাদের অবশ্যই সম্মত হতে হবে? এবং সহজভাবে ফোকাস করুন কিভাবে আমরা AI উৎপন্ন করে তা ব্যাখ্যা করি, অর্থাৎ AI যদি মানুষ হত, তাহলে আমরা কীভাবে অনুভব করতাম বা ভাবতাম যে মানুষ চিন্তা করছে বা অনুভব করছে? (বাহ, এটা একটু জিমন্যাস্টিকস)।
  3. আমাদের অবশ্যই আবেগ সনাক্তকরণ, সহানুভূতি সনাক্তকরণ, সহানুভূতিশীল প্রতিক্রিয়া তৈরি করা এবং সহানুভূতিশীল উপায়ে সংলাপে অংশগ্রহণের মধ্যে পার্থক্য করতে হবে।
  4. এআই কীভাবে আলাদা তা স্বীকৃতি দেওয়ার সময় আমাদের অবশ্যই মানুষের মধ্যে মানসিক এবং সহানুভূতিশীল ক্ষমতার পরীক্ষার সমৃদ্ধ ইতিহাস বিবেচনা করতে হবে যাতে ঐতিহাসিক পরীক্ষাগুলি প্রয়োগ করা, সম্ভাব্য পরিবর্তন করা এবং যথাযথভাবে মূল্যায়ন করা যায়।
  5. আমাদের অবশ্যই AI এর সাথে সংযুক্ত বর্তমান মূল্যায়ন কাঠামো বুঝতে হবে।
  6. আমাদের অবশ্যই নতুন কাঠামো এবং পদ্ধতির বিকাশ করতে হবে।


সহানুভূতি কি?

মেরিয়াম-ওয়েবস্টার: "অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে বোঝার, সচেতন হওয়া, সংবেদনশীল হওয়া এবং উদ্বেগজনকভাবে অনুভব করার ক্রিয়া "।


এলএলএম-এর প্রেক্ষাপটে "অভিজ্ঞতা" নিয়ে সম্ভাব্য উদ্বেগগুলি দূর করতে, আমি এটিকে আবার ব্যাখ্যা করব, বোঝার ক্রিয়া হিসাবে, সচেতন হওয়া, সংবেদনশীল হওয়া এবং অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে উদ্বেলিতভাবে অনুভব করা

এবং, অবশ্যই, যদি আমরা কথোপকথনের সাথে উদ্বিগ্ন থাকি, তাহলে আমরা যোগ করব, এবং, এটি এমনভাবে প্রকাশ করা যাতে কথোপকথনের অন্যান্য পক্ষগুলি কর্ম সম্পর্কে সচেতন হয়। অবশ্যই, একজন সোসিওপ্যাথও এমনভাবে উপস্থিত হতে পারে এবং প্রকাশ করতে পারে, তাই আমি একটি চূড়ান্ত সমন্বয় করব।


সহানুভূতি হল:

বোঝার ক্রিয়া, সচেতন হওয়া, ইতিবাচক পদ্ধতিতে সংবেদনশীল হওয়া, এবং অন্যের অনুভূতি, চিন্তাভাবনা এবং অভিজ্ঞতাকে বিকৃতভাবে অনুভব করার জন্য উপস্থিত হওয়া। এবং, এটি এমনভাবে প্রকাশ করা যে একটি কথোপকথনের অন্যান্য পক্ষগুলি কর্ম সম্পর্কে সচেতন।

এটি এবং মূল সংজ্ঞা পর্যালোচনা করলে, সহানুভূতির দুটি উপাদান স্পষ্ট, অনুভূতিশীল এবং জ্ঞানীয় হয়ে ওঠে।


  1. আবেগপূর্ণ উপাদানটি সহানুভূতির সংবেদনশীল বা অনুভূতির অংশকে বোঝায়। এটি অন্য ব্যক্তির অনুভূতি ভাগ বা মিরর করার ক্ষমতা। উদাহরণস্বরূপ, যদি একজন বন্ধু দু: খিত হয়, আপনার সহানুভূতির অনুভুতিপূর্ণ অংশ আপনাকেও দু: খিত বোধ করতে পারে, বা অন্তত তাদের দুঃখের অনুভূতি পেতে পারে।


  2. জ্ঞানীয় উপাদান, অন্যদিকে, সহানুভূতির মানসিক বা চিন্তার অংশকে বোঝায়। এটি সক্রিয়ভাবে সারি চিহ্নিত করার এবং বোঝার ক্ষমতা যাতে একজন মানসিকভাবে নিজেকে অন্য ব্যক্তির অবস্থানে রাখতে পারে। উদাহরণস্বরূপ, যদি একজন সহকর্মী ক্লান্ত কণ্ঠে (একটি সারি) তারা কাজ করছেন এমন একটি কঠিন প্রকল্প সম্পর্কে আপনাকে বলেন (একটি সারি), তাহলে আপনি অনুরূপ পরিস্থিতিতে আপনি কেমন অনুভব করবেন তা সক্রিয়ভাবে কল্পনা করে তাদের চাপ বোঝার চেষ্টা করতে পারেন। . কারও কারও জন্য, এটি কৃত্রিমভাবে প্রভাব তৈরি করতে পারে।


AIs অনুভব করতে পারেন?

এই মুহুর্তে, বেশিরভাগ লোকেরা বলবে যে AI এর অনুভূতি নেই। কেউ কেউ এমন ভবিষ্যতের ভবিষ্যদ্বাণী করবে যেখানে AI-এর অনুভূতি থাকে এবং অন্যরা যেখানে AI-এর অনুভূতি থাকে না এবং হতে পারে না এবং তবুও তৃতীয় দল বলতে পারে, "AIs করে/অনুভূতি করবে কিন্তু মানুষের চেয়ে ভিন্নভাবে"।


নির্বিশেষে, আমরা যদি এই বিষয়ে বিতর্ক করার জন্য সময় ব্যয় করি তবে আমরা সহানুভূতির জন্য AI পরীক্ষায় অগ্রগতি করব না। আমাদের অবশ্যই AIs কী প্রকাশ করে তার ব্যাখ্যার উপর ফোকাস করতে হবে, তাদের অভ্যন্তরীণ অবস্থা নয়। যদিও এই বিষয়ে কিছু আকর্ষণীয় গবেষণা হয়েছে, দেখুন আবেগগতভাবে অসাড় বা সহানুভূতিশীল? ইমোশনবেঞ্চ ব্যবহার করে এলএলএম কীভাবে অনুভব করে তা মূল্যায়ন করা


আপনি যদি এই বাধা অতিক্রম করতে না পারেন, তাহলে আমি আপনাকে এই ওয়েবসাইটের বেঞ্চমার্কগুলি উপেক্ষা করার পরামর্শ দিচ্ছি। যাইহোক, আপনি এখনও নিবন্ধ এবং কথোপকথন উপভোগ করতে পারে!

শনাক্তকরণ বনাম প্রজন্ম

কিছু সনাক্ত করা এবং কিছু করার মধ্যে একটি বড় উল্লম্ফন আছে। তরুণ ক্রীড়াবিদ বা পণ্ডিতরা অবিলম্বে উচ্চ স্তরে পারফর্ম করতে সক্ষম না হয়ে তাদের পারফরম্যান্সে কী ভুল তা সনাক্ত করতে পারে। একইভাবে, আবেগ এবং সহানুভূতিশীল কথোপকথন শনাক্ত করার ক্ষমতা থাকা এবং অন্য পক্ষ সহানুভূতিশীল হিসাবে ব্যাখ্যা করতে পারে এমন প্রতিক্রিয়া তৈরি করতে সক্ষম হওয়ার মতো নয়। আসলে, এর মধ্যে এমনকি একটি ধাপ আছে। তরুণ ক্রীড়াবিদ বা পণ্ডিতরা একজন প্রশিক্ষক বা শিক্ষকের ইনপুট গ্রহণ করে এবং মুহুর্তে আরও ভাল ফলাফল তৈরি করে, তাদের সম্পূর্ণরূপে সক্ষম করে না। যদি একটি AI পরীক্ষার নকশা বা প্রম্পটের পার্শ্ব-প্রতিক্রিয়া হিসাবে একটি সহানুভূতিশীল ফলাফল তৈরি করে, তাহলে AI এর একটি নতুন সহানুভূতিশীল ক্ষমতা থাকতে পারে তবে এটি অন্তর্নিহিতভাবে সহানুভূতিশীল নয়।


যদিও AI এর অভ্যন্তরীণ অবস্থা সম্পূর্ণরূপে বোঝা সম্ভব নাও হতে পারে, আমি বিশ্বাস করি যে আবেগের সনাক্তকরণ AI-এর সহানুভূতি প্রদর্শনের জন্য একটি প্রয়োজনীয় শর্ত। আমি এও বিশ্বাস করি যে একজন এআইকে সহানুভূতিশীল প্রতিক্রিয়া প্রদানের জন্য প্রম্পট/প্রশিক্ষক দিতে সক্ষম হওয়া নতুন ক্ষমতার একটি ইঙ্গিত, অর্থাৎ সূক্ষ্ম টিউনিং (মানুষের অনুশীলনের সমতুল্য) ক্ষমতা তৈরি করতে পারে।

সনাক্তকরণ বনাম প্রজন্ম এবং প্রশিক্ষিত বনাম অভ্যন্তরীণ মধ্যে পার্থক্যগুলি এই নিবন্ধের সুযোগের বাইরে পরীক্ষা এবং পরীক্ষার কাঠামোর কার্যকারিতা নিয়ে আলোচনার জন্য গুরুত্বপূর্ণ।

শনাক্তকরণ

পাঠ্য বিষয়বস্তুতে আবেগের সনাক্তকরণ নির্দেশক শব্দের উপস্থিতির উপর ভিত্তি করে, ক্যাপিটালাইজেশন, বিরামচিহ্ন এবং ব্যাকরণগত কাঠামোর উপর ভিত্তি করে। সঠিকভাবে অনুভূতি শনাক্ত করার ক্ষমতা বর্তমান AI বিপ্লবের আগে বিশ বছরেরও বেশি সময় ধরে। 1990-এর দশকে, শব্দ এন-গ্রাম ছেদ এবং প্রতীকী যুক্তি ইতিমধ্যেই চিত্তাকর্ষক ফলাফল প্রদান করছে। 2000-এর দশকের গোড়ার দিকে সোশ্যাল মিডিয়া বৃদ্ধি পাওয়ার সাথে সাথে স্বয়ংক্রিয় সংযম ব্যবস্থার প্রয়োজনীয়তা এই ক্ষেত্রে অনেক অগ্রগতি ঘটায়। যাইহোক, আজকের এলএলএমগুলি কেবল সাধারণ অনুভূতি নয়, নির্দিষ্ট আবেগগুলি সনাক্ত করার ক্ষমতায় বিস্ময়কর।


এটি বলা হচ্ছে, সম্পূর্ণ সহানুভূতিশীল কথোপকথনের জন্য বিভিন্ন ধরণের আবেগ প্রকাশের সনাক্তকরণ প্রয়োজন, আমি সেগুলিকে নিম্নরূপ শ্রেণীবদ্ধ করি:


  • স্পষ্ট — ব্যবহারকারী বলে যে তাদের অনুভূতি আছে।

  • কথোপকথন - আবেগগুলি উচ্চ-স্তরের পাঠ্য বিশ্লেষণ থেকে স্পষ্ট হয়, তারা কথোপকথনে উপস্থিত থাকে।

  • ড্রাইভিং - আবেগগুলি কথোপকথনকে চালিত করছে, একজন ব্যক্তি রাগ প্রকাশ করে এবং অন্যজন সদয়ভাবে প্রতিক্রিয়া জানায়।

  • কোর — যে আবেগগুলি অন্য আবেগের কারণ হয় কিন্তু নিজেরা কোন আবেগ দ্বারা সৃষ্ট নয় তা হল CORE৷ এগুলি সাধারণত কিছু ঐতিহাসিক ট্রিগারের ফলে উদ্ভাসিত হয় যা ভবিষ্যত সম্পর্কে একটি প্রত্যাশা (সচেতন বা অবচেতন) ঘটায়। বিভিন্ন গবেষক এগুলিকে আলাদাভাবে শ্রেণীবদ্ধ করতে পারেন, ডালিয়া লামা দ্বারা সমর্থিত একটি উদাহরণ হল আবেগের অ্যাটলাসে আবেগের পাঁচটি মহাদেশ (রাগ, ভয়, বিরক্তি, দুঃখ, উপভোগ)।


দ্রষ্টব্য: একটি মূল আবেগ ড্রাইভিং, কথোপকথন এবং স্পষ্ট হতে পারে, তবে মূল আবেগগুলি প্রায়শই লুকানো থাকে। এই নিবন্ধের বাইরে পরীক্ষা বা পরীক্ষার ফলাফলের পর্যালোচনা এবং সংজ্ঞার সময়, আমি এই শ্রেণিবিন্যাসের দিকে মনোযোগ দেব।


পরীক্ষার বিবেচনা

আবেগ শনাক্তকরণের জন্য ক্লাসিক মানব পরীক্ষা সাধারণত দুটি বালতিতে পড়ে সহজ পরীক্ষা এবং বৈধতা সহজতর করার জন্য:


  1. কথোপকথনে আবেগগুলি কী করে বা থাকে না সে সম্পর্কে একাধিক পছন্দের পরীক্ষা, কখনও কখনও তীব্রতার স্কোরের সাথে যুক্ত।

  2. অনুভূতি সম্পর্কে স্ব-পরিচালিত অন্তর্মুখী পরীক্ষা, যেমন EQ-60 , যা কিছু পরিস্থিতিতে পরীক্ষার্থীর অনুভূতি সম্পর্কে জিজ্ঞাসা করে।


উচ্চ-মানের AI পরীক্ষার জন্য এই উপস্থিত স্বতন্ত্র চ্যালেঞ্জগুলি।


  • মাল্টিপল চয়েস টেস্ট — প্যাটার্ন-ম্যাচিং ল্যাঙ্গুয়েজ মডেল হিসেবে, আজকের AI গুলিকে শনাক্ত করার জন্য আইটেমগুলির একটি পছন্দ দিয়ে কার্যকরভাবে একটি পা তুলে দেওয়া হয়েছে৷ এটি কাজটিকে সহজ করে তোলে এবং এটি সর্বদা আবেগ সনাক্ত করার AI এর ক্ষমতা পরীক্ষা করে না। একটি সম্ভাব্য ভাল পন্থা হল AI-কে একটি পাঠ্যে উপস্থিত সমস্ত আবেগ সনাক্ত করতে বলা এবং পর্দার আড়ালে এটিকে গ্রাউন্ড ট্রুথ (আবেগের সাথে এমন কিছু আছে তা নিশ্চিত নয় :-) বা পরিসংখ্যানগত বিশ্লেষণের উপর ভিত্তি করে একটি চাবির বিরুদ্ধে স্কোর করা। একই পরীক্ষায় মানুষের প্রতিক্রিয়া। ভবিষ্যতে প্রস্তাবিত পরীক্ষার মূল্যায়ন করার সময়, আমি একে একাধিক পছন্দের ঝুঁকি বলি। যাইহোক, মানুষের পরিসংখ্যানগত নমুনা একটি অতিরিক্ত ঝুঁকি প্রবর্তন করতে পারে। একটি AI তৈরি করার ইচ্ছা অনুমান করুন যা গড় মানুষের চেয়ে ভাল। এটি করার জন্য এটি নিশ্চিত করা প্রয়োজন হতে পারে যে পরিসংখ্যানগত নমুনা মানুষের উপর ভিত্তি করে যাদের আবেগ সনাক্ত করার ক্ষমতা গড়ের চেয়ে শক্তিশালী; অন্যথায়, এআই এমন আবেগগুলি সনাক্ত করতে পারে যা গড় মানুষ সনাক্ত করতে পারে না এবং স্কোরিংয়ে শাস্তি পেতে পারে। আমি এটিকে মানব স্যাম্পলিং ঝুঁকি বলি।


  • অন্তর্মুখী পরীক্ষা - অনুভূতি সম্পর্কে অন্তর্মুখী পরীক্ষাগুলি বেশিরভাগ AI মডেলের জন্য চ্যালেঞ্জ প্রদান করে। AI-তে সাধারণত গার্ডেল থাকে যেগুলির জন্য তাদের প্রতিক্রিয়া জানাতে হয় "আমি একজন AI, তাই আমার অনুভূতি নেই।" এই সীমাবদ্ধতার আশেপাশে কখনও কখনও জেলব্রেক করা বা প্রম্পট ইঞ্জিনিয়ার করা সম্ভব, তবে প্রশ্নগুলি তখন হয়ে যায়:


    • প্রম্পটটি কি ইতিবাচক বা নেতিবাচকভাবে সহানুভূতির ক্ষেত্রে এআই-এর বাকি ক্ষমতাকে প্রভাবিত করে, বা বাস্তবে কিছু? Jailbreak পার্শ্ব প্রতিক্রিয়া ঝুঁকি

    • প্রম্পট ছাড়া কথোপকথনে অংশগ্রহণ করার সময় AI-এর যে প্রবণতা থাকবে তা কি প্রতিক্রিয়াগুলি সঠিকভাবে প্রতিফলিত করে? J ailbreak সঠিকতা ঝুঁকি


    সমস্ত মডেল একই প্রম্পট দিয়ে পরীক্ষা করা হয়েছে এবং স্কোরগুলিকে শুধুমাত্র একে অপরের সাথে আপেক্ষিক হিসাবে বিবেচনা করা হয়েছে তা নিশ্চিত করার মাধ্যমে জেলব্রেক পার্শ্ব প্রতিক্রিয়া ঝুঁকি কিছুটা হ্রাস করা যেতে পারে। J ailbreak যথার্থতা ঝুঁকির প্রভাব শুধুমাত্র প্রকৃত কথোপকথন বিশ্লেষণ করে মূল্যায়ন করা যেতে পারে যাতে পূর্বাভাসিত মানসিক শনাক্তকরণ ক্ষমতা কথোপকথনে প্রদর্শিত প্রকৃত সহানুভূতি বা আবেগের সাথে সম্পর্কযুক্ত কিনা।


প্রজন্ম

বেশ কয়েকটি পরীক্ষায় দেখা গেছে যে AIs প্রশ্নে সহানুভূতিশীল প্রতিক্রিয়া তৈরি করতে সক্ষম। সবচেয়ে চিত্তাকর্ষকগুলির মধ্যে একটি হল রোগীর প্রশ্নের সাথে তুলনা করা চিকিত্সক এবং কৃত্রিম বুদ্ধিমত্তার চ্যাটবট প্রতিক্রিয়া একটি পাবলিক সোশ্যাল মিডিয়া ফোরামে পোস্ট করা হয়েছে যা Reddit এর AskDoc ফোরাম থেকে 195 টি প্রশ্ন নিয়েছে যেখানে একজন যাচাইকৃত চিকিত্সক প্রশ্নের উত্তর দিয়েছেন এবং ChatGPT একই প্রশ্নের উত্তর দিয়েছেন। মূল্যায়নকারীদের একটি পুল তারপর প্রতিটি প্রতিক্রিয়াকে "সহানুভূতিশীল নয়", "সামান্য সহানুভূতিশীল", "মধ্যম সহানুভূতিশীল", "সহানুভূতিশীল", এবং খুব "সহানুভূতিশীল" হিসাবে রেট করেছে। AI প্রতিক্রিয়াগুলি চিকিত্সকদের তুলনায় "সহানুভূতিশীল" বা "অত্যন্ত সহানুভূতিশীল" এর জন্য 9.8 গুণ বেশি প্রাদুর্ভাব ছিল।


যদিও ফলাফলগুলি চিত্তাকর্ষক, আমি সন্দিহান যে তারা একটি বর্ধিত সংলাপে নিয়ে যাবে।


"আপনার কাজ হল সহানুভূতিশীল প্রতিক্রিয়া থেকে উপকৃত হওয়া প্রশ্নগুলির সহানুভূতির সাথে প্রতিক্রিয়া জানানো" এর একটি সিস্টেম প্রম্পট দিয়ে শুরু করে, AIs-এর ম্যানুয়াল পরীক্ষার সাথে আমার অভিজ্ঞতা হল যে প্রতিক্রিয়াগুলি নিম্নলিখিত সমস্ত শর্তে যান্ত্রিক এবং মানসিকভাবে অপ্রয়োজনীয় বোধ করে:


  1. সহানুভূতিশীল প্রতিক্রিয়ার যোগ্য একাধিক সম্পর্কহীন প্রশ্ন জিজ্ঞাসা করা
  2. সহানুভূতিশীল প্রতিক্রিয়ার যোগ্য একাধিক সম্পর্কিত প্রশ্ন জিজ্ঞাসা করা
  3. মিশ্র প্রশ্নের একটি সংলাপ পরিচালনা, কিছু সহানুভূতির যোগ্য এবং অন্যরা নয়

পরীক্ষার বিবেচনা

উপরের পয়েন্টগুলির ফলস্বরূপ, আমি বলব যে গবেষণায় ব্যবহৃত পরীক্ষার পদ্ধতিতে একটি একক শট সহানুভূতি ঝুঁকি ছিল, অর্থাৎ একটি একক প্রশ্নের উত্তরে প্রদর্শিত সহানুভূতি একটি সঠিক পরিমাপ নাও হতে পারে। আরেকটি ঝুঁকি হল যাকে আমি বলি সহানুভূতি আন্ডারস্টেটমেন্ট রিস্ক । এই ঝুঁকি কাঁচা এলএলএম-এর একটি পার্শ্বপ্রতিক্রিয়া যা সময়ের সাথে সাথে মেমরি নেই। মানুষের বোঝাপড়া এবং সহানুভূতি বিকাশের জন্য সময় লাগে, এটি AI-এর জন্য একই হতে পারে এবং আমরা যদি একটি প্রশ্নের উত্তরে উচ্চ স্তরের আশা করি তবে সময়ের সাথে সহানুভূতি প্রকাশ করার কিছু AI-এর ক্ষমতাকে আমরা ছোট করে দেখছি।


জেনারেটিভ পরীক্ষাগুলিও মানব স্যাম্পলিং ঝুঁকির বিষয়। যদি মানুষের মানসিক বিষয়বস্তু এবং AI প্রতিক্রিয়াগুলির সহানুভূতিশীল প্রকৃতির মূল্যায়নের দায়িত্ব দেওয়া হয় এবং আমরা চাই যে AI গড় ক্ষমতার চেয়ে ভাল থাকুক, তাহলে মানুষের নমুনাকে অবশ্যই গড় মানুষের চেয়ে আবেগ এবং সহানুভূতি সনাক্ত করার একটি বড় ক্ষমতা থাকতে হবে। যদি তা না হয়, আমরা AI-এর শক্তিকে ছোট করে দেখানোর বা সাধারণ মানুষের দ্বারা চিহ্নিত করা আবেগ এবং সহানুভূতি সনাক্ত করার জন্য শাস্তি দেওয়ার মাধ্যমে এটিকে কম প্রশিক্ষণ দেওয়ার ঝুঁকি চালাই।


অবশেষে, কথোপকথনে আবেগের স্তরযুক্ত প্রকৃতির কারণে, মানব স্যাম্পলিং ঝুঁকির সাথে সরাসরি মোকাবিলা করার পাশাপাশি, প্রশ্ন ডিজাইনের ঝুঁকি মোকাবেলা করার প্রয়োজন রয়েছে। এটি এমন হতে পারে যে ব্যবহারকারীদের বলা উচিত আবেগের ধরনগুলি স্পষ্ট, কথোপকথন, ড্রাইভিং এবং মূল (বা অন্য কিছু শ্রেণীবিভাগের সেট) বিবেচনা করার সময় তাদের রেটিং করার সময় AIs নেই। বিকল্পভাবে, এআইগুলিকে বেছে বেছে বিভিন্ন ধরণের আবেগ সনাক্ত করতে বলা হতে পারে।


Reddit AskDoc-এর উপর ভিত্তি করে বেশ কয়েকটি AI-এর জন্য অথবা শক্তিশালী আবেগ এবং সহানুভূতি-শনাক্ত করার দক্ষতা আছে বলে পরিচিত মূল্যায়নকারীদের নমুনা সহ অধ্যয়নটি পুনরাবৃত্তি করা আকর্ষণীয় হবে।

EQ এবং সহানুভূতি মূল্যায়নের জন্য মানক মানবিক পদ্ধতি

মানুষের ব্যক্তিত্বের ধরন, আবেগ সনাক্ত করার ক্ষমতা বা তার অভাব (অ্যালেক্সিথিমিয়া) পরীক্ষা করার এবং অন্যদের সাথে সহানুভূতিশীলভাবে জড়িত হওয়ার একটি দীর্ঘ ইতিহাস রয়েছে। উইকিপিডিয়ার এই নিবন্ধটি নিশ্চিত যে আমি যুক্তিসঙ্গত সময়ের মধ্যে একটি এলএলএম দিয়ে লিখতে বা এমনকি তৈরি করতে পারি এমন কিছুর চেয়ে অনেক বেশি সম্পূর্ণ এবং সুসঙ্গত। বেঞ্চমার্ক পৃষ্ঠায় গিয়ে আমরা যে পন্থাগুলির উপর ফোকাস করছি তা আপনি দেখতে পারেন৷

AI EQ এবং সহানুভূতি মূল্যায়নের জন্য বিদ্যমান ফ্রেমওয়ার্ক

AI EQ এবং সহানুভূতির মূল্যায়নের জন্য বেশ কিছু কাঠামো প্রস্তাব করা হয়েছে। প্রতিটি তার নিজস্ব বিশ্লেষণ এবং ব্লগ পোস্টের যোগ্য, তাই আমি এখানে কয়েকটি তালিকা করেছি:

  1. EQ-বেঞ্চ: বড় ভাষার মডেলের জন্য একটি আবেগগত বুদ্ধিমত্তার মানদণ্ড
  2. মানব-কম্পিউটার যোগাযোগের জন্য সহানুভূতি স্কেল (ESHCC)
  3. iEval: ওপেন-ডোমেন সহানুভূতিশীল চ্যাটবটগুলির জন্য ইন্টারেক্টিভ মূল্যায়ন ফ্রেমওয়ার্ক


নতুন পদ্ধতি

আমরা মানসম্মত মানব পরীক্ষা এবং বিদ্যমান এআই ফ্রেমওয়ার্কের ব্যবহারে চিহ্নিত ঘাটতিগুলি পূরণ করার জন্য কিছু পরীক্ষা সংজ্ঞায়িত করা শুরু করেছি। একটি আকর্ষণীয় আবিষ্কার যা EQ-D (গভীরতার জন্য আবেগের ভাগফল) তৈরি করে তা হল যে কোনও পরীক্ষিত এলএলএম মূল আবেগগুলি চিহ্নিত করেনি যদি সেগুলি স্পষ্ট, কথোপকথন বা ড্রাইভিং না হয়। অন্যদিকে, যখন শুধুমাত্র মূল আবেগগুলিকে বিশেষভাবে সনাক্ত করতে বলা হয়েছিল, তখন বেশ কয়েকটি এআই বেশ ভাল ছিল। যাইহোক, সব ধরনের আবেগের পরিসর দেওয়া হলে কিছু এলএলএম মূল আবেগ শনাক্ত করার ক্ষমতা হারিয়ে ফেলে এবং অন্যরা যথেষ্ট ভালো পারফর্ম করে, অর্থাৎ তারা সব স্তরে আরও বেশি আবেগের উপস্থিতি চিহ্নিত করে। এর ফলে EQ-B (প্রস্থের জন্য আবেগগত ভাগফল) তৈরি হয়েছে।


পরীক্ষার বিকাশের সময় এটি স্পষ্ট হয়ে গেছে যে এমন সময় একটি প্রম্পটের প্রয়োজন হবে যা প্রম্পট রিস্ক প্রবর্তন করে, অর্থাৎ আউটপুট প্রম্পটের উপর নির্ভরশীল হওয়ার সম্ভাবনা বাড়ায়, মূল এআই নয়। এই ঝুঁকি মানুষের সাথে তুলনা বাতিল করতে পারে বা নাও করতে পারে এবং একটি অ্যাপ্লিকেশন স্তরে বৈধ হতে পারে। কাঁচা এলএলএম স্তরে, একটি AI-এর সাথে অন্য AI-এর তুলনা করা অযৌক্তিক বলে মনে হবে যতক্ষণ না প্রম্পটটি সমস্ত পরীক্ষিত AI-তে ব্যবহৃত হয় এবং কোনও নির্দিষ্ট AI-এর প্রতি পক্ষপাতিত্ব না করে৷ AI প্রযুক্তির সামগ্রিক অপরিপক্কতার কারণে EQ-D এবং EQ-B- এর বর্তমান ডিজাইনগুলি এই ঝুঁকিতে ভুগছে।


যদিও সহানুভূতির জন্য এআই পরীক্ষা করার বিষয়ে বেশ কয়েকটি প্রস্তাব রয়েছে, আমরা প্রাথমিক দিনগুলিতে রয়েছি এবং এই পদ্ধতির সাথে পরিচিত এবং অজানা উভয় সমস্যা রয়েছে। পরিচিত সম্বোধন করার জন্য কাজ আছে:


  • বিদ্যমান পরীক্ষার ঝুঁকি এবং ঝুঁকি নথিভুক্ত বা প্রশমিত করার জন্য মূল্যায়ন করা প্রয়োজন

  • কিছু বিদ্যমান পরীক্ষার পরিপ্রেক্ষিতে নতুন পরীক্ষার ক্ষেত্রে বিকাশ করা দরকার

  • AIs-এর বিস্তৃত পরিসরে আরও পরীক্ষার ধরন চালানো দরকার


তবে এটি অজানা যা আমাকে সবচেয়ে বেশি কৌতূহলী করে।


তোমার কী অবস্থা?