paint-brush
জেনারেটিভ এআই: বিবর্তন, চ্যালেঞ্জ এবং ভবিষ্যত প্রবণতা সম্পর্কে বিশেষজ্ঞের অন্তর্দৃষ্টিদ্বারা@elekssoftware
331 পড়া
331 পড়া

জেনারেটিভ এআই: বিবর্তন, চ্যালেঞ্জ এবং ভবিষ্যত প্রবণতা সম্পর্কে বিশেষজ্ঞের অন্তর্দৃষ্টি

দ্বারা ELEKS11m2024/07/23
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ELEKS এর বিশেষজ্ঞ বিশ্লেষণের সাথে জেনারেটিভ এআই-এর জগতে ডুব দিন, চ্যালেঞ্জগুলি আবিষ্কার করুন এবং ভবিষ্যতে কী আছে তা দেখুন।
featured image - জেনারেটিভ এআই: বিবর্তন, চ্যালেঞ্জ এবং ভবিষ্যত প্রবণতা সম্পর্কে বিশেষজ্ঞের অন্তর্দৃষ্টি
ELEKS HackerNoon profile picture

AI বেশ কিছুদিন ধরে প্রযুক্তি উত্সাহী এবং শিল্প বিশেষজ্ঞদের দৃষ্টি আকর্ষণ করেছে। এই নিবন্ধে, আমরা এআই-এর বিবর্তন নিয়ে আলোচনা করি, এটি যে বিষয়গুলিকে উপস্থাপন করে এবং দিগন্তে উদীয়মান প্রবণতাগুলির উপর আলোকপাত করি।


যেহেতু আমরা AI প্রযুক্তির সূচকীয় বৃদ্ধি পর্যবেক্ষণ করি, এর সম্ভাব্য সুবিধাগুলি সর্বাধিক করার জন্য এর ক্ষমতাগুলির একটি ব্যাপক বোঝার জন্য এটি ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে ওঠে। এই জটিল রাজ্যে প্রবেশ করে, ELEKS-এর ডেটা সায়েন্স অফিসের প্রধান, ভলোডিমির গেটম্যানস্কি এই প্রবণতামূলক বিষয়ে তার অন্তর্দৃষ্টি এবং দক্ষতা শেয়ার করেছেন৷

AI বনাম GenAI - মূল পার্থক্য ব্যাখ্যা করা হয়েছে

প্রথমত, জেনারেটিভ AI হল AI ক্ষেত্রের অংশ। যদিও এআই প্রধানত মানুষের কাজগুলিকে স্বয়ংক্রিয় বা অপ্টিমাইজ করার উপর ফোকাস করে, জেনারেটিভ এআই বিভিন্ন বস্তু তৈরিতে ফোকাস করে। সাধারণ AI কাজগুলি যেমন কথোপকথন বা সিদ্ধান্ত গ্রহণকারী এজেন্ট তৈরি করা, বুদ্ধিমান অটোমেশন, চিত্র সনাক্তকরণ এবং প্রক্রিয়াকরণ, সেইসাথে অনুবাদ, GenAI এর সাথে উন্নত করা যেতে পারে। এটি পাঠ্য এবং প্রতিবেদন, চিত্র এবং ডিজাইন, বক্তৃতা এবং সঙ্গীত এবং আরও অনেক কিছু তৈরি করার অনুমতি দেয়।


ফলস্বরূপ, দৈনন্দিন কাজ এবং কর্মপ্রবাহের মধ্যে জেনারেটিভ এআই-এর একীকরণ ক্রমশ নিরবচ্ছিন্ন এবং প্রভাবশালী হয়ে উঠেছে। কেউ ভাবতে পারে যে কোন ধরনের ডেটা জেনারেশন সবচেয়ে জনপ্রিয়। তবে উত্তরটা সোজা নয়।


মাল্টিমোডাল মডেলগুলি বিভিন্ন ইনপুটের উপর ভিত্তি করে বিভিন্ন ধরণের ডেটা তৈরি করার অনুমতি দেয়। সুতরাং, আমাদের ব্যবহারের পরিসংখ্যান থাকলেও, সবচেয়ে জনপ্রিয় ধরনের ডেটা তৈরি করা কঠিন হবে। যাইহোক, বর্তমান ব্যবসায়িক চাহিদার উপর ভিত্তি করে, বড় ভাষার মডেলগুলি সবচেয়ে জনপ্রিয়।


এই মডেলগুলি পাঠ্য এবং সংখ্যাসূচক উভয় তথ্যই প্রক্রিয়া করতে পারে এবং প্রশ্ন-উত্তর, পাঠ্য রূপান্তর (অনুবাদ, বানান-পরীক্ষা, সমৃদ্ধকরণ) এবং প্রতিবেদন তৈরির মতো কাজের জন্য ব্যবহার করা যেতে পারে। ইমেজ বা ভিডিও জেনারেশনের বিপরীতে, এই কার্যকারিতা শিল্প জুড়ে এন্টারপ্রাইজগুলির জন্য অপারেশনাল ক্রিয়াকলাপের একটি উল্লেখযোগ্য অংশ, যা কম সাধারণ।

বড় ভাষার মডেল: পাঠ্য প্রজন্ম থেকে আধুনিক জায়ান্ট পর্যন্ত

লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) হল বিশাল ট্রান্সফরমার, যা এক ধরনের গভীর শিক্ষার মডেল বা সহজভাবে বলতে গেলে, নির্দিষ্ট নিউরাল নেটওয়ার্ক। সাধারণত, এলএলএম-এর 8 বিলিয়ন থেকে 70 বিলিয়ন প্যারামিটার থাকে এবং প্রচুর পরিমাণে ডেটার উপর প্রশিক্ষণ দেওয়া হয়। উদাহরণস্বরূপ, Crawl, একটি বৃহত্তম ডেটাসেট, ওয়েব পৃষ্ঠাগুলি এবং বিগত দশকের তথ্য ধারণ করে, যার পরিমাণ কয়েক ডজন পেটাবাইট ডেটা।


এটিকে পরিপ্রেক্ষিতে রাখার জন্য, টাইটানিক ডেটাসেট, যা প্রায় 900টি নমুনা নিয়ে গঠিত যা বর্ণনা করে যে কোন যাত্রীরা টাইটানিক জাহাজডুবিতে বেঁচে গিয়েছিল, তার আকার 1 Mb-এর কম, এবং যে মডেলটি কার্যকরভাবে বেঁচে থাকার সম্ভাবনার ভবিষ্যদ্বাণী করতে পারে তার প্রায় 25 থেকে 100 প্যারামিটার থাকতে পারে। .


এলএলএম-এরও একটি দীর্ঘ ইতিহাস রয়েছে এবং সেগুলি হঠাৎ করে দেখা দেয়নি। উদাহরণস্বরূপ, ELEKS ডেটা সায়েন্স ডিপার্টমেন্ট 2019 সালে প্রতিক্রিয়া তৈরির জন্য GPT-2 ব্যবহার করেছিল, যখন প্রথম GPT (জেনারেটিভ প্রি-ট্রেনেড ট্রান্সফরমার) মডেলটি 2018 সালে প্রকাশিত হয়েছিল। তবে, এমনকি এটি পাঠ্য প্রজন্মের মডেলগুলির প্রথম উপস্থিতি ছিল না। . 2017 সালে ট্রান্সফরমার যুগ শুরু হওয়ার আগে, টেক্সট জেনারেশনের মতো কাজগুলি বিভিন্ন পন্থা ব্যবহার করে সম্বোধন করা হয়েছিল, উদাহরণস্বরূপ:


  • জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক - একটি পদ্ধতি যেখানে জেনারেটর অন্য নেটওয়ার্ক বা বৈষম্যকারীর প্রতিক্রিয়ার উপর ভিত্তি করে প্রশিক্ষণ দেয়,
  • অটোএনকোডার - একটি সাধারণ এবং সুপরিচিত পদ্ধতি যেখানে মডেল ইনপুট পুনরুত্পাদন করার চেষ্টা করে।


2013 সালে, word2vec-এর মতো দক্ষ ভেক্টর শব্দ এম্বেডিংয়ের প্রস্তাব করা হয়েছিল, এবং তারও আগে, পূর্ববর্তী শতাব্দীতে, সম্ভাব্য এবং প্যাটার্ন-ভিত্তিক প্রজন্মের উদাহরণ ছিল, যেমন 1964 সালে এলিজা চ্যাটবট। সুতরাং, আমরা দেখতে পাচ্ছি, প্রাকৃতিক ভাষা প্রজন্মের (NLG) কাজ এবং প্রচেষ্টা বহু বছর ধরে বিদ্যমান।


বর্তমান LLM ব্যবহারকারীদের অধিকাংশ, যেমন ChatGPT, GPT, Gemini, Copilot, Claude, ইত্যাদি, সম্ভবত এটি সম্পর্কে অবগত নয় কারণ ফলাফলগুলি InstructGPT-এর প্রথম প্রকাশের পরের মতো আশাব্যঞ্জক ছিল না, যেখানে OpenAI জনসাধারণের অ্যাক্সেসের প্রস্তাব করেছিল, প্রচার এটা 2022 সালের নভেম্বরে ChatGPT-এর প্রথম প্রকাশের পর, যা সোশ্যাল মিডিয়ায় লক্ষ লক্ষ উল্লেখ পেয়েছে।

এআই রেগুলেশন বিতর্ক: উদ্ভাবন এবং নিরাপত্তার ভারসাম্য

আজকাল, এআই সম্প্রদায় এআই ঝুঁকি এবং সম্মতির প্রয়োজনীয়তার বিষয়ে বিভক্ত, কেউ কেউ এআই প্রবিধান এবং সুরক্ষা নিয়ন্ত্রণের পক্ষে সমর্থন করে যখন অন্যরা তাদের বিরোধিতা করে। সমালোচকদের মধ্যে ইয়ান লেকুন, মেটা (ফেসবুক) এআইয়ের প্রধান, যিনি বলেছিলেন যে এই ধরনের এআই এজেন্টদের বুদ্ধিমত্তা এমনকি কুকুরের মতো নয়।


মেটা এআই গ্রুপ (পূর্বে ফেসবুক এআই রিসার্চ) হল ডিটেক্ট্রন, লামা, সেগমেন্ট এনিথিং এবং ইএলএফ-এর মতো বিনামূল্যের এবং সর্বজনীনভাবে উপলব্ধ AI মডেলগুলির ডেভেলপারদের মধ্যে একটি, যেগুলি শুধুমাত্র কিছু বাণিজ্যিক সীমাবদ্ধতার সাথে অবাধে ডাউনলোড এবং ব্যবহার করা যেতে পারে। বিশ্বব্যাপী এআই সম্প্রদায়ের দ্বারা উন্মুক্ত অ্যাক্সেস অবশ্যই অনুকূলভাবে গৃহীত হয়েছে।


সেই সিস্টেমগুলি এখনও খুব সীমিত; বাস্তব জগতের অন্তর্নিহিত বাস্তবতা সম্পর্কে তাদের কোন বোধগম্যতা নেই কারণ তারা বিশুদ্ধভাবে পাঠ্যের উপর প্রশিক্ষিত, একটি বিশাল পরিমাণ পাঠ্য।


— ইয়ান লেকুন, মেটাতে প্রধান এআই বিজ্ঞানী


প্রবিধান সংক্রান্ত উদ্বেগও কর্মকর্তাদের দ্বারা উত্থাপিত হয়েছে। উদাহরণস্বরূপ, ফরাসি প্রেসিডেন্ট ইমানুয়েল ম্যাক্রোঁ সতর্ক করেছেন যে কৃত্রিম বুদ্ধিমত্তার ঝুঁকি মোকাবেলা করার জন্য ডিজাইন করা যুগান্তকারী ইইউ আইন মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য এবং চীনের প্রতিদ্বন্দ্বীদের তুলনায় ইউরোপীয় প্রযুক্তি কোম্পানিগুলিকে বাধা দিচ্ছে।


অন্যদিকে, এআই রেগুলেশন সমর্থক রয়েছে। টেসলার সিইও ইলন মাস্কের মতে, সভ্যতার ভবিষ্যতের জন্য সবচেয়ে বড় ঝুঁকি হল AI। এটি অপাবলিক/পেইড এআই প্রতিনিধিদের মতোই, কিন্তু এখানে, এই ধরনের অবস্থানের আসল উত্তেজক হতে পারে বাজারের প্রতিযোগিতা-প্রতিযোগী AI মডেলের বিস্তারকে সীমিত করতে।

EU কৃত্রিম বুদ্ধিমত্তা আইনের সংক্ষিপ্ত বিবরণ

2023 সালে, ইইউ পার্লামেন্ট এআই অ্যাক্ট পাস করেছে, যা ইউরোপীয় ইউনিয়নের মধ্যে এআই প্রযুক্তির ব্যবহার নিয়ন্ত্রণকারী বিস্তৃত নিয়মগুলির প্রথম সেট। এই আইনটি দায়িত্বশীল এবং নৈতিক এআই বিকাশ এবং বাস্তবায়নের নজির স্থাপন করে।


EU AI আইন দ্বারা সম্বোধন করা মূল সমস্যাগুলি:

  • প্রথমত, ব্যক্তিগত ডেটার যৌক্তিক সীমাবদ্ধতা রয়েছে, যেমন GDPR (EU), APPI (জাপান), HIPPA (US), এবং PIPEDA (কানাডা), যা ব্যক্তিগত ডেটা প্রক্রিয়াকরণ, বায়োমেট্রিক শনাক্তকরণ ইত্যাদিকে কভার করে বিভিন্ন মান দ্বারা ইতিমধ্যেই বর্ণিত হয়েছে।


  • এর সাথে সংযুক্ত স্কোরিং সিস্টেম বা মানুষের শ্রেণীবিভাগের যে কোন প্রকার, যেখানে মডেল পক্ষপাত একটি উল্লেখযোগ্য প্রভাব ফেলতে পারে, সম্ভাব্য বৈষম্যের দিকে পরিচালিত করে।


  • অবশেষে, আচরণগত ম্যানিপুলেশন আছে, যেখানে কিছু মডেল যেকোনো ব্যবসায়িক কেপিআই (রূপান্তর হার, অতিরিক্ত খরচ) বাড়ানোর চেষ্টা করতে পারে।

এআই মডেল প্রস্তুতি এবং ব্যবহার: চ্যালেঞ্জ এবং উদ্বেগ

মডেল প্রস্তুতি, ব্যবহার এবং অন্যান্য লুকানো ক্রিয়াকলাপগুলির সাথে যুক্ত অনেক সমস্যা এবং উদ্বেগ রয়েছে৷ উদাহরণস্বরূপ, মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা ব্যক্তিগত ডেটা নিয়ে গঠিত, যা এই ধরনের উদ্দেশ্যে অনুমোদিত ছিল না। গ্লোবাল প্রদানকারীরা ব্যক্তিগত চিঠিপত্র (ইমেল) বা অন্যান্য ব্যক্তিগত সম্পদের (ফটো, ভিডিও) উপর দৃষ্টি নিবদ্ধ করে পরিষেবাগুলি অফার করে যা কোনও ঘোষণা ছাড়াই লুকানো মোডে মডেল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।


SORA প্রশিক্ষণের জন্য ব্যক্তিগত ভিডিও ব্যবহার করার বিষয়ে সম্প্রতি OpenAI-এর CTO-কে একটি প্রশ্ন করা হয়েছিল, পাঠ্য প্রশ্নের উপর ভিত্তি করে ভিডিও তৈরি করার জন্য একটি অপাবলিক OpenAI পরিষেবা, কিন্তু তিনি একটি স্পষ্ট উত্তর দিতে পারেননি।


আরেকটি সমস্যা ডেটা লেবেলিং এবং ফিল্টারিংয়ের সাথে সম্পর্কিত হতে পারে—আমরা সেখানে জড়িত বিশেষজ্ঞদের ব্যক্তিগত বৈশিষ্ট্য, দক্ষতা, স্টেরিওটাইপ এবং জ্ঞান জানি না এবং এটি ডেটাতে অবাঞ্ছিত বিবৃতি/বিষয়বস্তু প্রবর্তন করতে পারে। এছাড়াও, একটি নৈতিক সমস্যা ছিল—এমন তথ্য ছিল যে কিছু বিশ্বব্যাপী GenAI প্রদানকারী কেনিয়ার লেবেলারদের সাথে জড়িত এবং তাদের কম বেতন দেয়।


মডেল পক্ষপাত এবং তথাকথিত মডেল হ্যালুসিনেশন, যেখানে মডেলগুলি ভুল বা আংশিকভাবে ভুল উত্তর দেয় যা নিখুঁত বলে মনে হয়, তাও সমস্যা। সম্প্রতি, ELEKS ডেটা সায়েন্স টিম আমাদের গ্রাহকদের পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) সমাধানের উন্নতির জন্য কাজ করছে, যা মডেলের জন্য কিছু ডেটা দেখানো কভার করে এবং সেই ডেটার উপর ভিত্তি করে মডেলটি সংক্ষিপ্ত বা উত্তর প্রদান করে।


প্রক্রিয়া চলাকালীন, আমাদের দল বুঝতে পেরেছে যে অনেক আধুনিক অনলাইন (বড় কিন্তু অর্থপ্রদানকারী) বা অফলাইন (ছোট এবং সর্বজনীন) মডেলগুলি এন্টারপ্রাইজের নাম এবং সংখ্যাগুলিকে বিভ্রান্ত করে৷


  • আমাদের কাছে কয়েকটি কোম্পানির আর্থিক বিবৃতি এবং অডিট তথ্য সম্বলিত ডেটা ছিল এবং অনুরোধ ছিল কোম্পানি A-এর রাজস্ব দেখানোর জন্য। যাইহোক, কোম্পানি A-এর আয় সরাসরি ডেটাতে দেওয়া হয়নি এবং গণনা করা দরকার ছিল। LLM এরিনা বেঞ্চমার্কের নেতাদের সহ বেশিরভাগ মডেল, কোম্পানি B এর অন্তর্গত ভুল রাজস্ব স্তরের সাথে প্রতিক্রিয়া জানায়। এই ত্রুটিটি কোম্পানির নামের আংশিক অনুরূপ অক্ষর সমন্বয়ের কারণে ঘটেছে যেমন "Ltd", "Service" ইত্যাদি।


    এখানে, এমনকি প্রম্পট শেখার সাহায্য করেনি; "যদি আপনি আত্মবিশ্বাসী না হন বা কিছু তথ্য অনুপস্থিত থাকে, অনুগ্রহ করে উত্তর জানি না" এর মতো একটি বিবৃতি যোগ করা সমস্যাটির সমাধান করেনি।


  • আরেকটি বিষয় হল সাংখ্যিক উপস্থাপনা সম্পর্কে—এলএলএমগুলি সংখ্যাগুলিকে টোকেন হিসাবে উপলব্ধি করে, বা এমনকি অনেক টোকেন, যেমন 0.33333 বাইট-পেয়ার এনকোডিং পদ্ধতি অনুসারে '0.3' এবং '3333' হিসাবে এনকোড করা যেতে পারে, তাই এটি জটিল সংখ্যার সাথে মোকাবিলা করা কঠিন। অতিরিক্ত অ্যাডাপ্টার ছাড়া রূপান্তর.


ওপেনএআই-এর পরিচালনা পর্ষদে অবসরপ্রাপ্ত মার্কিন সেনা জেনারেল পল এম নাকাসোনের সাম্প্রতিক নিয়োগ একটি মিশ্র প্রতিক্রিয়া সৃষ্টি করেছে৷ একদিকে, সাইবার নিরাপত্তা এবং বুদ্ধিমত্তার ক্ষেত্রে নাকাসোনের বিস্তৃত পটভূমিকে একটি উল্লেখযোগ্য সম্পদ হিসাবে দেখা হয়, সাইবার আক্রমণ থেকে রক্ষা করার জন্য শক্তিশালী কৌশল বাস্তবায়ন করার সম্ভাবনা রয়েছে, যা এআই গবেষণা ও উন্নয়নের সাথে কাজ করে এমন একটি কোম্পানির জন্য অত্যন্ত গুরুত্বপূর্ণ।


অন্যদিকে, নাকাসোনের সামরিক ও গোয়েন্দা পটভূমির (ন্যাশনাল সিকিউরিটি এজেন্সি (এনএসএ) এবং ইউএস সাইবার কমান্ডের প্রাক্তন প্রধান) কারণে তার নিয়োগের সম্ভাব্য প্রভাব সম্পর্কে উদ্বেগ রয়েছে, যা সরকারী নজরদারি এবং হস্তক্ষেপ বাড়াতে পারে।


আশঙ্কা হল নাকাসোন ওপেনএআই-এর ডেটা এবং পরিষেবাগুলিতে সরকারী সংস্থাগুলিকে আরও বিস্তৃত অ্যাক্সেসের সুবিধা দিতে পারে। এইভাবে, কেউ কেউ আশঙ্কা করছেন যে এই অ্যাপয়েন্টমেন্ট পরিষেবার ব্যবহার, ডেটা, সরকারি সংস্থাগুলির অনুরোধ এবং পরিষেবার সীমাবদ্ধতা উভয়কেই প্রভাবিত করতে পারে৷


অবশেষে, অন্যান্য উদ্বেগ রয়েছে, যেমন জেনারেট করা কোড দুর্বলতা, পরস্পরবিরোধী পরামর্শ, অনুপযুক্ত ব্যবহার (পরীক্ষায় উত্তীর্ণ হওয়া বা কীভাবে বোমা তৈরি করতে হয় সে বিষয়ে নির্দেশনা পাওয়া) এবং আরও অনেক কিছু।

আরও শক্তিশালী ফলাফলের জন্য কীভাবে এলএলএম ব্যবহার উন্নত করবেন

প্রথমত, এলএলএম ব্যবহার করা প্রয়োজনীয় কিনা এবং এটি একটি সাধারণ ভিত্তি মডেল হওয়া উচিত কিনা তা নির্ধারণ করা অত্যন্ত গুরুত্বপূর্ণ। কিছু ক্ষেত্রে, উদ্দেশ্য এবং পচনশীল কাজটি এত জটিল নয় এবং সহজ অফলাইন মডেল যেমন ভুল বানান, প্যাটার্ন-ভিত্তিক প্রজন্ম এবং পার্সিং/তথ্য পুনরুদ্ধার দ্বারা সমাধান করা যেতে পারে। উপরন্তু, সাধারণ মডেল এমন প্রশ্নের উত্তর দিতে পারে যা LLM ইন্টিগ্রেশনের উদ্দেশ্যের সাথে সম্পর্কিত নয়।


এমন উদাহরণ রয়েছে যখন কোম্পানি অনলাইন LLM ইন্টিগ্রেশন (যেমন, GPT, Gemini) কোনো অতিরিক্ত অ্যাডাপ্টার (প্রাক এবং পোস্ট-প্রসেসর) ছাড়াই উৎসাহিত করেছে এবং অপ্রত্যাশিত আচরণের সম্মুখীন হয়েছে। উদাহরণস্বরূপ, ব্যবহারকারী একজন গাড়ি ব্যবসায়ী চ্যাটবটকে নেভিয়ার-স্টোকস তরল প্রবাহ সমীকরণ সমাধান করতে পাইথন স্ক্রিপ্ট লিখতে বলেছিল এবং চ্যাটবট বলেছিল, "অবশ্যই! আমি তা করব।"


এরপরে, কোন এলএলএম ব্যবহার করতে হবে তা নিয়ে প্রশ্ন আসে—পাবলিক এবং অফলাইন বা পেইড এবং অফলাইন৷ সিদ্ধান্ত টাস্কের জটিলতা এবং কম্পিউটিং সম্ভাবনার উপর নির্ভর করে। অনলাইন এবং প্রদত্ত মডেলগুলি বড় এবং উচ্চতর কর্মক্ষমতা রয়েছে, যখন অফলাইন এবং পাবলিক মডেলগুলির হোস্টিংয়ের জন্য উল্লেখযোগ্য ব্যয়ের প্রয়োজন হয়, প্রায়শই কমপক্ষে 40Gb VRAM প্রয়োজন হয়। অনলাইন মডেলগুলি ব্যবহার করার সময়, প্রদানকারীর সাথে ভাগ করা সংবেদনশীল ডেটার কঠোর নিয়ন্ত্রণ থাকা অপরিহার্য৷


সাধারণত, এই জাতীয় জিনিসগুলির জন্য, আমরা প্রিপ্রসেসিং মডিউল তৈরি করি যা ব্যক্তিগত বা সংবেদনশীল তথ্য যেমন আর্থিক বিবরণ বা ব্যক্তিগত চুক্তিগুলিকে সরিয়ে দিতে পারে, প্রসঙ্গ সংরক্ষণের জন্য ক্যোয়ারীতে উল্লেখযোগ্যভাবে পরিবর্তন না করে, প্রয়োজনে এন্টারপ্রাইজের আকার বা আনুমানিক অবস্থানের মতো তথ্য রেখে।


মডেলের পক্ষপাত কমানোর এবং হ্যালুসিনেশন এড়ানোর প্রাথমিক পদক্ষেপ হল সঠিক ডেটা বা প্রসঙ্গ বাছাই করা বা প্রার্থীদের র‌্যাঙ্ক করা (যেমন RAG এর জন্য)। কখনও কখনও, ভেক্টর উপস্থাপনা এবং সাদৃশ্য মেট্রিক্স, যেমন কোসাইন সাদৃশ্য, কার্যকর নাও হতে পারে। এর কারণ হল "না" শব্দের উপস্থিতি বা নামের মধ্যে সামান্য পার্থক্য (যেমন ওরাকল বনাম ওরাচে) এর মতো ছোট পরিবর্তনগুলি একটি উল্লেখযোগ্য প্রভাব ফেলতে পারে।


পোস্ট-প্রসেসিংয়ের জন্য, আমরা মডেলকে "জানি না" দিয়ে প্রতিক্রিয়া জানাতে নির্দেশ দিতে পারি যদি আত্মবিশ্বাস কম থাকে এবং একটি যাচাইকরণ অ্যাডাপ্টার তৈরি করতে পারি যা মডেলের প্রতিক্রিয়াগুলির যথার্থতা পরীক্ষা করে।

এলএলএম ক্ষেত্রে উদীয়মান প্রবণতা এবং ভবিষ্যতের দিকনির্দেশ

এলএলএম-এর ক্ষেত্রে অসংখ্য গবেষণার দিকনির্দেশ রয়েছে এবং সাপ্তাহিক নতুন বৈজ্ঞানিক নিবন্ধ প্রকাশিত হয়। এই নিবন্ধগুলি ট্রান্সফরমার/এলএলএম অপ্টিমাইজেশান, দৃঢ়তা, দক্ষতা (যেমন মডেলগুলির আকার বা প্যারামিটার সংখ্যা উল্লেখযোগ্যভাবে বৃদ্ধি না করে কীভাবে সাধারণীকরণ করা যায়), সাধারণ অপ্টিমাইজেশন কৌশল (যেমন পাতন) এবং ইনপুট (প্রসঙ্গ) বাড়ানোর পদ্ধতি সহ বিভিন্ন বিষয় কভার করে। দৈর্ঘ্য


বিভিন্ন দিকনির্দেশের মধ্যে, সাম্প্রতিক সময়ের মধ্যে বিশিষ্টগুলির মধ্যে রয়েছে মিক্সচার-অফ-টোকেন, মিক্সচার-অফ-এক্সপার্ট, মিক্সচার-অফ-ডেপথ, কঙ্কাল-অফ-থটস, রোপিই এবং চেইন-অফ-থট প্রম্পটিং। আসুন সংক্ষিপ্তভাবে বর্ণনা করি যে এর প্রত্যেকটির অর্থ কী।


  1. বিশেষজ্ঞদের মিশ্রণ (MoEs) একটি ভিন্ন ট্রান্সফরমার আর্কিটেকচার। এটিতে সাধারণত একটি গতিশীল স্তর থাকে যার মধ্যে বেশ কয়েকটি (মিক্সট্রালে 8) বা অনেকগুলি ঘন/চ্যাপ্টা স্তর থাকে যা বিভিন্ন জ্ঞানের প্রতিনিধিত্ব করে। এই স্থাপত্যটিতে সুইচ বা রাউটিং পদ্ধতি অন্তর্ভুক্ত রয়েছে, উদাহরণস্বরূপ, একটি গেটিং ফাংশন যা কোন বিশেষজ্ঞদের দ্বারা কোন টোকেন প্রক্রিয়াকরণ করা উচিত তা নির্বাচন করতে দেয়, যার ফলে টোকেন প্রতি স্তরের সংখ্যা ("বিশেষজ্ঞ") হ্রাস পায় বা টোকেনের গ্রুপ একজন বিশেষজ্ঞের কাছে (লেয়ার সুইচ করুন) )


    এটি দক্ষ মডেল স্কেলিংয়ের অনুমতি দেয় এবং ইনপুট অংশগুলির জন্য বিভিন্ন সাবমডেল (বিশেষজ্ঞ) ব্যবহার করে কার্যক্ষমতা উন্নত করে, এটি একটি সাধারণ এবং এমনকি বড় স্তর ব্যবহার করার চেয়ে আরও কার্যকর করে তোলে।


  2. মিক্সচার-অফ-টোকেনগুলি উল্লিখিত মিক্সচার-অফ-বিশেষজ্ঞদের সাথে সংযুক্ত, যেখানে আমরা একটি নির্দিষ্ট বিশেষজ্ঞের জন্য তাদের গুরুত্ব (সফটম্যাক্স অ্যাক্টিভেশন) অনুসারে টোকেনগুলিকে গোষ্ঠীভুক্ত করি।


  3. মিক্সচার-অফ-ডেপ্থ কৌশলটিও উল্লেখিত MoE-এর সাথে সংযুক্ত, বিশেষ করে, রাউটিং এর ক্ষেত্রে। এটির লক্ষ্য কম্পিউটিং গ্রাফ (গণনা বাজেট) হ্রাস করা, এটিকে মনোযোগের প্রক্রিয়ায় ব্যবহৃত শীর্ষ টোকেনগুলিতে সীমাবদ্ধ করা। নির্দিষ্ট অনুক্রমের জন্য কম গুরুত্বপূর্ণ বলে মনে করা টোকেনগুলি (যেমন বিরাম চিহ্ন) বাদ দেওয়া হয়। এটি গতিশীল টোকেন অংশগ্রহণের ফলাফল, কিন্তু k (শীর্ষ k টোকেন) টোকেনের সংখ্যা স্থির, তাই আমরা গণনা বাজেট (বা k, যা আমরা বেছে নিয়েছি) অনুযায়ী আকার কমাতে পারি।


  4. কঙ্কাল-অফ-থটস এলএলএম স্কেলিংয়ের জন্য দক্ষ এবং প্রাথমিক কঙ্কাল অনুরোধের উপর ভিত্তি করে সমান্তরালভাবে সমাপ্তির অংশগুলি (মডেল প্রতিক্রিয়া) তৈরি করার অনুমতি দেয়, যা সমান্তরাল করা যেতে পারে এমন পয়েন্টগুলি নিয়ে গঠিত।


  5. অন্যান্য চ্যালেঞ্জ আছে, উদাহরণস্বরূপ, ইনপুট আকার। ব্যবহারকারীরা প্রায়শই প্যারামিটারের সংখ্যা অপরিবর্তিত রেখে প্রচুর পরিমাণে তথ্য, কখনও কখনও এমনকি পুরো বই সহ একটি LLM প্রদান করতে চান। এখানে দুটি পরিচিত পদ্ধতি রয়েছে ALiBi (লিনিয়ার বায়েস সহ মনোযোগ স্তর) এবং RoPE (রোটারি পজিশন এমবেডিং) , যা গতিশীল অবস্থানগত এনকোডিং এবং স্কেলিং ফ্যাক্টর ব্যবহার করে ইনপুট এম্বেডিং এক্সট্রাপোলেট করতে পারে, বা সম্ভবত ইন্টারপোলেট করতে পারে, ব্যবহারকারীদের তুলনায় প্রসঙ্গ দৈর্ঘ্য বাড়াতে দেয়। যা প্রশিক্ষণের জন্য ব্যবহার করা হয়েছিল।


  6. চেইন-অফ-থটস প্রম্পটিং, যা কয়েকটি-শট প্রম্পটিংয়ের একটি উদাহরণ (ব্যবহারকারী প্রেক্ষাপটে এলএলএম-এর জন্য তত্ত্বাবধান প্রদান করে), এর উদ্দেশ্য প্রশ্নটিকে কয়েকটি ধাপে বিভক্ত করা। বেশিরভাগ ক্ষেত্রে, এটি যুক্তিযুক্ত সমস্যার ক্ষেত্রে প্রয়োগ করা হয়, যেমন আপনি যখন যুক্তিটিকে কিছু গণনামূলক পরিকল্পনায় বিভক্ত করতে পারেন। মূল কাগজ থেকে উদাহরণ: "রজারের কাছে 5টি টেনিস বল আছে। তিনি টেনিস বলের আরও 2টি ক্যান কিনেছেন। প্রতিটিতে 3টি টেনিস বল আছে। তার কাছে এখন কতটি টেনিস বল আছে? চিন্তা পরিকল্পনা: রজার 5 বল দিয়ে শুরু করেছিলেন। 2 ক্যান 3টি টেনিস বলের প্রতিটি হল 6টি টেনিস বল 5 + 6 = 11। উত্তর হল 11টি।"


তা ছাড়া, আরও অনেক দিকনির্দেশনা রয়েছে এবং প্রতি সপ্তাহে, তাদের চারপাশে বেশ কয়েকটি নতুন উল্লেখযোগ্য কাগজ প্রকাশিত হয়। কখনও কখনও, এই সমস্ত চ্যালেঞ্জ এবং অর্জনগুলি অনুসরণ করার ক্ষেত্রে ডেটা বিজ্ঞানীদের জন্য একটি অতিরিক্ত সমস্যা রয়েছে।

সর্বশেষ এআই ডেভেলপমেন্ট থেকে শেষ ব্যবহারকারীরা কী আশা করতে পারে?

এছাড়াও অনেক প্রবণতা রয়েছে, শুধুমাত্র সংক্ষেপে বলতে গেলে, শক্তিশালী AI প্রবিধান থাকতে পারে, যা বিভিন্ন সমাধানকে সীমিত করবে এবং অবশেষে উপলব্ধ মডেলগুলির সাধারণীকরণ বা ক্ষেত্র কভারেজের ফলাফল হবে। অন্যান্য প্রবণতাগুলি বেশিরভাগই বিদ্যমান পদ্ধতির উন্নতির বিষয়ে, উদাহরণস্বরূপ, প্রয়োজনীয় প্যারামিটার এবং মেমরির সংখ্যা হ্রাস করা (যেমন কোয়ান্টাইজেশন বা এমনকি 1-বিট এলএলএম - যেখানে প্রতিটি প্যারামিটার ত্রিমাত্রিক (-1, 0, 1 মান নিতে পারে))।


সুতরাং, আমরা আশা করতে পারি অফলাইন এলএলএম বা ডিফিউশন ট্রান্সফরমার (ডিআইটি – আধুনিক ডিফিউশন মডেল এবং ভিজ্যুয়াল ট্রান্সফরমার উত্তরসূরি (ছবি তৈরির কাজগুলির জন্য প্রাথমিক)) এমনকি আমাদের ফোনেও চলছে (আজকাল, বেশ কয়েকটি উদাহরণ রয়েছে, উদাহরণস্বরূপ, মাইক্রোসফ্টের Phi-2 মডেল) আধুনিক স্ন্যাপড্রাগন-ভিত্তিক অ্যান্ড্রয়েড ডিভাইসে প্রজন্মের গতি প্রায় 3-10 টোকেন প্রতি সেকেন্ডে)।


এছাড়াও, আরও উন্নত ব্যক্তিগতকরণ থাকবে (আরও উপযুক্ত ফলাফল প্রদানের জন্য সমস্ত পূর্ববর্তী ব্যবহারকারীর অভিজ্ঞতা এবং প্রতিক্রিয়া ব্যবহার করে), এমনকি ডিজিটাল যমজ পর্যন্ত। আরও অনেক কিছু উন্নত করা হবে যা এই মুহূর্তে উপলব্ধ - সহকারী/মডেল কাস্টমাইজেশন এবং মার্কেটপ্লেস, সবকিছুর জন্য একটি মডেল (মাল্টিমোডাল দিকনির্দেশ), নিরাপত্তা (ব্যক্তিগত ডেটার সাথে কাজ করার জন্য একটি আরও দক্ষ ব্যবস্থা, এটি এনকোড করা ইত্যাদি), এবং অন্যান্য।


আপনার ব্যবসার জন্য AI এর সম্ভাব্যতা আনলক করতে প্রস্তুত? যোগাযোগ ELEKS বিশেষজ্ঞ টি.