AI-এর যুগে, ChatGPT- এর মতো টুলগুলি অনেক প্রতিষ্ঠানের জন্য একটি গো-টু সমাধান হয়ে উঠেছে, যা উন্নত দক্ষতা এবং উৎপাদনশীলতা এনেছে। ডেটা মিথ্যা নয়: প্রতিকূলতা হল, আপনি বা আপনার কর্মীরা ChatGPT ব্যবহার করছেন ইমেলের খসড়া তৈরি করতে, বিষয়বস্তু তৈরি করতে, ডেটা বিশ্লেষণ করতে এবং এমনকি কোডিং-এ সহায়তা করতে।
যাইহোক, যদি সঠিকভাবে ব্যবহার না করা হয়, তাহলে এই টুলগুলি ভবিষ্যতের জেনারেটিভ AI মডেল যেমন GPT-3.5, GPT-4 এবং শেষ পর্যন্ত GPT-5-এ আপনার কোম্পানির মেধা সম্পত্তি (IP) অজান্তেই প্রকাশ করতে পারে, যার অর্থ যে কোনও ChatGPT ব্যবহারকারী সেই তথ্য অ্যাক্সেস করতে পারে।
স্যামসাং ইঞ্জিনিয়াররা সোর্স কোড চেকিংয়ে সহায়তা করার জন্য ChatGPT ব্যবহার করেছিল, কিন্তু দ্য ইকোনমিস্ট কোরিয়া স্যামসাং কর্মচারীদের উদ্দেশ্যহীনভাবে টুলের মাধ্যমে সংবেদনশীল তথ্য ফাঁস করার তিনটি পৃথক ঘটনা রিপোর্ট করেছে। এর ফলে গোপনীয় সোর্স কোড এবং রেকর্ড করা মিটিং বিষয়বস্তু পাবলিক ডোমেনে শেষ হয়, যা ChatGPT ( উত্স ) এর ভবিষ্যতের পুনরাবৃত্তি দ্বারা ব্যবহারযোগ্য।
আপনি যখন আমাদের নন-এপিআই ভোক্তা পরিষেবাগুলি ChatGPT বা DALL-E ব্যবহার করেন, তখন আমরা আমাদের মডেলগুলি উন্নত করতে আপনার দেওয়া ডেটা ব্যবহার করতে পারি।
মডেল পারফরম্যান্স উন্নত করতে আপনার ডেটা কীভাবে ব্যবহার করা হয়
এই পোস্টে, আমরা কোম্পানির অভ্যন্তরীণ ডেটা সহ ChatGPT এবং OpenAI-এর API ব্যবহার করার সম্ভাব্য ঝুঁকি সম্পর্কে কথা বলব এবং কীভাবে আপনি আপনার কোম্পানির জন্য যতটা সম্ভব ঝুঁকি কমাতে পারেন। আমরা আপনার কোম্পানির জন্য অন্যান্য বিকল্পগুলি নিয়েও আলোচনা করব, যেমন আপনার নিজের ভাষা মডেলকে প্রশিক্ষণ দেওয়া যা ChatGPT-এর কার্যকারিতা প্রতিলিপি করে বা একটি ওপেন সোর্স মডেল ব্যবহার করে। এই দুটি বিকল্পই ওপেনএআই-কে ডেটা না পাঠিয়ে ChatGPT-এর উৎপাদনশীলতার সুবিধা পাওয়ার সুযোগ দেয়।
OpenAI-এর Completion APIs ডেভেলপাররা অ্যাপ্লিকেশন তৈরি করতে এবং OpenAI-এর অত্যাধুনিক ভাষার মডেল যেমন GPT-3 এবং GPT-4 ব্যবহার করে, যে মডেলগুলি ChatGPT কে শক্তি দেয়। এই APIগুলি বাক্সের বাইরে একটি অতিরিক্ত স্তরের সুরক্ষা অফার করে৷ ChatGPT এর বিপরীতে, আপনার ডেটা শুধুমাত্র একটি চুক্তিবদ্ধ মডারেশন টিম দ্বারা দেখা হয় এবং OpenAI এর মডেলগুলির ভবিষ্যতের প্রশিক্ষণে পুনর্ব্যবহার করা হয় না। তাদের APIগুলি একটি ডেটা নীতি অনুসরণ করে যা জমা দেওয়া তথ্যকে ভবিষ্যতের মডেলের প্রশিক্ষণের জন্য ব্যবহার করার অনুমতি দেয় না (তাদের API ডেটা ব্যবহারের নীতি বলে যে আপনার ডেটা অপব্যবহার এবং অপব্যবহার নিরীক্ষণের জন্য শুধুমাত্র 30 দিনের জন্য রাখা হয়৷ তারপর এটি সরানো হয়৷)
যাইহোক, API এ জমা দেওয়া আপনার ডেটার প্রকৃতির উপর নির্ভর করে, আপনি সিদ্ধান্ত নিতে পারেন যে OpenAI এর API ব্যবহার করা এখনও খুব ঝুঁকিপূর্ণ। অবশেষে, একজন OpenAI কর্মচারী বা ঠিকাদার আপনার API-এ পাঠানো কিছু ডেটা দেখবে এবং যদি এতে সংবেদনশীল, ব্যক্তিগতভাবে শনাক্তযোগ্য, বা ব্যক্তিগত স্বাস্থ্য তথ্য থাকে, তাহলে এর অর্থ অনেক সমস্যা হতে পারে।
2023 সালের এপ্রিলের শেষে, ChatGPT আপনার ডেটা পরিচালনা করার একটি উপায় প্রকাশ করেছে , ChatGPT সেটিংসে একটি "চ্যাট ইতিহাস ও প্রশিক্ষণ" বোতাম। এই বৈশিষ্ট্যটি বন্ধ থাকায়, প্ল্যাটফর্মে ভাগ করা কোনো ডেটা ভবিষ্যতের মডেলদের প্রশিক্ষণের জন্য ব্যবহার করা হয় না। বোতামের নীচে, একটি নোট রয়েছে: "আমাদের সিস্টেম থেকে অসংরক্ষিত চ্যাটগুলি 30 দিনের মধ্যে মুছে ফেলা হবে"৷ এই 30 দিনের নোট সম্ভবত অপব্যবহার এবং অপব্যবহার পর্যবেক্ষণ নীতির উল্লেখ করছে। এটি উপরে উল্লিখিত হিসাবে OpenAI এর API ব্যবহার করার মতো একই ঝুঁকি নিয়ে আসে।
কিছু কোম্পানি তাদের ডেটা ফাঁসের ঘটনার পর স্যামসাং যে পথে যাত্রা করেছিল বলে জানা গেছে তার অনুসরণ করে বিকল্প হিসেবে তাদের নিজস্ব মডেলকে প্রশিক্ষণ দেওয়ার কথা বিবেচনা করতে পারে। এই পদ্ধতিটি একটি সিলভার বুলেটের মতো মনে হতে পারে: আপনি আপনার ডেটার উপর সম্পূর্ণ নিয়ন্ত্রণ বজায় রাখবেন, সম্ভাব্য আইপি ফাঁস এড়াতে পারবেন এবং আপনার নির্দিষ্ট প্রয়োজন অনুসারে একটি টুল অর্জন করবেন।
তবে আসুন এক মুহুর্তের জন্য বিরতি দেওয়া যাক। আপনার নিজস্ব ভাষা মডেল প্রশিক্ষণ কোন ছোট কাজ. এটি সম্পদ-নিবিড়, এর জন্য উল্লেখযোগ্য দক্ষতা, কম্পিউটেশনাল শক্তি এবং উচ্চ-মানের ডেটা প্রয়োজন। এমনকি একটি মডেল তৈরি করার পরেও, আপনি এটিকে রক্ষণাবেক্ষণ, উন্নতি এবং আপনার বিকাশমান চাহিদাগুলির সাথে খাপ খাইয়ে নেওয়ার ক্রমাগত চ্যালেঞ্জের মুখোমুখি হবেন।
তদুপরি, ভাষার মডেলের গুণমান মূলত নির্ভর করে তারা যে পরিমাণ ডেটার উপর প্রশিক্ষিত হয়েছে তার উপর। ওপেনএআই-এর মতো কোম্পানিগুলি তাদের মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা বিশাল ডেটাসেটের পরিপ্রেক্ষিতে, স্বতন্ত্র কোম্পানিগুলির জন্য সেই স্তরের পরিশীলিততা এবং বহুমুখিতা মেলানো চ্যালেঞ্জিং। যে কোম্পানিগুলি সফল হয় তারা হল ব্লুমবার্গের মতো কোম্পানি, যারা তাদের 40 বছরের আর্থিক তথ্য এবং নথি ( উত্স ) থেকে ব্লুমবার্গজিপিটি তৈরি করেছে৷ কখনও কখনও, তথ্য শুধুমাত্র একটি পা পেতে চেষ্টা ছোট কোম্পানীর জন্য অর্জনযোগ্য নয়.
ওপেন সোর্স মডেলের শিল্পের অবস্থা দ্রুত অগ্রসর হচ্ছে। একটি ওপেন-সোর্স মডেল ডাউনলোড করা যেতে পারে এবং আপনার মেশিনে চালানো যেতে পারে, এটিকে স্ব-হোস্টেবল করে তোলে এবং ওপেনএআই-এর মতো একটি কোম্পানির জড়িত থাকার প্রয়োজনীয়তা দূর করে।
ওপেন অ্যাসিস্ট্যান্টের মতো প্রতিষ্ঠানের দ্বারা প্রশিক্ষিত মডেলগুলি অসাধারণ ফলাফল তৈরি করছে এবং সম্পূর্ণরূপে ওপেন সোর্স। তাদের সম্প্রদায় সক্রিয়ভাবে ডেটা সংগ্রহ করছে একই রিইনফোর্সমেন্ট লার্নিং হিউম্যান ফিডব্যাক (RLHF) লুপে যা OpenAI ChatGPT এর সাথে ব্যবহার করেছে। মডেলের কর্মক্ষমতা চিত্তাকর্ষক, বিশেষ করে ওপেন সোর্স সম্প্রদায়ের উপর নির্ভরতা বিবেচনা করে (আমার নিজের অবদান সহ)। যাইহোক, ওপেন অ্যাসিস্ট্যান্ট তাদের মডেলের সীমাবদ্ধতা সম্পর্কে স্বচ্ছ, স্বীকার করে যে তাদের ডেটা একজন পুরুষ, 26 বছর বয়সী জনসংখ্যার প্রতি পক্ষপাতদুষ্ট। তারা শুধুমাত্র গবেষণা সেটিংসে তাদের মডেল ব্যবহার করার সুপারিশ করে, এই জনসংখ্যা প্রকাশের ক্ষেত্রে দায়িত্বশীল আচরণ প্রদর্শন করে। সহকারী খুলতে প্রশংসা!
Orca একটি প্রতিশ্রুতিশীল, অপ্রকাশিত ওপেন-সোর্স মডেল যা Microsoft দ্বারা প্রশিক্ষিত। এটি GPT-3 থেকে ছোট, তবুও সমানভাবে উত্পাদন করে এবং কখনও কখনও GPT-3 থেকে ভাল ফলাফল দেয়। আপনি আগ্রহী হলে Orca-তে AI দ্বারা ব্যাখ্যা করা একটি দুর্দান্ত ভিডিও রয়েছে । যাইহোক, আপনি আপনার নিজের মডেলগুলিকে প্রশিক্ষণের জন্য OpenAI-এর মডেলগুলি ব্যবহার করতে পারবেন না, কারণ এটি OpenAI-এর পরিষেবার শর্তাবলী লঙ্ঘন করবে৷ Orca GPT-3.5 এবং GPT-4 থেকে আউটপুট সম্পর্কে স্পষ্টভাবে প্রশিক্ষিত, তাই মাইক্রোসফ্ট দাবি করে যে তারা এই মডেলটি শুধুমাত্র "গবেষণার" জন্য প্রকাশ করবে।
এই মডেল দুটি বিশেষভাবে গবেষণার উদ্দেশ্যে ডিজাইন করা হয়েছে, যা ব্যবসায়িক অ্যাপ্লিকেশনের জন্য তাদের অনুপযুক্ত করে তোলে। বিকল্প হিসাবে অন্যান্য ওপেন-সোর্স মডেলগুলি পর্যালোচনা করার পরে, আমি দেখেছি যে তাদের বেশিরভাগই হয় মেটার LLAMA মডেল থেকে প্রাপ্ত (এইভাবে একই "গবেষণা" সীমাবদ্ধতার বিষয়) বা দক্ষতার সাথে চালানোর জন্য খুব বড়।
একটি উত্সাহজনক বিকল্প হল আপনার অনুমানকে ব্যক্তিগতভাবে হোস্ট করার জন্য MosaicML এর মতো একটি কোম্পানির সুবিধা নেওয়া। MosaicML কয়েকটি বাণিজ্যিকভাবে উপলব্ধ ওপেন-সোর্স ভাষার মডেলগুলির মধ্যে একটি হিসাবে দাঁড়িয়েছে। তারা দাবি করে যে তাদের MPT-30b মডেলটি GPT-3 এর সাথে তুলনীয় গুণমান অর্জন করে । যদিও তারা নির্দিষ্ট মানদণ্ড প্রদান করে না, আমি তাদের দাবির উপর আস্থা রাখতে আগ্রহী, একজন বন্ধু হিসাবে এবং আমি তাদের একটি ছোট মডেল (MPT-7b) পরীক্ষা করা শুরু করেছি এবং প্রাথমিক ফলাফলগুলি আশাব্যঞ্জক!
আপনার ডেটা এবং ব্যবহারের ক্ষেত্রের প্রকৃতির উপর নির্ভর করে, ChatGPT বা OpenAI এর API ব্যবহার করা আপনার কোম্পানির জন্য অনুপযুক্ত হতে পারে। আপনার কোম্পানির যদি ChatGPT-এ কোন ডেটা পাঠানো বা সংরক্ষণ করা যায় তার জন্য নীতি না থাকে, এখন সেই কথোপকথন শুরু করার সময়।
ব্যক্তিগত ব্যবসার সেটিংসে এই সরঞ্জামগুলির অপব্যবহার আইপি ফাঁস হতে পারে। প্রতিযোগিতামূলক সুবিধা হারানো থেকে সম্ভাব্য আইনি সমস্যা পর্যন্ত এই ধরনের এক্সপোজারের প্রভাব ব্যাপক।
আপনি যদি MosaicML-এর মডেলগুলির আরও অন্বেষণে আগ্রহী হন, যেগুলি সীমিত বিকল্পগুলির মধ্যে রয়েছে যা ওপেন সোর্স এবং বৃহৎ ভাষার মডেলগুলির জন্য বাণিজ্যিকভাবে উপলব্ধ, অনুগ্রহ করে আমাদের জানান ! আমরা একই আগ্রহ শেয়ার করি এবং একসাথে এই বিষয়টি আরও অন্বেষণ করতে আগ্রহী।
আপনি যদি এমন একটি সমাধানে আগ্রহী হন যা আপনার নিজের কোম্পানির ডেটা ব্যবহার করে সুরক্ষিত, পুনরুদ্ধার বর্ধিত প্রজন্মের অফার করে, আমরা একটি টুল তৈরি করছি যা বিশেষভাবে SOC2 সম্মতির সাথে আপনার ডেটা সুরক্ষিত করার জন্য, আপনার SSO প্রদানকারীদের সাথে একীভূত করতে, আপনার প্রতিষ্ঠানের মধ্যে কথোপকথন ভাগাভাগি সক্ষম করতে এবং তথ্য ইনপুট নীতি প্রয়োগ. আমাদের চূড়ান্ত উদ্দেশ্য হল আইপি ফাঁসের ঝুঁকি ছাড়াই আপনার ডেটার জন্য ChatGPT গুণমান প্রদান করা। আপনি যদি এই ধরনের টুলে আগ্রহী হন, তাহলে আমরা আপনাকে আমাদের সমীক্ষা পূরণ করতে বা mindfuldataai.com এ যেতে উৎসাহিত করি।
এই পোস্টটি পড়ার জন্য সময় দেওয়ার জন্য আপনাকে ধন্যবাদ!