লেখক:
(1) সের্গেই কুচেরিয়াভস্কি, রসায়ন ও জীববিজ্ঞান বিভাগ, আলবার্গ বিশ্ববিদ্যালয় এবং একজন সংশ্লিষ্ট লেখক ([email protected]);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, বার্নাউল, 656023, রাশিয়া এবং অবদানকারী লেখক0 ([email protected])।
সম্পাদকের দ্রষ্টব্য: এটি একটি অধ্যয়নের 4 এর অংশ 1 যা সংখ্যাসূচক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির বিশদ বিবরণ দেয়৷ নীচে বাকি পড়ুন.
এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির প্রস্তাব করি। পদ্ধতিটি ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং প্রচ্ছন্ন পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করে। এটি মাঝারি থেকে উচ্চ ডিগ্রী সমনক্ষত্রতার সাথে ডেটাসেটের জন্য বিশেষভাবে কার্যকর, কারণ এটি প্রজন্মের জন্য এই সম্পত্তিটি সরাসরি ব্যবহার করে। পদ্ধতিটি সহজ, দ্রুত, এবং খুব কম প্যারামিটার রয়েছে, যা কাগজে দেখানো হয়েছে, নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। এটি বেশ কয়েকটি বাস্তব ডেটাসেটে পরীক্ষা করা হয়েছে; এখানে, আমরা দুটি ক্ষেত্রে বিশদ ফলাফলের প্রতিবেদন করি, কাছাকাছি ইনফ্রারেড স্পেকট্রার উপর ভিত্তি করে কিমা করা মাংসে প্রোটিনের পূর্বাভাস (সম্পূর্ণ সংখ্যাসূচক ডেটা সহ উচ্চ মাত্রার সমকোনতা) এবং করোনারি এনজিওগ্রাফির জন্য উল্লেখ করা রোগীদের বৈষম্য (মিশ্র ডেটা, উভয় সংখ্যাসূচক এবং শ্রেণীগত ভেরিয়েবল সহ, এবং মাঝারি সমসংখ্যা)। উভয় ক্ষেত্রেই, রিগ্রেশন এবং বৈষম্যের মডেলগুলি বিকাশের জন্য কৃত্রিম নিউরাল নেটওয়ার্কগুলি নিযুক্ত করা হয়েছিল। ফলাফল মডেলের কর্মক্ষমতা একটি স্পষ্ট উন্নতি দেখায়; এইভাবে মাংস প্রোটিনের ভবিষ্যদ্বাণীর জন্য, মডেলটিকে বর্ধিত ডেটার সাথে ফিট করার ফলে 1.5 থেকে 3 বার সেট করা স্বাধীন পরীক্ষার জন্য গণনা করা রুট গড় বর্গক্ষেত্র ত্রুটি হ্রাস পায়।
কীওয়ার্ড : ডেটা অগমেন্টেশন, কৃত্রিম নিউরাল নেটওয়ার্ক, প্রক্রস্টেস ক্রস-ভ্যালিডেশন, প্রচ্ছন্ন ভেরিয়েবল, সমকোনতা
আধুনিক মেশিন লার্নিং পদ্ধতি যা উচ্চ জটিলতার মডেলের উপর নির্ভর করে, যেমন কৃত্রিম নিউরাল নেটওয়ার্ক (ANN), মডেলগুলিকে প্রশিক্ষণ এবং অপ্টিমাইজ করার জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন। অপর্যাপ্ত প্রশিক্ষণের ডেটা প্রায়শই ওভারফিটিং সমস্যার দিকে পরিচালিত করে, কারণ টিউন করার জন্য মডেল হাইপারপ্যারামিটারের সংখ্যা ডেটাসেটে স্বাধীনতার ডিগ্রির সংখ্যার চেয়ে অনেক বেশি।
এই ক্ষেত্রে আরেকটি সাধারণ সমস্যা হল প্রজননযোগ্যতার অভাব কারণ প্রাথমিক মডেলের পরামিতিগুলির এলোমেলো নির্বাচন এবং তাদের অপ্টিমাইজেশনের স্টোকাস্টিক প্রকৃতির প্রেক্ষিতে ANN প্রশিক্ষণ পদ্ধতিটি নির্ধারক নয়। ফলস্বরূপ, এটি কখনই একই পরামিতি এবং কর্মক্ষমতা সহ একটি মডেলের দিকে পরিচালিত করে না, কারণ বিভিন্ন প্রশিক্ষণ পরীক্ষার ফলে বিভিন্ন মডেল হতে পারে। প্রশিক্ষণ সেট খুব ছোট হলে এই পরিবর্তনশীলতা বড় হয়ে যায়।
পরীক্ষামূলক ডেটা ফিট করার ক্ষেত্রে এই সমস্যাটি বিশেষভাবে জরুরী, কারণ অনেক পরীক্ষামূলক ট্রায়াল চালানো প্রায়ই ব্যয়বহুল এবং সময়সাপেক্ষ, সঠিক প্রশিক্ষণ এবং অপ্টিমাইজেশনের জন্য প্রয়োজনীয় হাজার হাজার পরিমাপ সংগ্রহ করা সহজভাবে অসম্ভব। চিকিৎসা গবেষণায় অনুমতি সংক্রান্ত কাগজপত্রের মতো অন্যান্য বাধাও থাকতে পারে।
অপর্যাপ্ত প্রশিক্ষণ ডেটার সমস্যা কাটিয়ে ওঠার একটি উপায় হল নতুন ডেটা পয়েন্ট অনুকরণ করে বা বিদ্যমানগুলিকে ছোট পরিবর্তন করে এটিকে কৃত্রিমভাবে বৃদ্ধি করা। এই কৌশলটিকে প্রায়ই "ডেটা অগমেন্টেশন" হিসাবে উল্লেখ করা হয়। ডেটা অগমেন্টেশন ইমেজ বিশ্লেষণ এবং শ্রেণীবিভাগে বিশেষভাবে দক্ষ বলে প্রমাণিত হয়েছে, গবেষণার একটি বৃহৎ অংশ উভয় বহুমুখী বর্ধন পদ্ধতি [1] [2], [3] এবং নির্দিষ্ট ক্ষেত্রে বিশেষভাবে কার্যকরী পদ্ধতিগুলি রিপোর্ট করছে [4] [5] . টাইম সিরিজ ডেটার জন্য পরিবর্ধন পদ্ধতিগুলিও তুলনামূলকভাবে ভালভাবে বিকশিত হয়েছে [6]।
যাইহোক, এমন দক্ষ পদ্ধতির অভাব রয়েছে যা সাংখ্যিক ডেটাসেটের জন্য মাঝারি থেকে উচ্চ মাত্রার সমন্বিততার সাথে শালীন ডেটা বৃদ্ধি প্রদান করতে পারে। এই ধরনের ডেটাসেটগুলি পরীক্ষামূলক গবেষণায় বিস্তৃত, যার মধ্যে রয়েছে বিভিন্ন ধরনের স্পেকট্রোস্কোপিক ডেটা, জিনোম সিকোয়েন্সিংয়ের ফলাফল (যেমন, 16S RNA) এবং আরও অনেক কিছু। অনেক ট্যাবুলেড ডেটাসেট অভ্যন্তরীণ কাঠামোও প্রদর্শন করে যেখানে ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত। এই জাতীয় ডেটা বৃদ্ধির জন্য বর্তমানে উপলব্ধ পদ্ধতিগুলি বেশিরভাগই বিদ্যমান পরিমাপের সাথে বিভিন্ন ধরণের শব্দ [7] যোগ করার উপর নির্ভর করে, যা সর্বদা যথেষ্ট নয়। এছাড়াও প্রতিশ্রুতিশীল পদ্ধতি রয়েছে যেগুলি তাদের সুপ্ত পরিবর্তনশীল স্থান [8] থেকে র্যান্ডম নমুনা দ্বারা পরিবর্তনশীল অটোএনকোডারগুলিকে ব্যবহার করে, বা জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলির উপর ভিত্তি করে পদ্ধতিগুলি [4]। নেতিবাচক দিকগুলি হল যে উভয় পদ্ধতির জন্য ডেটা বৃদ্ধির জন্য একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক মডেল তৈরি এবং টিউন করা প্রয়োজন এবং তাই একটি পুঙ্খানুপুঙ্খ এবং সম্পদের চাহিদা অপ্টিমাইজেশন প্রক্রিয়া এবং একটি অপেক্ষাকৃত বড় প্রাথমিক প্রশিক্ষণ সেট প্রয়োজন।
এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র সমরেখার ডেটাসেটগুলিকে বৃদ্ধি করার জন্য একটি সহজ, দ্রুত, বহুমুখী, তবুও দক্ষ পদ্ধতির প্রস্তাব করি। পদ্ধতিটি এমন একটি পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে যা প্রাথমিকভাবে অন্য উদ্দেশ্যে তৈরি করা হয়েছিল, বিশেষ করে বৈধতা সেট তৈরি করার জন্য, এবং তাই এটি প্রক্রস্টেস ক্রস-ভ্যালিডেশন [৯] [১০] নামে পরিচিত। যাইহোক, এই কাগজে প্রদর্শিত হিসাবে, এটি কার্যকরভাবে ডেটা বৃদ্ধি সমস্যা সমাধান করে, যার ফলে উল্লেখযোগ্যভাবে উন্নত ভবিষ্যদ্বাণী বা শ্রেণীবিভাগ কর্মক্ষমতা সহ মডেলগুলি তৈরি হয়।
আমাদের পদ্ধতিটি প্রজন্মের পদ্ধতিতে সরাসরি সমন্বিততা লাভ করে। এটি প্রচ্ছন্ন ভেরিয়েবলের একটি সেটের সাথে প্রশিক্ষণের ডেটা ফিট করে এবং তারপরে ভেরিয়েবলের অভিযোজনে বৈচিত্রগুলি পরিমাপ করতে ক্রস-ভ্যালিডেশন রিস্যাম্পলিং নিযুক্ত করে। এই বৈচিত্রটি স্যাম্পলিং ত্রুটি হিসাবে প্রশিক্ষণ সেটে প্রবর্তিত হয়, ফলে ডেটা পয়েন্টগুলির একটি নতুন সেট তৈরি হয়।
দুটি ফিটিং মডেল নিযুক্ত করা যেতে পারে — একক মান পচন (SVD) এবং আংশিক সর্বনিম্ন বর্গক্ষেত্র (PLS) পচন। ফিটিং মডেলের পছন্দ ব্যবহারকারীকে কোভেরিয়েন্স স্ট্রাকচারের একটি অংশকে অগ্রাধিকার দিতে দেয়, যা নতুন ডেটা তৈরির জন্য ব্যবহার করা হবে।
উভয় ফিটিং মডেলের দুটি পরামিতি রয়েছে — সুপ্ত ভেরিয়েবলের সংখ্যা এবং ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এর জন্য ব্যবহৃত সেগমেন্টের সংখ্যা। পরীক্ষাগুলি দেখায় যে পরামিতিগুলির নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। প্রশিক্ষণ সেট মানগুলির পদ্ধতিগত পরিবর্তনগুলি ক্যাপচার করার জন্য যথেষ্ট পরিমাণে প্রচ্ছন্ন ভেরিয়েবলের সংখ্যা সমানভাবে ভালভাবে কাজ করে। পাশাপাশি তিনটি থেকে শুরু করে যেকোন সংখ্যক সেগমেন্ট।
প্রস্তাবিত পদ্ধতিটি বহুমুখী এবং সম্পূর্ণ সাংখ্যিক ডেটার পাশাপাশি সারণীকৃত ডেটাতে প্রয়োগ করা যেতে পারে যেখানে এক বা একাধিক ভেরিয়েবল গুণগত। এটি আরেকটি দৃষ্টিভঙ্গি খোলে, যথা ডেটা মকিং, যা উপযোগী হতে পারে, যেমন, উচ্চ লোড সফ্টওয়্যার সিস্টেমের পরীক্ষার জন্য, যদিও আমরা এখানে এই দিকটি বিবেচনা করি না।
কাগজটি পদ্ধতির তাত্ত্বিক ভিত্তি বর্ণনা করে এবং বিভিন্ন প্রকৃতির দুটি ডেটাসেটের উপর ভিত্তি করে এর ব্যবহারিক প্রয়োগ এবং কর্মক্ষমতা চিত্রিত করে। বাস্তব-বিশ্বের পরিস্থিতিতে বিভিন্ন ডেটাসেটে কীভাবে পদ্ধতিটি কার্যকরভাবে প্রয়োগ করা যেতে পারে তার বিস্তৃত বিবরণ প্রদান করে।
আমরা পাইথন, আর, ম্যাটল্যাব এবং জাভাস্ক্রিপ্ট সহ বেশ কয়েকটি প্রোগ্রামিং ভাষায় পদ্ধতিটি প্রয়োগ করেছি এবং সমস্ত বাস্তবায়ন গিটহাব সংগ্রহস্থলে (https://github.com/svkucheryavski/pcv) অবাধে উপলব্ধ। উপরন্তু, আমরা একটি অনলাইন সংস্করণ সরবরাহ করি যেখানে কেউ সরাসরি ব্রাউজারে (https://mda.tools/pcv) নতুন ডেটা পয়েন্ট তৈরি করতে পারে।
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।