747 পড়া

গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন

দ্বারা Procrustes Technologies5m2025/01/27

অতিদীর্ঘ; পড়তে

গবেষকরা কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের জন্য ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং সুপ্ত পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করার জন্য একটি নতুন পদ্ধতি তৈরি করেছেন।

featured image - গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন

লেখক:

(1) সের্গেই কুচেরিয়াভস্কি, রসায়ন ও জীববিজ্ঞান বিভাগ, আলবার্গ বিশ্ববিদ্যালয় এবং একজন সংশ্লিষ্ট লেখক ([email protected]);

(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, বার্নাউল, 656023, রাশিয়া এবং অবদানকারী লেখক0 ([email protected])।

সম্পাদকের দ্রষ্টব্য: এটি একটি অধ্যয়নের 4 এর অংশ 1 যা সংখ্যাসূচক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির বিশদ বিবরণ দেয়৷ নীচে বাকি পড়ুন.

লিঙ্কের টেবিল

বিমূর্ত এবং 1 ভূমিকা
2 পদ্ধতি
- 2.1 একক মান পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
- 2.2 PLS পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
3 ফলাফল
- 3.1 ডেটাসেট
- 3.2 টেকেটর ডেটার ANN রিগ্রেশন
- 3.3 হার্ট ডেটার ANN শ্রেণীবিভাগ
4 আলোচনা
- 5 উপসংহার এবং রেফারেন্স

বিমূর্ত

এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির প্রস্তাব করি। পদ্ধতিটি ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং প্রচ্ছন্ন পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করে। এটি মাঝারি থেকে উচ্চ ডিগ্রী সমনক্ষত্রতার সাথে ডেটাসেটের জন্য বিশেষভাবে কার্যকর, কারণ এটি প্রজন্মের জন্য এই সম্পত্তিটি সরাসরি ব্যবহার করে। পদ্ধতিটি সহজ, দ্রুত, এবং খুব কম প্যারামিটার রয়েছে, যা কাগজে দেখানো হয়েছে, নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। এটি বেশ কয়েকটি বাস্তব ডেটাসেটে পরীক্ষা করা হয়েছে; এখানে, আমরা দুটি ক্ষেত্রে বিশদ ফলাফলের প্রতিবেদন করি, কাছাকাছি ইনফ্রারেড স্পেকট্রার উপর ভিত্তি করে কিমা করা মাংসে প্রোটিনের পূর্বাভাস (সম্পূর্ণ সংখ্যাসূচক ডেটা সহ উচ্চ মাত্রার সমকোনতা) এবং করোনারি এনজিওগ্রাফির জন্য উল্লেখ করা রোগীদের বৈষম্য (মিশ্র ডেটা, উভয় সংখ্যাসূচক এবং শ্রেণীগত ভেরিয়েবল সহ, এবং মাঝারি সমসংখ্যা)। উভয় ক্ষেত্রেই, রিগ্রেশন এবং বৈষম্যের মডেলগুলি বিকাশের জন্য কৃত্রিম নিউরাল নেটওয়ার্কগুলি নিযুক্ত করা হয়েছিল। ফলাফল মডেলের কর্মক্ষমতা একটি স্পষ্ট উন্নতি দেখায়; এইভাবে মাংস প্রোটিনের ভবিষ্যদ্বাণীর জন্য, মডেলটিকে বর্ধিত ডেটার সাথে ফিট করার ফলে 1.5 থেকে 3 বার সেট করা স্বাধীন পরীক্ষার জন্য গণনা করা রুট গড় বর্গক্ষেত্র ত্রুটি হ্রাস পায়।

কীওয়ার্ড : ডেটা অগমেন্টেশন, কৃত্রিম নিউরাল নেটওয়ার্ক, প্রক্রস্টেস ক্রস-ভ্যালিডেশন, প্রচ্ছন্ন ভেরিয়েবল, সমকোনতা

1 ভূমিকা

আধুনিক মেশিন লার্নিং পদ্ধতি যা উচ্চ জটিলতার মডেলের উপর নির্ভর করে, যেমন কৃত্রিম নিউরাল নেটওয়ার্ক (ANN), মডেলগুলিকে প্রশিক্ষণ এবং অপ্টিমাইজ করার জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন। অপর্যাপ্ত প্রশিক্ষণের ডেটা প্রায়শই ওভারফিটিং সমস্যার দিকে পরিচালিত করে, কারণ টিউন করার জন্য মডেল হাইপারপ্যারামিটারের সংখ্যা ডেটাসেটে স্বাধীনতার ডিগ্রির সংখ্যার চেয়ে অনেক বেশি।

এই ক্ষেত্রে আরেকটি সাধারণ সমস্যা হল প্রজননযোগ্যতার অভাব কারণ প্রাথমিক মডেলের পরামিতিগুলির এলোমেলো নির্বাচন এবং তাদের অপ্টিমাইজেশনের স্টোকাস্টিক প্রকৃতির প্রেক্ষিতে ANN প্রশিক্ষণ পদ্ধতিটি নির্ধারক নয়। ফলস্বরূপ, এটি কখনই একই পরামিতি এবং কর্মক্ষমতা সহ একটি মডেলের দিকে পরিচালিত করে না, কারণ বিভিন্ন প্রশিক্ষণ পরীক্ষার ফলে বিভিন্ন মডেল হতে পারে। প্রশিক্ষণ সেট খুব ছোট হলে এই পরিবর্তনশীলতা বড় হয়ে যায়।

পরীক্ষামূলক ডেটা ফিট করার ক্ষেত্রে এই সমস্যাটি বিশেষভাবে জরুরী, কারণ অনেক পরীক্ষামূলক ট্রায়াল চালানো প্রায়ই ব্যয়বহুল এবং সময়সাপেক্ষ, সঠিক প্রশিক্ষণ এবং অপ্টিমাইজেশনের জন্য প্রয়োজনীয় হাজার হাজার পরিমাপ সংগ্রহ করা সহজভাবে অসম্ভব। চিকিৎসা গবেষণায় অনুমতি সংক্রান্ত কাগজপত্রের মতো অন্যান্য বাধাও থাকতে পারে।

অপর্যাপ্ত প্রশিক্ষণ ডেটার সমস্যা কাটিয়ে ওঠার একটি উপায় হল নতুন ডেটা পয়েন্ট অনুকরণ করে বা বিদ্যমানগুলিকে ছোট পরিবর্তন করে এটিকে কৃত্রিমভাবে বৃদ্ধি করা। এই কৌশলটিকে প্রায়ই "ডেটা অগমেন্টেশন" হিসাবে উল্লেখ করা হয়। ডেটা অগমেন্টেশন ইমেজ বিশ্লেষণ এবং শ্রেণীবিভাগে বিশেষভাবে দক্ষ বলে প্রমাণিত হয়েছে, গবেষণার একটি বৃহৎ অংশ উভয় বহুমুখী বর্ধন পদ্ধতি [1] [2], [3] এবং নির্দিষ্ট ক্ষেত্রে বিশেষভাবে কার্যকরী পদ্ধতিগুলি রিপোর্ট করছে [4] [5] . টাইম সিরিজ ডেটার জন্য পরিবর্ধন পদ্ধতিগুলিও তুলনামূলকভাবে ভালভাবে বিকশিত হয়েছে [6]।

যাইহোক, এমন দক্ষ পদ্ধতির অভাব রয়েছে যা সাংখ্যিক ডেটাসেটের জন্য মাঝারি থেকে উচ্চ মাত্রার সমন্বিততার সাথে শালীন ডেটা বৃদ্ধি প্রদান করতে পারে। এই ধরনের ডেটাসেটগুলি পরীক্ষামূলক গবেষণায় বিস্তৃত, যার মধ্যে রয়েছে বিভিন্ন ধরনের স্পেকট্রোস্কোপিক ডেটা, জিনোম সিকোয়েন্সিংয়ের ফলাফল (যেমন, 16S RNA) এবং আরও অনেক কিছু। অনেক ট্যাবুলেড ডেটাসেট অভ্যন্তরীণ কাঠামোও প্রদর্শন করে যেখানে ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত। এই জাতীয় ডেটা বৃদ্ধির জন্য বর্তমানে উপলব্ধ পদ্ধতিগুলি বেশিরভাগই বিদ্যমান পরিমাপের সাথে বিভিন্ন ধরণের শব্দ [7] যোগ করার উপর নির্ভর করে, যা সর্বদা যথেষ্ট নয়। এছাড়াও প্রতিশ্রুতিশীল পদ্ধতি রয়েছে যেগুলি তাদের সুপ্ত পরিবর্তনশীল স্থান [8] থেকে র্যান্ডম নমুনা দ্বারা পরিবর্তনশীল অটোএনকোডারগুলিকে ব্যবহার করে, বা জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলির উপর ভিত্তি করে পদ্ধতিগুলি [4]। নেতিবাচক দিকগুলি হল যে উভয় পদ্ধতির জন্য ডেটা বৃদ্ধির জন্য একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক মডেল তৈরি এবং টিউন করা প্রয়োজন এবং তাই একটি পুঙ্খানুপুঙ্খ এবং সম্পদের চাহিদা অপ্টিমাইজেশন প্রক্রিয়া এবং একটি অপেক্ষাকৃত বড় প্রাথমিক প্রশিক্ষণ সেট প্রয়োজন।

এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র সমরেখার ডেটাসেটগুলিকে বৃদ্ধি করার জন্য একটি সহজ, দ্রুত, বহুমুখী, তবুও দক্ষ পদ্ধতির প্রস্তাব করি। পদ্ধতিটি এমন একটি পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে যা প্রাথমিকভাবে অন্য উদ্দেশ্যে তৈরি করা হয়েছিল, বিশেষ করে বৈধতা সেট তৈরি করার জন্য, এবং তাই এটি প্রক্রস্টেস ক্রস-ভ্যালিডেশন [৯] [১০] নামে পরিচিত। যাইহোক, এই কাগজে প্রদর্শিত হিসাবে, এটি কার্যকরভাবে ডেটা বৃদ্ধি সমস্যা সমাধান করে, যার ফলে উল্লেখযোগ্যভাবে উন্নত ভবিষ্যদ্বাণী বা শ্রেণীবিভাগ কর্মক্ষমতা সহ মডেলগুলি তৈরি হয়।

আমাদের পদ্ধতিটি প্রজন্মের পদ্ধতিতে সরাসরি সমন্বিততা লাভ করে। এটি প্রচ্ছন্ন ভেরিয়েবলের একটি সেটের সাথে প্রশিক্ষণের ডেটা ফিট করে এবং তারপরে ভেরিয়েবলের অভিযোজনে বৈচিত্রগুলি পরিমাপ করতে ক্রস-ভ্যালিডেশন রিস্যাম্পলিং নিযুক্ত করে। এই বৈচিত্রটি স্যাম্পলিং ত্রুটি হিসাবে প্রশিক্ষণ সেটে প্রবর্তিত হয়, ফলে ডেটা পয়েন্টগুলির একটি নতুন সেট তৈরি হয়।

দুটি ফিটিং মডেল নিযুক্ত করা যেতে পারে — একক মান পচন (SVD) এবং আংশিক সর্বনিম্ন বর্গক্ষেত্র (PLS) পচন। ফিটিং মডেলের পছন্দ ব্যবহারকারীকে কোভেরিয়েন্স স্ট্রাকচারের একটি অংশকে অগ্রাধিকার দিতে দেয়, যা নতুন ডেটা তৈরির জন্য ব্যবহার করা হবে।

উভয় ফিটিং মডেলের দুটি পরামিতি রয়েছে — সুপ্ত ভেরিয়েবলের সংখ্যা এবং ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এর জন্য ব্যবহৃত সেগমেন্টের সংখ্যা। পরীক্ষাগুলি দেখায় যে পরামিতিগুলির নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। প্রশিক্ষণ সেট মানগুলির পদ্ধতিগত পরিবর্তনগুলি ক্যাপচার করার জন্য যথেষ্ট পরিমাণে প্রচ্ছন্ন ভেরিয়েবলের সংখ্যা সমানভাবে ভালভাবে কাজ করে। পাশাপাশি তিনটি থেকে শুরু করে যেকোন সংখ্যক সেগমেন্ট।

প্রস্তাবিত পদ্ধতিটি বহুমুখী এবং সম্পূর্ণ সাংখ্যিক ডেটার পাশাপাশি সারণীকৃত ডেটাতে প্রয়োগ করা যেতে পারে যেখানে এক বা একাধিক ভেরিয়েবল গুণগত। এটি আরেকটি দৃষ্টিভঙ্গি খোলে, যথা ডেটা মকিং, যা উপযোগী হতে পারে, যেমন, উচ্চ লোড সফ্টওয়্যার সিস্টেমের পরীক্ষার জন্য, যদিও আমরা এখানে এই দিকটি বিবেচনা করি না।

কাগজটি পদ্ধতির তাত্ত্বিক ভিত্তি বর্ণনা করে এবং বিভিন্ন প্রকৃতির দুটি ডেটাসেটের উপর ভিত্তি করে এর ব্যবহারিক প্রয়োগ এবং কর্মক্ষমতা চিত্রিত করে। বাস্তব-বিশ্বের পরিস্থিতিতে বিভিন্ন ডেটাসেটে কীভাবে পদ্ধতিটি কার্যকরভাবে প্রয়োগ করা যেতে পারে তার বিস্তৃত বিবরণ প্রদান করে।

আমরা পাইথন, আর, ম্যাটল্যাব এবং জাভাস্ক্রিপ্ট সহ বেশ কয়েকটি প্রোগ্রামিং ভাষায় পদ্ধতিটি প্রয়োগ করেছি এবং সমস্ত বাস্তবায়ন গিটহাব সংগ্রহস্থলে (https://github.com/svkucheryavski/pcv) অবাধে উপলব্ধ। উপরন্তু, আমরা একটি অনলাইন সংস্করণ সরবরাহ করি যেখানে কেউ সরাসরি ব্রাউজারে (https://mda.tools/pcv) নতুন ডেটা পয়েন্ট তৈরি করতে পারে।

এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।

L O A D I N G
. . . comments & more!

About Author

Procrustes Technologies@procrustes

Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

Read my stories

আসে ট্যাগ

machine-learning #machine-learning #data-augmentation #artificial-neural-networks #procrustes-cross-validation #latent-variables #collinearity #ai-training-data #hackernoon-top-story

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত