paint-brush
গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেনদ্বারা@procrustes
692 পড়া
692 পড়া

গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন

দ্বারা Procrustes Technologies5m2025/01/27
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের জন্য ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং সুপ্ত পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করার জন্য একটি নতুন পদ্ধতি তৈরি করেছেন।
featured image - গবেষকরা আপনার জিপিইউ ভাজা ছাড়াই ক্ষুদ্র ডেটাসেটগুলিকে বিফ করার জন্য চতুর গণিত কৌশল প্রবর্তন করেছেন
Procrustes Technologies HackerNoon profile picture
0-item

লেখক:

(1) সের্গেই কুচেরিয়াভস্কি, রসায়ন ও জীববিজ্ঞান বিভাগ, আলবার্গ বিশ্ববিদ্যালয় এবং একজন সংশ্লিষ্ট লেখক ([email protected]);

(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, বার্নাউল, 656023, রাশিয়া এবং অবদানকারী লেখক0 ([email protected])।

সম্পাদকের দ্রষ্টব্য: এটি একটি অধ্যয়নের 4 এর অংশ 1 যা সংখ্যাসূচক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির বিশদ বিবরণ দেয়৷ নীচে বাকি পড়ুন.

লিঙ্কের টেবিল

  • বিমূর্ত এবং 1 ভূমিকা
  • 2 পদ্ধতি
    • 2.1 একক মান পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
    • 2.2 PLS পচনের উপর ভিত্তি করে PV-সেট তৈরি করা
  • 3 ফলাফল
    • 3.1 ডেটাসেট
    • 3.2 টেকেটর ডেটার ANN রিগ্রেশন
    • 3.3 হার্ট ডেটার ANN শ্রেণীবিভাগ
  • 4 আলোচনা
    • 5 উপসংহার এবং রেফারেন্স

বিমূর্ত

এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র ডেটাসেটগুলির বৃদ্ধির জন্য একটি নতুন পদ্ধতির প্রস্তাব করি। পদ্ধতিটি ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এবং প্রচ্ছন্ন পরিবর্তনশীল মডেলিং ব্যবহার করে অতিরিক্ত ডেটা পয়েন্ট তৈরি করে। এটি মাঝারি থেকে উচ্চ ডিগ্রী সমনক্ষত্রতার সাথে ডেটাসেটের জন্য বিশেষভাবে কার্যকর, কারণ এটি প্রজন্মের জন্য এই সম্পত্তিটি সরাসরি ব্যবহার করে। পদ্ধতিটি সহজ, দ্রুত, এবং খুব কম প্যারামিটার রয়েছে, যা কাগজে দেখানো হয়েছে, নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। এটি বেশ কয়েকটি বাস্তব ডেটাসেটে পরীক্ষা করা হয়েছে; এখানে, আমরা দুটি ক্ষেত্রে বিশদ ফলাফলের প্রতিবেদন করি, কাছাকাছি ইনফ্রারেড স্পেকট্রার উপর ভিত্তি করে কিমা করা মাংসে প্রোটিনের পূর্বাভাস (সম্পূর্ণ সংখ্যাসূচক ডেটা সহ উচ্চ মাত্রার সমকোনতা) এবং করোনারি এনজিওগ্রাফির জন্য উল্লেখ করা রোগীদের বৈষম্য (মিশ্র ডেটা, উভয় সংখ্যাসূচক এবং শ্রেণীগত ভেরিয়েবল সহ, এবং মাঝারি সমসংখ্যা)। উভয় ক্ষেত্রেই, রিগ্রেশন এবং বৈষম্যের মডেলগুলি বিকাশের জন্য কৃত্রিম নিউরাল নেটওয়ার্কগুলি নিযুক্ত করা হয়েছিল। ফলাফল মডেলের কর্মক্ষমতা একটি স্পষ্ট উন্নতি দেখায়; এইভাবে মাংস প্রোটিনের ভবিষ্যদ্বাণীর জন্য, মডেলটিকে বর্ধিত ডেটার সাথে ফিট করার ফলে 1.5 থেকে 3 বার সেট করা স্বাধীন পরীক্ষার জন্য গণনা করা রুট গড় বর্গক্ষেত্র ত্রুটি হ্রাস পায়।


কীওয়ার্ড : ডেটা অগমেন্টেশন, কৃত্রিম নিউরাল নেটওয়ার্ক, প্রক্রস্টেস ক্রস-ভ্যালিডেশন, প্রচ্ছন্ন ভেরিয়েবল, সমকোনতা

1 ভূমিকা

আধুনিক মেশিন লার্নিং পদ্ধতি যা উচ্চ জটিলতার মডেলের উপর নির্ভর করে, যেমন কৃত্রিম নিউরাল নেটওয়ার্ক (ANN), মডেলগুলিকে প্রশিক্ষণ এবং অপ্টিমাইজ করার জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন। অপর্যাপ্ত প্রশিক্ষণের ডেটা প্রায়শই ওভারফিটিং সমস্যার দিকে পরিচালিত করে, কারণ টিউন করার জন্য মডেল হাইপারপ্যারামিটারের সংখ্যা ডেটাসেটে স্বাধীনতার ডিগ্রির সংখ্যার চেয়ে অনেক বেশি।


এই ক্ষেত্রে আরেকটি সাধারণ সমস্যা হল প্রজননযোগ্যতার অভাব কারণ প্রাথমিক মডেলের পরামিতিগুলির এলোমেলো নির্বাচন এবং তাদের অপ্টিমাইজেশনের স্টোকাস্টিক প্রকৃতির প্রেক্ষিতে ANN প্রশিক্ষণ পদ্ধতিটি নির্ধারক নয়। ফলস্বরূপ, এটি কখনই একই পরামিতি এবং কর্মক্ষমতা সহ একটি মডেলের দিকে পরিচালিত করে না, কারণ বিভিন্ন প্রশিক্ষণ পরীক্ষার ফলে বিভিন্ন মডেল হতে পারে। প্রশিক্ষণ সেট খুব ছোট হলে এই পরিবর্তনশীলতা বড় হয়ে যায়।


পরীক্ষামূলক ডেটা ফিট করার ক্ষেত্রে এই সমস্যাটি বিশেষভাবে জরুরী, কারণ অনেক পরীক্ষামূলক ট্রায়াল চালানো প্রায়ই ব্যয়বহুল এবং সময়সাপেক্ষ, সঠিক প্রশিক্ষণ এবং অপ্টিমাইজেশনের জন্য প্রয়োজনীয় হাজার হাজার পরিমাপ সংগ্রহ করা সহজভাবে অসম্ভব। চিকিৎসা গবেষণায় অনুমতি সংক্রান্ত কাগজপত্রের মতো অন্যান্য বাধাও থাকতে পারে।


অপর্যাপ্ত প্রশিক্ষণ ডেটার সমস্যা কাটিয়ে ওঠার একটি উপায় হল নতুন ডেটা পয়েন্ট অনুকরণ করে বা বিদ্যমানগুলিকে ছোট পরিবর্তন করে এটিকে কৃত্রিমভাবে বৃদ্ধি করা। এই কৌশলটিকে প্রায়ই "ডেটা অগমেন্টেশন" হিসাবে উল্লেখ করা হয়। ডেটা অগমেন্টেশন ইমেজ বিশ্লেষণ এবং শ্রেণীবিভাগে বিশেষভাবে দক্ষ বলে প্রমাণিত হয়েছে, গবেষণার একটি বৃহৎ অংশ উভয় বহুমুখী বর্ধন পদ্ধতি [1] [2], [3] এবং নির্দিষ্ট ক্ষেত্রে বিশেষভাবে কার্যকরী পদ্ধতিগুলি রিপোর্ট করছে [4] [5] . টাইম সিরিজ ডেটার জন্য পরিবর্ধন পদ্ধতিগুলিও তুলনামূলকভাবে ভালভাবে বিকশিত হয়েছে [6]।


যাইহোক, এমন দক্ষ পদ্ধতির অভাব রয়েছে যা সাংখ্যিক ডেটাসেটের জন্য মাঝারি থেকে উচ্চ মাত্রার সমন্বিততার সাথে শালীন ডেটা বৃদ্ধি প্রদান করতে পারে। এই ধরনের ডেটাসেটগুলি পরীক্ষামূলক গবেষণায় বিস্তৃত, যার মধ্যে রয়েছে বিভিন্ন ধরনের স্পেকট্রোস্কোপিক ডেটা, জিনোম সিকোয়েন্সিংয়ের ফলাফল (যেমন, 16S RNA) এবং আরও অনেক কিছু। অনেক ট্যাবুলেড ডেটাসেট অভ্যন্তরীণ কাঠামোও প্রদর্শন করে যেখানে ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত। এই জাতীয় ডেটা বৃদ্ধির জন্য বর্তমানে উপলব্ধ পদ্ধতিগুলি বেশিরভাগই বিদ্যমান পরিমাপের সাথে বিভিন্ন ধরণের শব্দ [7] যোগ করার উপর নির্ভর করে, যা সর্বদা যথেষ্ট নয়। এছাড়াও প্রতিশ্রুতিশীল পদ্ধতি রয়েছে যেগুলি তাদের সুপ্ত পরিবর্তনশীল স্থান [8] থেকে র্যান্ডম নমুনা দ্বারা পরিবর্তনশীল অটোএনকোডারগুলিকে ব্যবহার করে, বা জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলির উপর ভিত্তি করে পদ্ধতিগুলি [4]। নেতিবাচক দিকগুলি হল যে উভয় পদ্ধতির জন্য ডেটা বৃদ্ধির জন্য একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক মডেল তৈরি এবং টিউন করা প্রয়োজন এবং তাই একটি পুঙ্খানুপুঙ্খ এবং সম্পদের চাহিদা অপ্টিমাইজেশন প্রক্রিয়া এবং একটি অপেক্ষাকৃত বড় প্রাথমিক প্রশিক্ষণ সেট প্রয়োজন।


এই কাগজে, আমরা সাংখ্যিক এবং মিশ্র সমরেখার ডেটাসেটগুলিকে বৃদ্ধি করার জন্য একটি সহজ, দ্রুত, বহুমুখী, তবুও দক্ষ পদ্ধতির প্রস্তাব করি। পদ্ধতিটি এমন একটি পদ্ধতির উপর ভিত্তি করে তৈরি করা হয়েছে যা প্রাথমিকভাবে অন্য উদ্দেশ্যে তৈরি করা হয়েছিল, বিশেষ করে বৈধতা সেট তৈরি করার জন্য, এবং তাই এটি প্রক্রস্টেস ক্রস-ভ্যালিডেশন [৯] [১০] নামে পরিচিত। যাইহোক, এই কাগজে প্রদর্শিত হিসাবে, এটি কার্যকরভাবে ডেটা বৃদ্ধি সমস্যা সমাধান করে, যার ফলে উল্লেখযোগ্যভাবে উন্নত ভবিষ্যদ্বাণী বা শ্রেণীবিভাগ কর্মক্ষমতা সহ মডেলগুলি তৈরি হয়।


আমাদের পদ্ধতিটি প্রজন্মের পদ্ধতিতে সরাসরি সমন্বিততা লাভ করে। এটি প্রচ্ছন্ন ভেরিয়েবলের একটি সেটের সাথে প্রশিক্ষণের ডেটা ফিট করে এবং তারপরে ভেরিয়েবলের অভিযোজনে বৈচিত্রগুলি পরিমাপ করতে ক্রস-ভ্যালিডেশন রিস্যাম্পলিং নিযুক্ত করে। এই বৈচিত্রটি স্যাম্পলিং ত্রুটি হিসাবে প্রশিক্ষণ সেটে প্রবর্তিত হয়, ফলে ডেটা পয়েন্টগুলির একটি নতুন সেট তৈরি হয়।


দুটি ফিটিং মডেল নিযুক্ত করা যেতে পারে — একক মান পচন (SVD) এবং আংশিক সর্বনিম্ন বর্গক্ষেত্র (PLS) পচন। ফিটিং মডেলের পছন্দ ব্যবহারকারীকে কোভেরিয়েন্স স্ট্রাকচারের একটি অংশকে অগ্রাধিকার দিতে দেয়, যা নতুন ডেটা তৈরির জন্য ব্যবহার করা হবে।


উভয় ফিটিং মডেলের দুটি পরামিতি রয়েছে — সুপ্ত ভেরিয়েবলের সংখ্যা এবং ক্রস-ভ্যালিডেশন রিস্যাম্পলিং এর জন্য ব্যবহৃত সেগমেন্টের সংখ্যা। পরীক্ষাগুলি দেখায় যে পরামিতিগুলির নির্দিষ্ট টিউনিংয়ের প্রয়োজন নেই। প্রশিক্ষণ সেট মানগুলির পদ্ধতিগত পরিবর্তনগুলি ক্যাপচার করার জন্য যথেষ্ট পরিমাণে প্রচ্ছন্ন ভেরিয়েবলের সংখ্যা সমানভাবে ভালভাবে কাজ করে। পাশাপাশি তিনটি থেকে শুরু করে যেকোন সংখ্যক সেগমেন্ট।


প্রস্তাবিত পদ্ধতিটি বহুমুখী এবং সম্পূর্ণ সাংখ্যিক ডেটার পাশাপাশি সারণীকৃত ডেটাতে প্রয়োগ করা যেতে পারে যেখানে এক বা একাধিক ভেরিয়েবল গুণগত। এটি আরেকটি দৃষ্টিভঙ্গি খোলে, যথা ডেটা মকিং, যা উপযোগী হতে পারে, যেমন, উচ্চ লোড সফ্টওয়্যার সিস্টেমের পরীক্ষার জন্য, যদিও আমরা এখানে এই দিকটি বিবেচনা করি না।


কাগজটি পদ্ধতির তাত্ত্বিক ভিত্তি বর্ণনা করে এবং বিভিন্ন প্রকৃতির দুটি ডেটাসেটের উপর ভিত্তি করে এর ব্যবহারিক প্রয়োগ এবং কর্মক্ষমতা চিত্রিত করে। বাস্তব-বিশ্বের পরিস্থিতিতে বিভিন্ন ডেটাসেটে কীভাবে পদ্ধতিটি কার্যকরভাবে প্রয়োগ করা যেতে পারে তার বিস্তৃত বিবরণ প্রদান করে।


আমরা পাইথন, আর, ম্যাটল্যাব এবং জাভাস্ক্রিপ্ট সহ বেশ কয়েকটি প্রোগ্রামিং ভাষায় পদ্ধতিটি প্রয়োগ করেছি এবং সমস্ত বাস্তবায়ন গিটহাব সংগ্রহস্থলে (https://github.com/svkucheryavski/pcv) অবাধে উপলব্ধ। উপরন্তু, আমরা একটি অনলাইন সংস্করণ সরবরাহ করি যেখানে কেউ সরাসরি ব্রাউজারে (https://mda.tools/pcv) নতুন ডেটা পয়েন্ট তৈরি করতে পারে।


এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Procrustes Technologies HackerNoon profile picture
Procrustes Technologies@procrustes
Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...