4,989 পড়া

ডিপ লার্নিং মডেল তৈরির জন্য 20টি সেরা পাইটর্চ ডেটাসেট

দ্বারা Open Datasets Compiled by HackerNoon10m2023/02/26

অতিদীর্ঘ; পড়তে

প্রশিক্ষণ এবং গভীর শিক্ষার মডেল তৈরির জন্য দুটি সর্বাধিক ব্যবহৃত ওপেন-সোর্স মেশিন লার্নিং ফ্রেমওয়ার্ক হল TensorFlow এবং PyTorch। এই ফ্রেমওয়ার্কগুলির বিল্ডিং এবং প্রশিক্ষণের মডেলগুলির ক্ষেত্রে তাদের পদ্ধতির অনন্য পার্থক্য রয়েছে। ফ্রেমওয়ার্কের পছন্দ ব্যবহারকারীর নির্দিষ্ট চাহিদা এবং পছন্দের উপর নির্ভর করে। এই নিবন্ধটি গভীর শিক্ষার মডেল তৈরির জন্য সেরা PyTorch ডেটাসেটগুলি দেখে।

People Mentioned

featured image - ডিপ লার্নিং মডেল তৈরির জন্য 20টি সেরা পাইটর্চ ডেটাসেট

‘pytorch superimposed images’ Image created by HackerNoon AI Image Generator

প্রশিক্ষণ এবং গভীর শিক্ষার মডেল তৈরির জন্য দুটি সর্বাধিক ব্যবহৃত ওপেন-সোর্স মেশিন লার্নিং ফ্রেমওয়ার্ক হল TensorFlow এবং PyTorch।

এই ফ্রেমওয়ার্কগুলির বিল্ডিং এবং প্রশিক্ষণের মডেলগুলির ক্ষেত্রে তাদের পদ্ধতির অনন্য পার্থক্য রয়েছে। যদিও টেনসরফ্লো একটি স্ট্যাটিক গ্রাফ এবং ঘোষণামূলক প্রোগ্রামিং ব্যবহার করে, যা আরও ভাল অপ্টিমাইজেশনের সুযোগ প্রদান করে এবং বিতরণ করা প্রশিক্ষণের অনুমতি দেয়, পাইটর্চ একটি গতিশীল গণনামূলক গ্রাফ এবং অপরিহার্য প্রোগ্রামিং ব্যবহার করে, যা আরও নমনীয় এবং সহজ ডিবাগিং প্রক্রিয়ার জন্য অনুমতি দেয়। ফ্রেমওয়ার্কের পছন্দ ব্যবহারকারীর নির্দিষ্ট চাহিদা এবং পছন্দের উপর নির্ভর করে।

এই নিবন্ধটি আজ উপলব্ধ ডিপ লার্নিং মডেল তৈরির জন্য সেরা PyTorch ডেটাসেটগুলি দেখে।

ওপেন পাইটর্চ ডেটাসেটের চূড়ান্ত তালিকা

1. পেন ট্রিব্যাঙ্ক

পেন ট্রিব্যাঙ্ক হল টীকাযুক্ত ইংরেজি পাঠ্যের একটি সংগ্রহ, যা প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) গবেষণা সম্প্রদায়ে ব্যাপকভাবে অধ্যয়ন করা হয়। এতে ম্যাগাজিন, সংবাদ নিবন্ধ এবং কাল্পনিক গল্পের মতো বিভিন্ন ঘরানার পাঠ্যের 4.5 মিলিয়নেরও বেশি শব্দ রয়েছে। ডেটাসেটে নামের এনটাইটেল, স্পিচ ট্যাগ এবং সিনট্যাকটিক স্ট্রাকচারের অংশ সম্পর্কে ম্যানুয়ালি টীকা করা তথ্য রয়েছে, ভাষা মডেল, পার্সার এবং মেশিন অনুবাদ সিস্টেম সহ NLP মডেলের বিস্তৃত পরিসরকে প্রশিক্ষণ ও মূল্যায়ন করতে ব্যবহৃত হয়।

এই ডেটাসেট ডাউনলোড করতে, ক্লিক করুন এখানে

2. স্ট্যানফোর্ড প্রশ্ন উত্তর ডেটাসেট (SQuAD)

স্কোয়াড (স্ট্যানফোর্ড প্রশ্ন উত্তরকারী ডেটাসেট) হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) একটি জনপ্রিয় বেঞ্চমার্ক ডেটাসেট যা উইকিপিডিয়া নিবন্ধগুলির একটি সেট থেকে নেওয়া 100,000-এরও বেশি প্রশ্ন-উত্তর জোড়া নিয়ে গঠিত। এটি PyTorch বা অন্যান্য গভীর শিক্ষার কাঠামো ব্যবহার করে নির্মিত বিভিন্ন NLP মডেলের কর্মক্ষমতা মূল্যায়ন করতে ব্যবহৃত হয়। উত্তর স্প্যানগুলির গড় দৈর্ঘ্য 3.6 শব্দ, এবং সংশ্লিষ্ট প্যাসেজে গড়ে 11.0 শব্দ রয়েছে।

এখানে স্কোয়াড সম্পর্কে কিছু অতিরিক্ত বিবরণ রয়েছে:

স্কোয়াড 1.0 - এতে ইংরেজি উইকিপিডিয়া থেকে 536টি নিবন্ধে 100,000+ প্রশ্ন-উত্তর জোড়া রয়েছে।

স্কোয়াড 2.0 - এটিতে 100,000+ উইকিপিডিয়া নিবন্ধে 150,000+ প্রশ্ন-উত্তর জোড়া রয়েছে, যার উত্তর দেওয়া থেকে বিরত থাকার মডেলের ক্ষমতা পরীক্ষা করার জন্য অতিরিক্ত অনুপযুক্ত প্রশ্ন রয়েছে।

ডেটাসেটের লক্ষ্য হল একটি প্রদত্ত পাঠ্য উত্তরণ সম্পর্কে প্রশ্নের উত্তর দেওয়ার জন্য মেশিন লার্নিং মডেলগুলির জন্য একটি চ্যালেঞ্জিং কাজ প্রদান করা। ডাউনলোড করতে এখানে ক্লিক করুন সর্বশেষ সংস্করণ (Squad 2.0) .

3. ফুসফুসের ইমেজ ডাটাবেস কনসোর্টিয়াম এবং ইমেজ ডাটাবেস রিসোর্স ইনিশিয়েটিভ (LIDC-IDRI)

এই PyTorch ডেটাসেট হল বুকের গণনা করা টমোগ্রাফি চিত্রগুলির একটি পাবলিক ডেটাসেট যা একাধিক রেডিওলজিস্ট দ্বারা ফুসফুসের নডিউলগুলির জন্য টীকা করা হয়েছে৷ এটি বিভিন্ন প্রতিষ্ঠান থেকে সংগৃহীত 1,018টি সিটি স্ক্যান নিয়ে গঠিত এবং এতে 23,000টিরও বেশি টীকাযুক্ত নডিউল রয়েছে।

ডেটাসেটের প্রতিটি স্ক্যানের সাথে চারজন অভিজ্ঞ রেডিওলজিস্টের টীকা থাকে যা আকৃতি, আকার, নডিউলের অবস্থান এবং টেক্সচার সম্পর্কিত তথ্য প্রদান করে। ফুসফুসের ক্যান্সারের স্ক্রীনিং এবং নির্ণয়ের জন্য কম্পিউটার-এইডেড ডায়াগনসিস (CAD) সিস্টেমের উন্নয়নে গবেষণাকে সমর্থন করার জন্য ডেটাসেট তৈরি করা হয়েছিল।

দ্রষ্টব্য: ডেটাসেটটি সর্বজনীনভাবে উপলব্ধ তবে নির্দিষ্ট বিধিনিষেধ এবং ব্যবহারের জন্য প্রয়োজনীয়তা সাপেক্ষে৷

ক্লিক এখানে ডাউনলোড করতে.

4. ফ্যাশন-MNIST

PyTorch Fashion MNIST ডেটাসেট মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল এবং এটি একটি PyTorch-সামঞ্জস্যপূর্ণ ফর্ম্যাটে উপলব্ধ। PyTorch Fashion MNIST ডেটাসেটে 60,000 প্রশিক্ষণের ছবি এবং 10,000 পরীক্ষার ছবি সহ পোশাকের আইটেমগুলির 70,000টি গ্রেস্কেল চিত্র রয়েছে।

চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷

ডেটাসেট ডাউনলোড করা যাবে এখানে .

5. ইয়েলপ রিভিউ

Yelp পর্যালোচনা ডেটাসেট হল মার্কিন যুক্তরাষ্ট্রের 11টি মেট্রোপলিটন এলাকা থেকে স্থানীয় ব্যবসার 5 মিলিয়নেরও বেশি পর্যালোচনার একটি বিস্তৃত সংগ্রহ। ডেটাসেটের প্রতিটি পর্যালোচনাতে তারকা রেটিং, ব্যবসার বিভাগ, পর্যালোচনা পাঠ্য, তারিখ এবং অবস্থানের মতো তথ্য থাকে। এটি PyTorch এর সাথে গভীর শিক্ষার মডেল তৈরি করতে আগ্রহী একটি মূল্যবান সম্পদ।

অনুগ্রহ করে সাইন আপ করুন এবং ডেটাসেট ডাউনলোড করতে এখানে ক্লিক করুন।

6. স্ট্যানফোর্ড কুকুর

এই PyTorch ডেটাসেটে 120টি বিভিন্ন প্রজাতির কুকুরের 20,580টি উচ্চ-মানের চিত্রের একটি সংগ্রহ রয়েছে, প্রতিটি ছবিতে কুকুরের জাত সম্পর্কে তথ্য সহ লেবেলযুক্ত। এটি ইমেজ শ্রেণীবিভাগ এবং বস্তুর স্বীকৃতির জন্য ব্যবহার করা যেতে পারে। JPEG ফরম্যাটে প্রদত্ত ডেটাসেট এবং একটি টেক্সট ফাইলে টীকা দিয়ে, ছবিগুলি 224x224 পিক্সেল আকারের। ডেটাসেটের জাতগুলি সাধারণ জাত যেমন গোল্ডেন রিট্রিভারস এবং ল্যাব্রাডর থেকে শুরু করে অটারহাউন্ড এবং সাসেক্স স্প্যানিয়েলের মতো আরও অস্পষ্ট জাত পর্যন্ত।

আপনি ডাউনলোড করতে পারেন ডেটাসেট এখানে.

7. ক্যালটেক 101

যদিও প্রতি বিভাগে সীমিত সংখ্যক চিত্র একটি চ্যালেঞ্জ হতে পারে, বিস্তারিত টীকাগুলি পাইটর্চ ক্যালটেক 101 ডেটাসেটকে গভীর শিক্ষার মডেলগুলি মূল্যায়নের জন্য একটি মূল্যবান সংস্থান করে তোলে। ডেটাসেট হল একটি লেবেলযুক্ত কম্পিউটার ভিশন ডেটাসেট যেখানে 101টি বিভাগে 9,144টি উচ্চ-মানের ছবি রয়েছে৷ এটি বস্তুর বিভাগগুলির বিস্তৃত পরিসরও কভার করে এবং ছবিগুলি বিভিন্ন উত্স থেকে প্রাপ্ত করা হয়েছিল। প্রতিটি ছবিকে অবজেক্ট এবং ইমেজের ক্যাটাগরি দিয়ে লেবেল করা হয়, যা বিভিন্ন ডিপ লার্নিং ফ্রেমওয়ার্কের সাথে ব্যবহার করা সহজ করে তোলে।

এখানে ক্লিক করুন ডাউনলোড .

8. STS-B (অর্থাৎ টেক্সচুয়াল সিমিলারিটি বেঞ্চমার্ক)

STS-B (Semantic Textual Similarity Benchmark) ডেটাসেট হল একটি ইংরেজি ডেটাসেট যা 2012 এবং 2017-এর মধ্যে SemEval-এর প্রেক্ষাপটে সংগঠিত STS কার্যগুলিতে ব্যবহৃত হয়৷ এটি 1 থেকে 5 স্কেলে মানুষের দ্বারা নির্ধারিত সাদৃশ্য স্কোর সহ 8628 বাক্য জোড়া নিয়ে গঠিত৷ বিভিন্ন উৎস থেকে প্রাপ্ত, যেমন সংবাদ নিবন্ধ, ফোরাম পোস্ট, ক্যাপশন সহ ছবি এবং বিস্তৃত বিষয় কভার করে, এটি একটি জনপ্রিয় ডেটাসেট যা PyTorch-এর সাথে দুটি বাক্যের মধ্যে শব্দার্থগত সাদৃশ্য নির্ধারণে মডেলের কর্মক্ষমতা মূল্যায়নের জন্য ব্যবহৃত হয়। STS-B ডেটাসেটটি PyTorch-সামঞ্জস্যপূর্ণ ফর্ম্যাট সহ একাধিক ফর্ম্যাটে উপলব্ধ, কারণ PyTorch হল এই ডেটাসেটে মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি গভীর-শিক্ষার কাঠামো৷

\এই ডেটাসেট ডাউনলোড করতে, ক্লিক করুন এখানে .

9. WMT'14 ইংরেজি-জার্মান

এই PyTorch ডেটাসেটটি 2015 সালে স্ট্যানফোর্ড দ্বারা তৈরি ইংরেজি এবং জার্মানের মধ্যে মেশিন অনুবাদের জন্য একটি বেঞ্চমার্ক ডেটাসেট৷ এতে ইংরেজি এবং জার্মান উভয় ভাষায় বাক্য-সংযুক্ত পাঠ্যের সমান্তরাল কর্পোরা রয়েছে, যা গভীর শিক্ষার মডেলগুলি তৈরি এবং মূল্যায়ন করতে ব্যবহৃত হয়৷ যদিও পরীক্ষার সেটে প্রতিটিতে 3,000 বাক্য জোড়া থাকে, প্রশিক্ষণ সেটে প্রায় 4.5 মিলিয়ন বাক্য জোড়া থাকে এবং গড় বাক্যের দৈর্ঘ্য ইংরেজিতে 26 শব্দ এবং জার্মান ভাষায় 30 শব্দ, ইংরেজির জন্য প্রায় 160,000 শব্দ এবং 220,000 শব্দের শব্দভাণ্ডার রয়েছে জার্মান।

আপনি নিচে স্ক্রোল করে ডাউনলোড করতে পারেন এখানে .

10. সেলিবা

এই ডেটাসেটটি একটি জনপ্রিয় বৃহৎ-স্কেল ফেস অ্যাট্রিবিউট ডেটাসেট যা 200,000 টিরও বেশি সেলিব্রিটির ছবি নিয়ে গঠিত৷ এটি 2015 সালে চাইনিজ ইউনিভার্সিটি অফ হংকং-এর গবেষকরা প্রথম প্রকাশ করেছিলেন৷ CelebA-এর একটি ছবিতে বয়স, চুলের রঙ, মুখের অভিব্যক্তি এবং লিঙ্গের মতো 40টি মুখের বৈশিষ্ট্য রয়েছে৷ এছাড়াও, এই ছবিগুলি ইন্টারনেট থেকে পুনরুদ্ধার করা হয়েছে এবং বিভিন্ন জাতি, বয়স এবং লিঙ্গ সহ মুখের চেহারাগুলির একটি বিস্তৃত পরিসর কভার করেছে৷ প্রতিটি ছবিতে মুখের অবস্থানের জন্য বাউন্ডিং বক্সের টীকা, সেইসাথে চোখ, নাক এবং মুখের জন্য 5টি ল্যান্ডমার্ক পয়েন্ট।

দ্রষ্টব্য: CelebA ডেটাসেট ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-অবাণিজ্যিক-শেয়ার-এর লাইসেন্সের অধীনে রয়েছে, যা যথাযথ ক্রেডিট দেওয়া পর্যন্ত এটিকে অ-বাণিজ্যিক গবেষণার উদ্দেশ্যে ব্যবহার করার অনুমতি দেয়।

PyTorch-এ CelebA ডেটাসেট ব্যবহার করতে, আপনি torchvision.datasets.CelebA ক্লাস ব্যবহার করতে পারেন, যা torchvision মডিউলের অংশ। আপনি থেকে ডেটাসেট ডাউনলোড করতে পারেন ওয়েবসাইট বা এখানে .

11. UCF101

UFC101 ডেটাসেট কম্পিউটার ভিশনের ক্ষেত্রে ভিডিও শ্রেণীবিভাগের জন্য ব্যাপকভাবে ব্যবহৃত হয়। এটিতে 101টি অ্যাকশন বিভাগ থেকে মানুষের ক্রিয়াকলাপের 13,230টি ভিডিও রয়েছে, প্রতিটিতে প্রায় 100 থেকে 300টি ভিডিও রয়েছে। PyTorch UCF101 ডেটাসেট হল মূল UCF101-এর একটি পূর্ব-প্রসেস করা সংস্করণ যা PyTorch-এ ব্যবহারের জন্য প্রস্তুত৷ প্রি-প্রসেসড ডেটাসেটে এমন ভিডিও ফ্রেম রয়েছে যা প্রতিটি ভিডিওর জন্য সংশ্লিষ্ট লেবেল সহ স্বাভাবিককরণ এবং পুনরায় আকার দেওয়া হয়েছে। এটি তিনটি সেটে বিভক্ত: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা, যথাক্রমে প্রায় 9,500, 3,500 এবং 3,000 ভিডিও সহ।

ডেটাসেট ডাউনলোড করতে ক্লিক করুন এখানে .

12. HMDB51

HMDB51 ডেটাসেট হল মুভি, টিভি শো এবং অনলাইন ভিডিও সহ বিভিন্ন উত্স থেকে সংগৃহীত ভিডিওগুলির একটি সংগ্রহ, যেখানে 51টি অ্যাকশন ক্লাস রয়েছে, প্রতিটিতে কমপক্ষে 101টি ভিডিও ক্লিপ রয়েছে৷ এটি 2011 সালে সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়ের গবেষকরা মানুষের ক্রিয়া স্বীকৃতিতে গবেষণার জন্য তৈরি করেছিলেন। ভিডিওগুলি AVI ফরম্যাটে রয়েছে এবং প্রতিটি ভিডিওর জন্য গ্রাউন্ড-ট্রুথ টীকা সহ 320x240 পিক্সেলের রেজোলিউশন রয়েছে, অ্যাকশন ক্লাস লেবেল এবং ভিডিওর মধ্যে অ্যাকশনের শুরু এবং শেষ ফ্রেম সহ। ডেটাসেটের প্রতিটি ভিডিও একটি স্ট্যাটিক ক্যামেরার সামনে একটি ক্রিয়া সম্পাদনকারী ব্যক্তিকে উপস্থাপন করে। ক্রিয়াগুলির মধ্যে প্রতিদিন বিস্তৃত ক্রিয়াকলাপ অন্তর্ভুক্ত থাকে, যেমন লাফানো, দোলা দেওয়া, মদ্যপান করা এবং দাঁত ব্রাশ করা, সেইসাথে গিটার বাজানো এবং ঘোড়ায় চড়ার মতো জটিল ক্রিয়াকলাপ।

দ্রষ্টব্য: এটি এর সাথে একযোগে ব্যবহৃত হয় UCF101 ডেটাসেট, যেটিতে প্রচুর সংখ্যক অ্যাকশন ক্লাস রয়েছে কিন্তু প্রতি ক্লাসে কম ভিডিও রয়েছে।

আপনি ডেটাসেট ডাউনলোড করতে পারেন এখানে .

13. ActivityNet

ActivityNet হল একটি বৃহৎ-স্কেল ভিডিও বোঝার ডেটাসেট যা রান্না, খেলাধুলা, নাচ ইত্যাদির মতো বিভিন্ন বিভাগের 20,000টিরও বেশি ভিডিও নিয়ে গঠিত৷ ভিডিওগুলির দৈর্ঘ্য 3 মিনিটের এবং গড়ে 1.41টি কার্যকলাপের অংশগুলির সাথে টীকা করা হয়৷ এটি পাইটর্চে উপলব্ধ, যা গভীর শিক্ষার কাঠামোতে ব্যবহার করা সহজ। PyTorch সংস্করণটি RGB ফ্রেম এবং প্রতিটি ভিডিওর অপটিক্যাল ফ্লো ক্ষেত্র থেকে নিষ্কাশিত প্রাক-প্রসেসড বৈশিষ্ট্যের পাশাপাশি টেম্পোরাল সেগমেন্ট এবং কার্যকলাপের লেবেলগুলির জন্য গ্রাউন্ড ট্রুথ টীকা প্রদান করে।

আপনি ডেটাসেট ডাউনলোড করতে পারেন এখানে .

14. VOC ডেটাসেট (ভিজ্যুয়াল অবজেক্ট ক্লাস)

ভিওসি ডেটাসেট (ভিজ্যুয়াল অবজেক্ট ক্লাস) 2005 সালে PASCAL VOC চ্যালেঞ্জের অংশ হিসাবে প্রথম চালু করা হয়েছিল, যার লক্ষ্য ছিল ভিজ্যুয়াল স্বীকৃতিতে শিল্পের অবস্থাকে এগিয়ে নেওয়া। এটিতে প্রাণী, যানবাহন এবং সাধারণ গৃহস্থালী সামগ্রী সহ 20টি বিভিন্ন অবজেক্ট বিভাগের ছবি রয়েছে। এই চিত্রগুলির প্রত্যেকটি চিত্রের মধ্যে থাকা বস্তুর অবস্থান এবং শ্রেণীবিভাগের সাথে টীকাযুক্ত। টীকাগুলির মধ্যে বাউন্ডিং বাক্স এবং পিক্সেল-স্তরের বিভাজন মাস্ক উভয়ই অন্তর্ভুক্ত। ডেটাসেট দুটি প্রধান সেটে বিভক্ত: প্রশিক্ষণ এবং বৈধতা সেট। প্রশিক্ষণ সেটটিতে টীকা সহ প্রায় 5,000টি চিত্র রয়েছে, যখন বৈধকরণ সেটটিতে টীকা ছাড়াই প্রায় 5,000টি চিত্র রয়েছে৷ এছাড়াও, ডেটাসেটে আনুমানিক 10,000 ইমেজ সহ একটি পরীক্ষা সেটও রয়েছে, কিন্তু এই সেটের জন্য টীকাগুলি সর্বজনীনভাবে উপলব্ধ নয়৷

সাম্প্রতিক ডেটাসেট ডাউনলোড করতে, আপনি এটি থেকে ডাউনলোড করতে পারেন ওয়েবসাইট , এটিকে আমাদের ডিপ লেক ওপেন সোর্সের মাধ্যমে পাইথনে লোড করুন মাত্র এক লাইন কোড সহ, অথবা এটি থেকে ডাউনলোড করুন কাগল .

15. YCB-ভিডিও

এই ডেটাসেটটি 3D অবজেক্ট মডেল এবং ভিডিও সিকোয়েন্সের একটি সংগ্রহ যা অবজেক্ট শনাক্তকরণ এবং পোজ অনুমান কার্যের জন্য ডিজাইন করা হয়েছে। এটিতে 21টি দৈনন্দিন গৃহস্থালীর আইটেম রয়েছে, প্রতিটি বস্তু বিভিন্ন আলোর অবস্থা এবং ক্যামেরার দৃষ্টিকোণে ধারণ করা হয়েছে। ডেটাসেটটি পিক্সেল-স্তরের গ্রাউন্ড ট্রুথ টীকা প্রদান করে এবং সাধারণত কম্পিউটার ভিশন অ্যালগরিদম এবং রোবোটিক সিস্টেমের মূল্যায়নের জন্য ব্যবহৃত হয়।

ডাউনলোড করতে এখানে ক্লিক করুন ডেটাসেট .

16. KITTI

KITTI ডেটাসেট হল স্বায়ত্তশাসিত ড্রাইভিং গবেষণার জন্য কম্পিউটার ভিশন ডেটার একটি সংগ্রহ৷ এতে 4000টিরও বেশি উচ্চ-রেজোলিউশনের ছবি, LIDAR পয়েন্ট ক্লাউড এবং বিভিন্ন সেন্সর দিয়ে সজ্জিত একটি গাড়ির সেন্সর ডেটা অন্তর্ভুক্ত রয়েছে। ডেটাসেট বস্তুর সনাক্তকরণ, ট্র্যাকিং এবং বিভাজন, সেইসাথে গভীরতার মানচিত্র এবং ক্রমাঙ্কন পরামিতিগুলির জন্য টীকা প্রদান করে। KITTI ডেটাসেটটি স্বায়ত্তশাসিত ড্রাইভিং এবং রোবোটিক্সের জন্য গভীর শিক্ষার মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যাপকভাবে ব্যবহৃত হয়।

সাম্প্রতিক ডেটাসেট ডাউনলোড করতে, আপনি এটি থেকে ডাউনলোড করতে পারেন ওয়েবসাইট , গিটহাব অথবা এটা থেকে ডাউনলোড কাগল .

17. BraTS

ব্র্যাটস পাইটর্চ ডেটাসেট হল ম্যাগনেটিক রেজোন্যান্স ইমেজিং (MRI) স্ক্যানের একটি সংগ্রহ যা ব্রেন টিউমার সেগমেন্টেশনের জন্য। এটিতে 200 টিরও বেশি উচ্চ-রেজোলিউশন 3D মস্তিষ্কের ছবি রয়েছে, প্রতিটিতে চারটি পদ্ধতি (T1, T1c, T2 এবং FLAIR) এবং সংশ্লিষ্ট বাইনারি সেগমেন্টেশন মাস্ক রয়েছে। ডেটাসেটটি সাধারণত স্বয়ংক্রিয় মস্তিষ্কের টিউমার সনাক্তকরণ এবং বিভাজনের জন্য গভীর শিক্ষার মডেল প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যবহৃত হয়।

আপনি ক্লিক করে Kaggle এই ডেটাসেট ডাউনলোড করতে পারেন এখানে .

18. মাল্টি-হিউম্যান পার্সিং

মাল্টি-হিউম্যান পার্সিং PyTorch ডেটাসেট হল একটি বৃহৎ-স্কেল মানব ইমেজ ডেটাসেট যা মানুষের অংশ পার্স করার জন্য পিক্সেল-স্তরের টীকা সহ। এটিতে মানুষের 26,000 টিরও বেশি চিত্র রয়েছে, প্রতিটি 18টি মানব অংশ লেবেলে বিভক্ত। ডেটাসেটটি মানুষের ভঙ্গি অনুমান, বিভাজন এবং ক্রিয়া স্বীকৃতির জন্য গভীর শিক্ষার মডেলগুলি প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যবহৃত হয়।

ডেটাসেট ডাউনলোড করতে ক্লিক করুন এখানে .

19. চ্যারেডস

এই ডেটাসেটটি অ্যাকশন শনাক্তকরণ এবং স্থানীয়করণের জন্য একটি বড় মাপের ভিডিও ডেটাসেট। এটিতে প্রতিদিনের ক্রিয়াকলাপগুলির 9,800 টিরও বেশি ভিডিও রয়েছে, যেমন রান্না করা, পরিষ্কার করা এবং সামাজিকীকরণ, প্রতি ভিডিওর গড় দৈর্ঘ্য 30 সেকেন্ড। ডেটাসেট প্রতিটি ভিডিওর জন্য বিশদ টীকা প্রদান করে, যার মধ্যে অ্যাকশন এবং পারমাণবিক ভিজ্যুয়াল ধারণাগুলির জন্য অস্থায়ী সীমানা রয়েছে, এটিকে প্রশিক্ষণের জন্য উপযুক্ত করে তোলে এবং ক্রিয়া শনাক্তকরণ, সনাক্তকরণ এবং বিভাজন করার জন্য গভীর শিক্ষার মডেলগুলিকে মূল্যায়ন করে৷

Charades PyTorch ডেটাসেট কম্পিউটার ভিশন রিসার্চ কমিউনিটিতে ব্যাপকভাবে ব্যবহৃত হয় এবং অবাধে পাওয়া যায় ডাউনলোড আর ব্যবহার করুন.

20. টিইউ বার্লিন

এই ডেটাসেটটি উচ্চ-রেজোলিউশনের চিত্রগুলির একটি সমৃদ্ধ সংগ্রহ এবং বস্তু সনাক্তকরণ এবং ভঙ্গি অনুমানের জন্য 3D অবজেক্ট পোজ। এটিতে 2D এবং 3D ভঙ্গিগুলির জন্য টীকা সহ 60টি অবজেক্ট বিভাগের 11,000টিরও বেশি চিত্র রয়েছে। এর বৃহৎ আকার এবং বৈচিত্র্যময় অবজেক্ট ক্যাটাগরি সহ, টিইউ বার্লিন পাইটর্চ ডেটাসেট দৃঢ় এবং নির্ভুল বস্তু সনাক্তকরণ এবং পোজ অনুমান মডেলগুলি বিকাশের জন্য একটি দুর্দান্ত টেস্টবেড সরবরাহ করে।

আপনি ক্লিক করে ওয়েবসাইট থেকে সরাসরি ডেটাসেট পেতে পারেন এখানে .

PyTorch ডেটাসেটের জন্য সাধারণ ব্যবহারের ক্ষেত্রে

স্বাভাবিক ভাষা প্রক্রিয়াকরণ

কম্পিউটার ভিশন

মেডিকেল ইমেজ বিশ্লেষণ

মানুষের কার্যকলাপ স্বীকৃতি

সর্বশেষ ভাবনা

PyTorch গবেষণা এবং পরীক্ষা-নিরীক্ষার জন্য উপযোগী, যেখানে ফোকাস প্রায়ই গভীর শিক্ষার মডেল তৈরি করা এবং নতুন পদ্ধতির অন্বেষণ করা হয়। উপরন্তু, PyTorch বাস্তুতন্ত্রে অবদানকারী বিকাশকারী এবং গবেষকদের একটি ক্রমবর্ধমান সম্প্রদায়ের সাথে একটি গবেষণা-কেন্দ্রিক কাঠামো হিসাবে একটি খ্যাতি অর্জন করেছে।

এই ডেটাসেটগুলির একাধিক ক্ষেত্রে অ্যাপ্লিকেশন রয়েছে এবং যে কেউ বিনামূল্যে ডাউনলোড এবং ব্যবহার করার জন্যও উপলব্ধ৷

এই নিবন্ধটির প্রধান চিত্রটি হ্যাকারনুন-এর এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে তৈরি করা হয়েছে প্রম্পট 'PyTorch superimposed images' ব্যবহার করে।

L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon@datasets

A library of open datasets for data analytics/machine learning compiled by HackerNoon.

Read my stories

আসে ট্যাগ

data-science #datasets #machine-learning #python #pytorch #ai #data-science #pytorch-python #hackernoon-top-story

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Arweave

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

ডিপ লার্নিং মডেল তৈরির জন্য 20টি সেরা পাইটর্চ ডেটাসেট