ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন বা
"Sklearn Datasets" কি?
স্কলার্ন ডেটাসেটগুলি স্কিট-লার্নের অংশ হিসাবে অন্তর্ভুক্ত করা হয়েছে (
একটি নির্দিষ্ট ডেটাসেট ব্যবহার করতে, আপনি কেবল sklearn.datasets মডিউল থেকে এটি আমদানি করতে পারেন এবং আপনার প্রোগ্রামে ডেটা লোড করার জন্য উপযুক্ত ফাংশনটি কল করতে পারেন।
এই ডেটাসেটগুলি সাধারণত প্রাক-প্রক্রিয়াজাত এবং ব্যবহারের জন্য প্রস্তুত, যা ডেটা অনুশীলনকারীদের জন্য সময় এবং শ্রম বাঁচায় যাদের বিভিন্ন মেশিন লার্নিং মডেল এবং অ্যালগরিদম নিয়ে পরীক্ষা করতে হবে।
Sklearn লাইব্রেরিতে ডেটাসেটের সম্পূর্ণ তালিকা
- আইরিস
- ডায়াবেটিস
- অঙ্ক
- লিনারুড
- মদ
- স্তন ক্যান্সার উইসকনসিন
- বোস্টন হাউজিং
- অলিভেটি ফেস
- ক্যালিফোর্নিয়া হাউজিং
- MNIST
- ফ্যাশন-MNIST
- make_classification
- make_regression
- make_blobs
- make_moons এবং make_circles
- তৈরি_স্পার্স_কোডেড_সিগন্যাল
প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট
1. আইরিস
এই ডেটাসেটে সেপালের দৈর্ঘ্য, সেপালের প্রস্থ, পাপড়ির দৈর্ঘ্য এবং 150টি আইরিস ফুলের পাপড়ির প্রস্থের পরিমাপ রয়েছে, যা 3টি ভিন্ন প্রজাতির অন্তর্ভুক্ত: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা। আইরিস ডেটাসেটে 150টি সারি এবং 5টি কলাম রয়েছে, যা প্রতিটি ফুলের প্রজাতির জন্য একটি কলাম সহ ডেটাফ্রেম হিসাবে সংরক্ষণ করা হয়।
ভেরিয়েবলগুলির মধ্যে রয়েছে:
- Sepal.Length - sepal.length সেপালের দৈর্ঘ্যকে সেন্টিমিটারে উপস্থাপন করে।
- Sepal.Width - sepal.width সেপালের প্রস্থকে সেন্টিমিটারে উপস্থাপন করে।
- Petal.Length - পাপড়ির দৈর্ঘ্য সেন্টিমিটারে পাপড়ির দৈর্ঘ্যকে প্রতিনিধিত্ব করে।
- প্রজাতি - প্রজাতির পরিবর্তনশীল তিনটি সম্ভাব্য মান সহ আইরিস ফুলের প্রজাতিকে প্রতিনিধিত্ব করে: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা।
আপনি sklearn.datasets মডিউল থেকে load_iris ফাংশন ব্যবহার করে সরাসরি sklearn থেকে iris ডেটাসেট লোড করতে পারেন।
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
sklearn ব্যবহার করে আইরিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
2. ডায়াবেটিস
এই স্কলারন ডেটাসেটে ডেমোগ্রাফিক এবং ক্লিনিকাল পরিমাপ সহ 442 জন ডায়াবেটিস রোগীর তথ্য রয়েছে:
- বয়স
- সেক্স
- বডি মাস ইনডেক্স (BMI)
- গড় রক্তচাপ
- ছয়টি রক্তের সিরাম পরিমাপ (যেমন মোট কোলেস্টেরল, কম ঘনত্বের লাইপোপ্রোটিন (এলডিএল) কোলেস্টেরল, উচ্চ ঘনত্বের লিপোপ্রোটিন (এইচডিএল) কোলেস্টেরল)।
- ডায়াবেটিস রোগের অগ্রগতির একটি পরিমাণগত পরিমাপ (HbA1c)।
sklearn.datasets মডিউল থেকে load_diabetes() ফাংশন ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
sklearn ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
3. অঙ্ক
এই sklearn ডেটাসেট হল 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের একটি সংগ্রহ, যা গ্রেস্কেল ছবি হিসেবে সংরক্ষিত। এটিতে মোট 1797টি নমুনা রয়েছে, প্রতিটি নমুনার সাথে একটি 2D আকারের অ্যারে (8,8)। ডিজিট স্ক্লিয়ার ডেটাসেটে 64টি ভেরিয়েবল (বা বৈশিষ্ট্য) রয়েছে, প্রতিটি অঙ্কের চিত্রের 64 পিক্সেলের সাথে সম্পর্কিত।
sklearn.datasets মডিউল থেকে load_digits() ফাংশন ব্যবহার করে অঙ্ক ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
sklearn ব্যবহার করে ডিজিট ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
4. লিনারুড
লিনারুড ডেটাসেটে 20 জন পেশাদার ক্রীড়াবিদদের শারীরিক এবং শারীরবৃত্তীয় পরিমাপ রয়েছে।
ডেটাসেটে নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:
- তিনটি শারীরিক ব্যায়ামের ভেরিয়েবল - চিন-আপ, সিট-আপ এবং জাম্পিং জ্যাক।
- তিনটি শারীরবৃত্তীয় পরিমাপের ভেরিয়েবল - নাড়ি, সিস্টোলিক রক্তচাপ এবং ডায়াস্টোলিক রক্তচাপ।
sklearn ব্যবহার করে পাইথনে Linnerud ডেটাসেট লোড করতে:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
sklearn ব্যবহার করে linnerud ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
5. মদ
এই স্কলারন ডেটাসেটে ইতালির একটি নির্দিষ্ট এলাকায় জন্মানো ওয়াইনগুলির রাসায়নিক বিশ্লেষণের ফলাফল রয়েছে, ওয়াইনগুলিকে তাদের সঠিক জাতের মধ্যে শ্রেণীবদ্ধ করতে।
ডেটাসেটের কিছু ভেরিয়েবল:
- মদ
- Malic অ্যাসিড
- ছাই
- ছাই এর ক্ষারত্ব
- ম্যাগনেসিয়াম
- মোট ফেনোলস
- ফ্ল্যাভানয়েডস
sklearn.datasets মডিউল থেকে load_wine() ফাংশন ব্যবহার করে ওয়াইন ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
sklearn ব্যবহার করে ওয়াইন কোয়ালিটি ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
6. স্তন ক্যান্সার উইসকনসিন ডেটাসেট
এই স্কলারন ডেটাসেটটি স্তন ক্যান্সারের টিউমার সম্পর্কে তথ্য নিয়ে গঠিত এবং এটি প্রাথমিকভাবে ড. উইলিয়াম এইচ. ওলবার্গ তৈরি করেছিলেন। ডেটাসেটটি গবেষক এবং মেশিন লার্নিং অনুশীলনকারীদের টিউমারগুলিকে ম্যালিগন্যান্ট (ক্যান্সারযুক্ত) বা সৌম্য (অ-ক্যান্সার) হিসাবে শ্রেণীবদ্ধ করতে সহায়তা করার জন্য তৈরি করা হয়েছিল।
এই ডেটাসেটে অন্তর্ভুক্ত কিছু ভেরিয়েবল:
- আইডি নাম্বার
- রোগ নির্ণয় (M = ম্যালিগন্যান্ট, B = সৌম্য)।
- ব্যাসার্ধ (কেন্দ্র থেকে ঘেরের বিন্দু পর্যন্ত দূরত্বের গড়)।
- টেক্সচার (ধূসর-স্কেল মানগুলির আদর্শ বিচ্যুতি)।
- পরিধি
- এলাকা
- মসৃণতা (ব্যাসার্ধের দৈর্ঘ্যের স্থানীয় পরিবর্তন)।
- কম্প্যাক্টনেস (ঘের^2 / এলাকা - 1.0)।
- অবতলতা (কনট্যুরের অবতল অংশের তীব্রতা)।
- অবতল বিন্দু (কনট্যুরের অবতল অংশের সংখ্যা)।
- প্রতিসাম্য
- ফ্র্যাক্টাল ডাইমেনশন ("কোস্টলাইন অ্যাপ্রোক্সিমেশন" - 1)।
আপনি sklearn.datasets মডিউল থেকে load_breast_cancer ফাংশন ব্যবহার করে সরাসরি sklearn থেকে ব্রেস্ট ক্যান্সার উইসকনসিন ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
sklearn ব্যবহার করে স্তন ক্যান্সার উইসকনসিন ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
বাস্তব বিশ্ব Sklearn ডেটাসেট
রিয়েল ওয়ার্ল্ড স্ক্লিয়ার ডেটাসেটগুলি বাস্তব-বিশ্বের সমস্যার উপর ভিত্তি করে তৈরি করা হয়, সাধারণত পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে মেশিন লার্নিং অ্যালগরিদম এবং কৌশলগুলির অনুশীলন এবং পরীক্ষা করার জন্য ব্যবহৃত হয়।
7. বোস্টন হাউজিং
বোস্টন হাউজিং ডেটাসেটে বোস্টন, ম্যাসাচুসেটস এলাকার আবাসন সম্পর্কিত তথ্য রয়েছে। এতে প্রায় 506টি সারি এবং 14টি কলাম ডেটা রয়েছে।
ডেটাসেটের কিছু ভেরিয়েবলের মধ্যে রয়েছে:
- CRIM - শহর অনুসারে মাথাপিছু অপরাধের হার।
- ZN - আবাসিক জমির অনুপাত 25,000 বর্গফুটের বেশি লটের জন্য জোন করা হয়েছে।
- INDUS - শহর প্রতি অ-খুচরা ব্যবসার একর অনুপাত।
- CHAS - চার্লস রিভার ডামি পরিবর্তনশীল (= 1 যদি ট্র্যাক্ট নদীকে আবদ্ধ করে; অন্যথায় 0)।
- NOX - নাইট্রিক অক্সাইড ঘনত্ব (প্রতি 10 মিলিয়ন অংশ)।
- RM - প্রতি বাসস্থানে ঘরের গড় সংখ্যা।
- AGE - 1940 সালের আগে নির্মিত মালিক-অধিকৃত ইউনিটগুলির অনুপাত।
- DIS - পাঁচটি বোস্টন কর্মসংস্থান কেন্দ্রের ওজনযুক্ত দূরত্ব।
- RAD - রেডিয়াল হাইওয়েতে অ্যাক্সেসযোগ্যতার সূচক।
- ট্যাক্স - $10,000 প্রতি পূর্ণ-মূল্যের সম্পত্তি করের হার।
- PTRATIO - শহর অনুসারে ছাত্র-শিক্ষক অনুপাত।
- B - 1000(Bk - 0.63)^2 যেখানে -Bk হল শহর অনুসারে কালোদের অনুপাত।
- LSTAT - জনসংখ্যার শতাংশ নিম্ন অবস্থা।
- MEDV - $1000 এর মধ্যে মালিক-অধিকৃত বাড়ির গড় মান।
আপনি sklearn.datasets মডিউল থেকে load_boston ফাংশন ব্যবহার করে scikit-learn থেকে সরাসরি বোস্টন হাউজিং ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
sklearn ব্যবহার করে বোস্টন হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
8. অলিভেটি ফেস
অলিভেটি ফেসেস ডেটাসেট হল AT&T ল্যাবরেটরিতে এপ্রিল 1992 এবং এপ্রিল 1994 এর মধ্যে তোলা মানুষের মুখের গ্রেস্কেল চিত্রগুলির একটি সংগ্রহ৷ এটিতে 10 জন ব্যক্তির 400টি ছবি রয়েছে, প্রতিটি ব্যক্তির 40টি ছবি বিভিন্ন কোণে এবং বিভিন্ন আলোর শর্তে তোলা হয়েছে৷
আপনি ডেটাসেট মডিউল থেকে fetch_olivetti_faces ফাংশন ব্যবহার করে sklearn-এ Olivetti Faces ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
sklearn ব্যবহার করে Olivetti Faces ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
9. ক্যালিফোর্নিয়া হাউজিং
এই sklearn ডেটাসেটে মধ্যম ঘরের মান, সেইসাথে ক্যালিফোর্নিয়ায় আদমশুমারির ট্র্যাক্টের বৈশিষ্ট্যের তথ্য রয়েছে। এটি 20,640টি উদাহরণ এবং 8টি বৈশিষ্ট্যও অন্তর্ভুক্ত করে।
ডেটাসেটের কিছু ভেরিয়েবল:
- MedInc - ব্লকের মধ্যবর্তী আয়।
- হাউসএজ - ব্লকের ঘরগুলির গড় বয়স।
- AveRooms - পরিবারের প্রতি কক্ষের গড় সংখ্যা।
- AveBedrms - প্রতি পরিবারে বেডরুমের গড় সংখ্যা।
- জনসংখ্যা - ব্লক জনসংখ্যা।
- AveOccup - গড় পরিবারের দখল।
- অক্ষাংশ - দশমিক ডিগ্রীতে ব্লকের অক্ষাংশ।
- দ্রাঘিমাংশ - দশমিক ডিগ্রীতে ব্লকের দ্রাঘিমাংশ।
আপনি sklearn থেকে fetch_california_housing ফাংশন ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
sklearn ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
10. MNIST
MNIST ডেটাসেট মেশিন লার্নিং এবং কম্পিউটার ভিশনের ক্ষেত্রে জনপ্রিয় এবং ব্যাপকভাবে ব্যবহৃত হয়। এটিতে হাতে লেখা 0-9 সংখ্যার 70,000টি গ্রেস্কেল চিত্র রয়েছে, যার মধ্যে 60,000টি প্রশিক্ষণের জন্য এবং 10,000টি পরীক্ষার জন্য রয়েছে। প্রতিটি চিত্রের আকার 28x28 পিক্সেল এবং একটি সংশ্লিষ্ট লেবেল রয়েছে যা নির্দেশ করে যে এটি কোন সংখ্যাগুলিকে প্রতিনিধিত্ব করে৷
আপনি নিম্নলিখিত কোড ব্যবহার করে sklearn থেকে MNIST ডেটাসেট লোড করতে পারেন:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
দ্রষ্টব্য: MNIST ডেটাসেট হল সংখ্যা ডেটাসেটের একটি উপসেট৷
sklearn ব্যবহার করে MNIST ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
11. ফ্যাশন-MNIST
ফ্যাশন MNIST ডেটাসেটটি মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল। ফ্যাশন MNIST ডেটাসেটে 70,000টি গ্রেস্কেল ছবি (60,000টির প্রশিক্ষণ সেট এবং 10,000টির একটি পরীক্ষামূলক সেট) পোশাকের আইটেম রয়েছে।
চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷
আপনি fetch_openml ফাংশন ব্যবহার করে এই sklearn ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
sklearn ব্যবহার করে ফ্যাশন MNIST ডেটাসেট লোড করার জন্য কোড। __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ থেকে 30/3/2023 তারিখে সংগৃহীত।
উত্পন্ন Sklearn ডেটাসেট
জেনারেটেড স্ক্লিয়ার ডেটাসেট হল সিন্থেটিক ডেটাসেট, পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে তৈরি করা হয়। এগুলি পরীক্ষা, বেঞ্চমার্কিং এবং মেশিন লার্নিং অ্যালগরিদম/মডেল তৈরির জন্য ব্যবহার করা হয়।
12। make_classification
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং তথ্যপূর্ণ বৈশিষ্ট্য সহ একটি এলোমেলো এন-শ্রেণি শ্রেণিবিন্যাস ডেটাসেট তৈরি করে।
100টি নমুনা, 5টি বৈশিষ্ট্য এবং 3টি ক্লাস সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস এবং 3টি তথ্যপূর্ণ বৈশিষ্ট্য রয়েছে৷ অবশিষ্ট বৈশিষ্ট্যগুলি অপ্রয়োজনীয় বা গোলমাল হবে।
sklearn ব্যবহার করে make_classification ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
13. make_regression
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং শব্দ সহ একটি র্যান্ডম রিগ্রেশন ডেটাসেট তৈরি করে৷
এখানে 100টি নমুনা, 5টি বৈশিষ্ট্য এবং 0.1 এর নয়েজ লেভেল সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার শব্দের মাত্রা 0.1। টার্গেট ভেরিয়েবল y একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে।
sklearn ব্যবহার করে make_regression ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
14. make_blobs
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা এবং ক্লাস্টার সহ একটি র্যান্ডম ডেটাসেট তৈরি করে৷
100টি নমুনা এবং 3টি ক্লাস্টার সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
এই কোডটি 100টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস্টার এলোমেলো অবস্থানে কেন্দ্রীভূত হয় এবং কোনও শব্দ ছাড়াই৷
sklearn ব্যবহার করে make_blobs ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
15। make_moons এবং বৃত্ত তৈরি করুন
এই ফাংশনগুলি অ-রৈখিক সীমানা সহ ডেটাসেট তৈরি করে যা অ-রৈখিক শ্রেণিবিন্যাস অ্যালগরিদম পরীক্ষা করার জন্য দরকারী।
make_moons ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
sklearn.datasets থেকে make_moons আমদানি করুন
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
এই কোডটি 1000টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ দুটি শ্রেণীর মধ্যে একটি অ-রৈখিক সীমানা সহ একটি ডেটাসেট তৈরি করে এবং ডেটাতে যোগ করা গাউসিয়ান শব্দের 0.2 স্ট্যান্ডার্ড বিচ্যুতি সহ।
sklearn ব্যবহার করে make_moons ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
make_circles ডেটাসেট তৈরি এবং লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
sklearn ব্যবহার করে make_circles ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
16. make_sparse_coded_signal
এই ফাংশনটি একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে যা কম্প্রেসিভ সেন্সিং অ্যালগরিদম পরীক্ষা করার জন্য উপযোগী।
এই sklearn ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
এই কোডটি 100টি নমুনা, 50টি বৈশিষ্ট্য এবং 10টি পরমাণু সহ একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে৷
sklearn ব্যবহার করে make_sparse_coded_signal ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
Sklearn ডেটাসেটের জন্য সাধারণ ব্যবহারের ক্ষেত্রে
প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট
বাস্তব বিশ্ব Sklearn ডেটাসেট
উত্পন্ন Sklearn ডেটাসেট
সর্বশেষ ভাবনা
স্কলার্ন ডেটাসেটগুলি ম্যানুয়ালি ডেটা সংগ্রহ এবং প্রিপ্রসেস না করেই ডেভেলপার এবং গবেষকদের মেশিন লার্নিং মডেলগুলি পরীক্ষা ও মূল্যায়ন করার জন্য একটি সুবিধাজনক উপায় প্রদান করে।
এগুলি যে কেউ ডাউনলোড করতে এবং অবাধে ব্যবহার করার জন্য উপলব্ধ।
প্রম্পট 'আইরিস ডেটাসেট' ব্যবহার করে হ্যাকারনুনের এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে এই নিবন্ধের প্রধান চিত্র তৈরি করা হয়েছে।
আরও ডেটাসেট তালিকা: