ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন বা
স্কলার্ন ডেটাসেটগুলি স্কিট-লার্নের অংশ হিসাবে অন্তর্ভুক্ত করা হয়েছে (
একটি নির্দিষ্ট ডেটাসেট ব্যবহার করতে, আপনি কেবল sklearn.datasets মডিউল থেকে এটি আমদানি করতে পারেন এবং আপনার প্রোগ্রামে ডেটা লোড করার জন্য উপযুক্ত ফাংশনটি কল করতে পারেন।
এই ডেটাসেটগুলি সাধারণত প্রাক-প্রক্রিয়াজাত এবং ব্যবহারের জন্য প্রস্তুত, যা ডেটা অনুশীলনকারীদের জন্য সময় এবং শ্রম বাঁচায় যাদের বিভিন্ন মেশিন লার্নিং মডেল এবং অ্যালগরিদম নিয়ে পরীক্ষা করতে হবে।
এই ডেটাসেটে সেপালের দৈর্ঘ্য, সেপালের প্রস্থ, পাপড়ির দৈর্ঘ্য এবং 150টি আইরিস ফুলের পাপড়ির প্রস্থের পরিমাপ রয়েছে, যা 3টি ভিন্ন প্রজাতির অন্তর্ভুক্ত: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা। আইরিস ডেটাসেটে 150টি সারি এবং 5টি কলাম রয়েছে, যা প্রতিটি ফুলের প্রজাতির জন্য একটি কলাম সহ ডেটাফ্রেম হিসাবে সংরক্ষণ করা হয়।
ভেরিয়েবলগুলির মধ্যে রয়েছে:
আপনি sklearn.datasets মডিউল থেকে load_iris ফাংশন ব্যবহার করে সরাসরি sklearn থেকে iris ডেটাসেট লোড করতে পারেন।
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
sklearn ব্যবহার করে আইরিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই স্কলারন ডেটাসেটে ডেমোগ্রাফিক এবং ক্লিনিকাল পরিমাপ সহ 442 জন ডায়াবেটিস রোগীর তথ্য রয়েছে:
sklearn.datasets মডিউল থেকে load_diabetes() ফাংশন ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
sklearn ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই sklearn ডেটাসেট হল 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের একটি সংগ্রহ, যা গ্রেস্কেল ছবি হিসেবে সংরক্ষিত। এটিতে মোট 1797টি নমুনা রয়েছে, প্রতিটি নমুনার সাথে একটি 2D আকারের অ্যারে (8,8)। ডিজিট স্ক্লিয়ার ডেটাসেটে 64টি ভেরিয়েবল (বা বৈশিষ্ট্য) রয়েছে, প্রতিটি অঙ্কের চিত্রের 64 পিক্সেলের সাথে সম্পর্কিত।
sklearn.datasets মডিউল থেকে load_digits() ফাংশন ব্যবহার করে অঙ্ক ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
sklearn ব্যবহার করে ডিজিট ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
লিনারুড ডেটাসেটে 20 জন পেশাদার ক্রীড়াবিদদের শারীরিক এবং শারীরবৃত্তীয় পরিমাপ রয়েছে।
ডেটাসেটে নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:
sklearn ব্যবহার করে পাইথনে Linnerud ডেটাসেট লোড করতে:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
sklearn ব্যবহার করে linnerud ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই স্কলারন ডেটাসেটে ইতালির একটি নির্দিষ্ট এলাকায় জন্মানো ওয়াইনগুলির রাসায়নিক বিশ্লেষণের ফলাফল রয়েছে, ওয়াইনগুলিকে তাদের সঠিক জাতের মধ্যে শ্রেণীবদ্ধ করতে।
ডেটাসেটের কিছু ভেরিয়েবল:
sklearn.datasets মডিউল থেকে load_wine() ফাংশন ব্যবহার করে ওয়াইন ডেটাসেট লোড করা যেতে পারে।
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
sklearn ব্যবহার করে ওয়াইন কোয়ালিটি ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই স্কলারন ডেটাসেটটি স্তন ক্যান্সারের টিউমার সম্পর্কে তথ্য নিয়ে গঠিত এবং এটি প্রাথমিকভাবে ড. উইলিয়াম এইচ. ওলবার্গ তৈরি করেছিলেন। ডেটাসেটটি গবেষক এবং মেশিন লার্নিং অনুশীলনকারীদের টিউমারগুলিকে ম্যালিগন্যান্ট (ক্যান্সারযুক্ত) বা সৌম্য (অ-ক্যান্সার) হিসাবে শ্রেণীবদ্ধ করতে সহায়তা করার জন্য তৈরি করা হয়েছিল।
এই ডেটাসেটে অন্তর্ভুক্ত কিছু ভেরিয়েবল:
আপনি sklearn.datasets মডিউল থেকে load_breast_cancer ফাংশন ব্যবহার করে সরাসরি sklearn থেকে ব্রেস্ট ক্যান্সার উইসকনসিন ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
sklearn ব্যবহার করে স্তন ক্যান্সার উইসকনসিন ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
রিয়েল ওয়ার্ল্ড স্ক্লিয়ার ডেটাসেটগুলি বাস্তব-বিশ্বের সমস্যার উপর ভিত্তি করে তৈরি করা হয়, সাধারণত পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে মেশিন লার্নিং অ্যালগরিদম এবং কৌশলগুলির অনুশীলন এবং পরীক্ষা করার জন্য ব্যবহৃত হয়।
বোস্টন হাউজিং ডেটাসেটে বোস্টন, ম্যাসাচুসেটস এলাকার আবাসন সম্পর্কিত তথ্য রয়েছে। এতে প্রায় 506টি সারি এবং 14টি কলাম ডেটা রয়েছে।
ডেটাসেটের কিছু ভেরিয়েবলের মধ্যে রয়েছে:
আপনি sklearn.datasets মডিউল থেকে load_boston ফাংশন ব্যবহার করে scikit-learn থেকে সরাসরি বোস্টন হাউজিং ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
sklearn ব্যবহার করে বোস্টন হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
অলিভেটি ফেসেস ডেটাসেট হল AT&T ল্যাবরেটরিতে এপ্রিল 1992 এবং এপ্রিল 1994 এর মধ্যে তোলা মানুষের মুখের গ্রেস্কেল চিত্রগুলির একটি সংগ্রহ৷ এটিতে 10 জন ব্যক্তির 400টি ছবি রয়েছে, প্রতিটি ব্যক্তির 40টি ছবি বিভিন্ন কোণে এবং বিভিন্ন আলোর শর্তে তোলা হয়েছে৷
আপনি ডেটাসেট মডিউল থেকে fetch_olivetti_faces ফাংশন ব্যবহার করে sklearn-এ Olivetti Faces ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
sklearn ব্যবহার করে Olivetti Faces ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই sklearn ডেটাসেটে মধ্যম ঘরের মান, সেইসাথে ক্যালিফোর্নিয়ায় আদমশুমারির ট্র্যাক্টের বৈশিষ্ট্যের তথ্য রয়েছে। এটি 20,640টি উদাহরণ এবং 8টি বৈশিষ্ট্যও অন্তর্ভুক্ত করে।
ডেটাসেটের কিছু ভেরিয়েবল:
আপনি sklearn থেকে fetch_california_housing ফাংশন ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
sklearn ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
MNIST ডেটাসেট মেশিন লার্নিং এবং কম্পিউটার ভিশনের ক্ষেত্রে জনপ্রিয় এবং ব্যাপকভাবে ব্যবহৃত হয়। এটিতে হাতে লেখা 0-9 সংখ্যার 70,000টি গ্রেস্কেল চিত্র রয়েছে, যার মধ্যে 60,000টি প্রশিক্ষণের জন্য এবং 10,000টি পরীক্ষার জন্য রয়েছে। প্রতিটি চিত্রের আকার 28x28 পিক্সেল এবং একটি সংশ্লিষ্ট লেবেল রয়েছে যা নির্দেশ করে যে এটি কোন সংখ্যাগুলিকে প্রতিনিধিত্ব করে৷
আপনি নিম্নলিখিত কোড ব্যবহার করে sklearn থেকে MNIST ডেটাসেট লোড করতে পারেন:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
দ্রষ্টব্য: MNIST ডেটাসেট হল সংখ্যা ডেটাসেটের একটি উপসেট৷
sklearn ব্যবহার করে MNIST ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
ফ্যাশন MNIST ডেটাসেটটি মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল। ফ্যাশন MNIST ডেটাসেটে 70,000টি গ্রেস্কেল ছবি (60,000টির প্রশিক্ষণ সেট এবং 10,000টির একটি পরীক্ষামূলক সেট) পোশাকের আইটেম রয়েছে।
চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷
আপনি fetch_openml ফাংশন ব্যবহার করে এই sklearn ডেটাসেট লোড করতে পারেন।
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
sklearn ব্যবহার করে ফ্যাশন MNIST ডেটাসেট লোড করার জন্য কোড। __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ থেকে 30/3/2023 তারিখে সংগৃহীত।
জেনারেটেড স্ক্লিয়ার ডেটাসেট হল সিন্থেটিক ডেটাসেট, পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে তৈরি করা হয়। এগুলি পরীক্ষা, বেঞ্চমার্কিং এবং মেশিন লার্নিং অ্যালগরিদম/মডেল তৈরির জন্য ব্যবহার করা হয়।
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং তথ্যপূর্ণ বৈশিষ্ট্য সহ একটি এলোমেলো এন-শ্রেণি শ্রেণিবিন্যাস ডেটাসেট তৈরি করে।
100টি নমুনা, 5টি বৈশিষ্ট্য এবং 3টি ক্লাস সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস এবং 3টি তথ্যপূর্ণ বৈশিষ্ট্য রয়েছে৷ অবশিষ্ট বৈশিষ্ট্যগুলি অপ্রয়োজনীয় বা গোলমাল হবে।
sklearn ব্যবহার করে make_classification ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং শব্দ সহ একটি র্যান্ডম রিগ্রেশন ডেটাসেট তৈরি করে৷
এখানে 100টি নমুনা, 5টি বৈশিষ্ট্য এবং 0.1 এর নয়েজ লেভেল সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার শব্দের মাত্রা 0.1। টার্গেট ভেরিয়েবল y একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে।
sklearn ব্যবহার করে make_regression ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা এবং ক্লাস্টার সহ একটি র্যান্ডম ডেটাসেট তৈরি করে৷
100টি নমুনা এবং 3টি ক্লাস্টার সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
এই কোডটি 100টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস্টার এলোমেলো অবস্থানে কেন্দ্রীভূত হয় এবং কোনও শব্দ ছাড়াই৷
sklearn ব্যবহার করে make_blobs ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই ফাংশনগুলি অ-রৈখিক সীমানা সহ ডেটাসেট তৈরি করে যা অ-রৈখিক শ্রেণিবিন্যাস অ্যালগরিদম পরীক্ষা করার জন্য দরকারী।
make_moons ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
sklearn.datasets থেকে make_moons আমদানি করুন
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
এই কোডটি 1000টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ দুটি শ্রেণীর মধ্যে একটি অ-রৈখিক সীমানা সহ একটি ডেটাসেট তৈরি করে এবং ডেটাতে যোগ করা গাউসিয়ান শব্দের 0.2 স্ট্যান্ডার্ড বিচ্যুতি সহ।
sklearn ব্যবহার করে make_moons ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
make_circles ডেটাসেট তৈরি এবং লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
sklearn ব্যবহার করে make_circles ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
এই ফাংশনটি একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে যা কম্প্রেসিভ সেন্সিং অ্যালগরিদম পরীক্ষা করার জন্য উপযোগী।
এই sklearn ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
এই কোডটি 100টি নমুনা, 50টি বৈশিষ্ট্য এবং 10টি পরমাণু সহ একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে৷
sklearn ব্যবহার করে make_sparse_coded_signal ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার
স্কলার্ন ডেটাসেটগুলি ম্যানুয়ালি ডেটা সংগ্রহ এবং প্রিপ্রসেস না করেই ডেভেলপার এবং গবেষকদের মেশিন লার্নিং মডেলগুলি পরীক্ষা ও মূল্যায়ন করার জন্য একটি সুবিধাজনক উপায় প্রদান করে।
এগুলি যে কেউ ডাউনলোড করতে এবং অবাধে ব্যবহার করার জন্য উপলব্ধ।
প্রম্পট 'আইরিস ডেটাসেট' ব্যবহার করে হ্যাকারনুনের এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে এই নিবন্ধের প্রধান চিত্র তৈরি করা হয়েছে।
আরও ডেটাসেট তালিকা: