डेटा शक्तियाँ मशीन लर्निंग एल्गोरिदम और स्किकिट-लर्न या
स्केलेरन डेटासेट को स्किकिट-लर्न के भाग के रूप में शामिल किया गया है (
एक विशिष्ट डेटासेट का उपयोग करने के लिए, आप बस इसे sklearn.datasets मॉड्यूल से आयात कर सकते हैं और डेटा को अपने प्रोग्राम में लोड करने के लिए उपयुक्त फ़ंक्शन को कॉल कर सकते हैं।
ये डेटासेट आमतौर पर पूर्व-संसाधित और उपयोग के लिए तैयार होते हैं, जो डेटा चिकित्सकों के लिए समय और प्रयास बचाता है, जिन्हें विभिन्न मशीन लर्निंग मॉडल और एल्गोरिदम के साथ प्रयोग करने की आवश्यकता होती है।
इस डेटासेट में 150 आईरिस फूलों की बाह्यदल की लंबाई, बाह्यदल की चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई के माप शामिल हैं, जो 3 अलग-अलग प्रजातियों से संबंधित हैं: सेटोसा, वर्सिकलर और वर्जिनिका। आइरिस डेटासेट में 150 पंक्तियाँ और 5 कॉलम होते हैं, जिन्हें डेटाफ़्रेम के रूप में संग्रहीत किया जाता है, जिसमें प्रत्येक फूल की प्रजातियों के लिए एक कॉलम भी शामिल है।
चर में शामिल हैं:
आप sklearn.datasets मॉड्यूल से load_iris फ़ंक्शन का उपयोग करके आईरिस डेटासेट को सीधे sklearn से लोड कर सकते हैं।
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
स्केलेरन का उपयोग करके आइरिस डेटासेट लोड करने के लिए कोड। से लिया गया
इस स्केलेरन डेटासेट में जनसांख्यिकीय और नैदानिक माप सहित मधुमेह वाले 442 रोगियों की जानकारी शामिल है:
sklearn.datasets मॉड्यूल से load_diabetes () फ़ंक्शन का उपयोग करके मधुमेह डेटासेट लोड किया जा सकता है।
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
स्केलेरन का उपयोग करके मधुमेह डेटासेट लोड करने के लिए कोड। से लिया गया
यह स्केलेरन डेटासेट 0 से 9 तक हस्तलिखित अंकों का एक संग्रह है, जिसे ग्रेस्केल छवियों के रूप में संग्रहीत किया जाता है। इसमें कुल 1797 नमूने हैं, प्रत्येक नमूने के आकार का 2D सरणी (8,8) है। अंकों के स्केलेरन डेटासेट में 64 चर (या विशेषताएं) हैं, जो प्रत्येक अंक की छवि में 64 पिक्सेल के अनुरूप हैं।
sklearn.datasets मॉड्यूल से load_digits() फ़ंक्शन का उपयोग करके अंक डेटासेट को लोड किया जा सकता है।
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
स्केलेरन का उपयोग करके अंक डेटासेट लोड करने के लिए कोड। से लिया गया
लाइनररुड डेटासेट में 20 पेशेवर एथलीटों के शारीरिक और शारीरिक माप शामिल हैं।
डेटासेट में निम्नलिखित चर शामिल हैं:
स्केलेरन का उपयोग करके पायथन में लिनररुड डेटासेट लोड करने के लिए:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
स्केलेरन का उपयोग कर लाइनरड डेटासेट लोड करने के लिए कोड। से लिया गया
इस स्केलेरन डेटासेट में वाइन को उनकी सही किस्मों में वर्गीकृत करने के लिए इटली के एक विशिष्ट क्षेत्र में उगाई जाने वाली वाइन के रासायनिक विश्लेषण के परिणाम शामिल हैं।
डेटासेट में कुछ चर:
वाइन डेटासेट को sklearn.datasets मॉड्यूल से load_wine () फ़ंक्शन का उपयोग करके लोड किया जा सकता है।
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
स्केलेरन का उपयोग करके वाइन गुणवत्ता डेटासेट लोड करने के लिए कोड। से लिया गया
इस स्केलेरन डेटासेट में स्तन कैंसर के ट्यूमर के बारे में जानकारी शामिल है और शुरुआत में इसे डॉ. विलियम एच. वोलबर्ग ने बनाया था। ट्यूमर को घातक (कैंसर) या सौम्य (गैर-कैंसर) के रूप में वर्गीकृत करने में शोधकर्ताओं और मशीन लर्निंग चिकित्सकों की सहायता के लिए डेटासेट बनाया गया था।
इस डेटासेट में शामिल कुछ चर:
आप sklearn.datasets मॉड्यूल से load_breast_cancer फ़ंक्शन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट को सीधे sklearn से लोड कर सकते हैं।
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
स्केलेरन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट लोड करने के लिए कोड। से लिया गया
वास्तविक दुनिया स्केलेरन डेटासेट वास्तविक दुनिया की समस्याओं पर आधारित होते हैं, जो आमतौर पर पायथन में स्केलेरन लाइब्रेरी का उपयोग करके मशीन लर्निंग एल्गोरिदम और तकनीकों के साथ अभ्यास और प्रयोग करने के लिए उपयोग किया जाता है।
बोस्टन हाउसिंग डेटासेट में बोस्टन, मैसाचुसेट्स के क्षेत्र में आवास के बारे में जानकारी शामिल है। इसमें लगभग 506 पंक्तियाँ और डेटा के 14 स्तंभ हैं।
डेटासेट में कुछ चरों में शामिल हैं:
आप sklearn.datasets मॉड्यूल से load_boston फ़ंक्शन का उपयोग करके बोस्टन हाउसिंग डेटासेट को सीधे स्किकिट-लर्न से लोड कर सकते हैं।
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
स्केलेरन का उपयोग करके बोस्टन हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया
ओलिवेटी फ़ेस डेटासेट एटी एंड टी प्रयोगशालाओं में अप्रैल 1992 और अप्रैल 1994 के बीच लिए गए मानव चेहरों की ग्रेस्केल छवियों का एक संग्रह है। इसमें 10 व्यक्तियों की 400 छवियां शामिल हैं, प्रत्येक व्यक्ति के पास अलग-अलग कोणों और विभिन्न प्रकाश स्थितियों में 40 छवियों को शूट किया गया है।
आप डेटासेट मॉड्यूल से fetch_olivetti_faces फ़ंक्शन का उपयोग करके ओलिवेटी फ़ेस डेटासेट को स्केलेर में लोड कर सकते हैं।
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
स्केलेरन का उपयोग करके ओलिवेटी फेसेस डेटासेट लोड करने के लिए कोड। से लिया गया
इस स्केलेरन डेटासेट में माध्यिका गृह मूल्यों के साथ-साथ कैलिफ़ोर्निया में जनगणना ट्रैक्स के लिए विशेषताएँ शामिल हैं। इसमें 20,640 उदाहरण और 8 सुविधाएँ भी शामिल हैं।
डेटासेट में कुछ चर:
आप स्केलेरन से fetch_california_housing फ़ंक्शन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड कर सकते हैं।
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
स्केलेरन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया
MNIST डेटासेट मशीन लर्निंग और कंप्यूटर विज़न के क्षेत्र में लोकप्रिय और व्यापक रूप से उपयोग किया जाता है। इसमें हस्तलिखित अंकों की 70,000 ग्रेस्केल छवियां 0–9 हैं, जिसमें प्रशिक्षण के लिए 60,000 चित्र और परीक्षण के लिए 10,000 चित्र हैं। प्रत्येक छवि आकार में 28x28 पिक्सेल है और इसमें एक संबंधित लेबल है जो दर्शाता है कि यह किस अंक का प्रतिनिधित्व करता है।
आप निम्न कोड का उपयोग करके एमएनआईएसटी डेटासेट को स्केलेर से लोड कर सकते हैं:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
नोट: MNIST डेटासेट डिजिट डेटासेट का एक सबसेट है।
स्केलेरन का उपयोग करके MNIST डेटासेट लोड करने के लिए कोड। से लिया गया
फ़ैशन MNIST डेटासेट Zalando Research द्वारा मूल MNIST डेटासेट के प्रतिस्थापन के रूप में बनाया गया था। फैशन MNIST डेटासेट में 70,000 ग्रेस्केल चित्र (60,000 का प्रशिक्षण सेट और 10,000 का परीक्षण सेट) शामिल हैं।
छवियां आकार में 28x28 पिक्सेल हैं और टी-शर्ट/टॉप, पतलून, स्वेटर, कपड़े, कोट, सैंडल, शर्ट, स्नीकर्स, बैग और टखने के जूते सहित कपड़ों के 10 विभिन्न वर्गों का प्रतिनिधित्व करती हैं। यह मूल MNIST डेटासेट के समान है, लेकिन कपड़ों की वस्तुओं की अधिक जटिलता और विविधता के कारण अधिक चुनौतीपूर्ण वर्गीकरण कार्यों के साथ।
आप Fetch_openml फ़ंक्शन का उपयोग करके इस स्केलेरन डेटासेट को लोड कर सकते हैं।
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
स्केलेरन का उपयोग करके फैशन एमएनआईएसटी डेटासेट लोड करने के लिए कोड। 30/3/2023 को __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ से प्राप्त किया गया।
जेनरेट किए गए स्केलेर डेटासेट सिंथेटिक डेटासेट हैं, जो पायथन में स्केलेरन लाइब्रेरी का उपयोग करके उत्पन्न होते हैं। उनका उपयोग मशीन लर्निंग एल्गोरिदम / मॉडल के परीक्षण, बेंचमार्किंग और विकास के लिए किया जाता है।
यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूनों, सुविधाओं और सूचनात्मक सुविधाओं के साथ एक यादृच्छिक एन-श्रेणी वर्गीकरण डेटासेट उत्पन्न करता है।
इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 3 वर्गों के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
यह कोड 3 वर्गों और 3 सूचनात्मक विशेषताओं के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। शेष विशेषताएँ बेमानी या शोर वाली होंगी।
स्केलेरन का उपयोग करके मेक_क्लासिफिकेशन डेटासेट लोड करने के लिए कोड। से लिया गया
यह फ़ंक्शन निर्दिष्ट संख्या में नमूनों, सुविधाओं और शोर के साथ एक यादृच्छिक प्रतिगमन डेटासेट उत्पन्न करता है।
इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 0.1 के शोर स्तर के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
यह कोड 0.1 के शोर स्तर के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। लक्ष्य चर y एक सतत चर होगा।
स्केलेरन का उपयोग करके मेक_रिग्रेशन डेटासेट लोड करने के लिए कोड। से लिया गया
यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूने और क्लस्टर के साथ एक यादृच्छिक डेटासेट उत्पन्न करता है।
100 नमूनों और 3 समूहों के साथ इस स्केलेरन डेटासेट को उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
यह कोड 100 नमूनों और 2 सुविधाओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, जिसमें 3 क्लस्टर यादृच्छिक स्थानों पर केंद्रित होते हैं, और बिना किसी शोर के।
स्केलेरन का उपयोग करके Make_blobs डेटासेट लोड करने के लिए कोड। से लिया गया
ये फ़ंक्शन गैर-रैखिक सीमाओं वाले डेटासेट उत्पन्न करते हैं जो गैर-रैखिक वर्गीकरण एल्गोरिदम के परीक्षण के लिए उपयोगी होते हैं।
Make_moons डेटासेट लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:
sklearn.datasets से make_moons आयात करें
एक्स, वाई = मेक_मून्स (एन_सैंपल्स = 1000, शोर = 0.2, रैंडम_स्टेट = 42)
यह कोड दो वर्गों के बीच एक गैर-रेखीय सीमा के साथ 1000 नमूनों और 2 विशेषताओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, और डेटा में जोड़े गए गॉसियन शोर के 0.2 मानक विचलन के साथ।
स्केलेरन का उपयोग करके मेक_मून डेटासेट लोड करने के लिए कोड। से लिया गया
Make_circles डेटासेट जनरेट करने और लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
स्केलेरन का उपयोग करके Make_circles डेटासेट लोड करने के लिए कोड। से लिया गया
यह फ़ंक्शन एक विरल कोडेड सिग्नल डेटासेट उत्पन्न करता है जो कंप्रेसिव सेंसिंग एल्गोरिदम के परीक्षण के लिए उपयोगी है।
इस स्केलेरन डेटासेट को लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
यह कोड 100 नमूनों, 50 विशेषताओं और 10 परमाणुओं के साथ विरल कोडित सिग्नल डेटासेट उत्पन्न करता है।
स्केलेरन का उपयोग करके Make_sparse_coded_signal डेटासेट लोड करने के लिए कोड। से लिया गया
स्केलेरन डेटासेट डेवलपर्स और शोधकर्ताओं के लिए मशीन लर्निंग मॉडल का परीक्षण और मूल्यांकन करने के लिए एक सुविधाजनक तरीका प्रदान करते हैं, बिना मैन्युअल रूप से डेटा एकत्र और प्रीप्रोसेस किए बिना।
वे किसी के लिए भी मुफ्त में डाउनलोड करने और उपयोग करने के लिए उपलब्ध हैं।
इस आलेख की मुख्य छवि हैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से शीघ्र 'आइरिस डेटासेट' का उपयोग करके तैयार की गई थी।
अधिक डेटासेट सूची: