Daten unterstützen Algorithmen für maschinelles Lernen und Scikit-Learn oder
Was sind „Sklearn-Datensätze“?
Sklearn-Datensätze sind als Teil von scikit-learn enthalten (
Um einen bestimmten Datensatz zu verwenden, können Sie ihn einfach aus dem Modul sklearn.datasets importieren und die entsprechende Funktion aufrufen, um die Daten in Ihr Programm zu laden.
Diese Datensätze sind in der Regel vorverarbeitet und gebrauchsfertig, was Datenpraktikern, die mit verschiedenen Modellen und Algorithmen für maschinelles Lernen experimentieren müssen, Zeit und Mühe spart.
Vollständige Liste der Datensätze in der Sklearn-Bibliothek
- Iris
- Diabetes
- Ziffern
- Linnerud
- Wein
- Brustkrebs Wisconsin
- Boston Housing
- Olivetti-Gesichter
- Wohnen in Kalifornien
- MNIST
- Mode-MNIST
- make_classification
- make_regression
- make_blobs
- make_moons und make_circles
- Make_sparse_coded_signal
Vorinstallierte (Spielzeug-)Sklearn-Datensätze
1. Iris
Dieser Datensatz umfasst Messungen der Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite von 150 Irisblüten, die zu drei verschiedenen Arten gehören: Setosa, Versicolor und Virginica. Der Iris-Datensatz besteht aus 150 Zeilen und 5 Spalten, die als Datenrahmen gespeichert werden, einschließlich einer Spalte für die Art jeder Blume.
Zu den Variablen gehören:
- Sepal.Length – Die sepal.length gibt die Länge des Kelchblatts in Zentimetern an.
- Sepal.Width – Die sepal.width gibt die Breite des Kelchblatts in Zentimetern an.
- Petal.Length – Die petal.length gibt die Länge des Blütenblatts in Zentimetern an.
- Art – Die Artvariable stellt die Art der Irisblume mit drei möglichen Werten dar: Setosa, Versicolor und Virginica.
Sie können den Iris-Datensatz direkt aus sklearn laden, indem Sie die Funktion „load_iris“ aus dem Modul „sklearn.datasets“ verwenden.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Code zum Laden des Iris-Datensatzes mit sklearn. Abgerufen von
2. Diabetes
Dieser Sklearn-Datensatz enthält Informationen zu 442 Patienten mit Diabetes, einschließlich demografischer und klinischer Messungen:
- Alter
- Sex
- Body-Mass-Index (BMI)
- Durchschnittlicher Blutdruck
- Sechs Blutserummessungen (z. B. Gesamtcholesterin, LDL-Cholesterin (Low Density Lipoprotein), HDL-Cholesterin (High Density Lipoprotein).
- Ein quantitatives Maß für das Fortschreiten der Diabetes-Erkrankung (HbA1c).
Der Diabetes-Datensatz kann mit der Funktion „load_diabetes()“ aus dem Modul „sklearn.datasets“ geladen werden.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Code zum Laden des Diabetes-Datensatzes mit sklearn. Abgerufen von
3. Ziffern
Dieser Sklearn-Datensatz ist eine Sammlung handgeschriebener Ziffern von 0 bis 9, die als Graustufenbilder gespeichert sind. Es enthält insgesamt 1797 Proben, wobei jede Probe ein 2D-Array der Form (8,8) ist. Der Ziffern-Sklearn-Datensatz enthält 64 Variablen (oder Merkmale), die den 64 Pixeln in jedem Ziffernbild entsprechen.
Der Digits-Datensatz kann mit der Funktion „load_digits()“ aus dem Modul „sklearn.datasets“ geladen werden.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Code zum Laden des Digits-Datensatzes mit sklearn. Abgerufen von
4. Linnerud
Der Linnerud-Datensatz enthält körperliche und physiologische Messungen von 20 Profisportlern.
Der Datensatz enthält die folgenden Variablen:
- Drei körperliche Übungsvariablen: Klimmzüge, Sit-ups und Jumping Jacks.
- Drei physiologische Messgrößen – Puls, systolischer Blutdruck und diastolischer Blutdruck.
So laden Sie den Linnerud-Datensatz in Python mit sklearn:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Code zum Laden des Linnerud-Datensatzes mit sklearn. Abgerufen von
5. Wein
Dieser Sklearn-Datensatz enthält die Ergebnisse chemischer Analysen von Weinen, die in einem bestimmten Gebiet Italiens angebaut werden, um die Weine in ihre richtigen Sorten zu klassifizieren.
Einige der Variablen im Datensatz:
- Alkohol
- Äpfelsäure
- Asche
- Alkalität der Asche
- Magnesium
- Gesamtphenole
- Flavanoide
Der Wine-Datensatz kann mit der Funktion „load_wine()“ aus dem Modul sklearn.datasets geladen werden.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Code zum Laden des Weinqualitätsdatensatzes mit sklearn. Abgerufen von
6. Brustkrebs-Wisconsin-Datensatz
Dieser Sklearn-Datensatz besteht aus Informationen über Brustkrebstumoren und wurde ursprünglich von Dr. William H. Wolberg erstellt. Der Datensatz wurde erstellt, um Forschern und Praktikern des maschinellen Lernens dabei zu helfen, Tumore entweder als bösartig (krebsartig) oder gutartig (nicht krebsartig) zu klassifizieren.
Einige der in diesem Datensatz enthaltenen Variablen:
- ID-Nummer
- Diagnose (M = bösartig, B = gutartig).
- Radius (der Mittelwert der Abstände vom Mittelpunkt zu Punkten auf dem Umfang).
- Textur (die Standardabweichung der Graustufenwerte).
- Umfang
- Bereich
- Glätte (die lokale Variation der Radiuslängen).
- Kompaktheit (Umfang^2 / Fläche - 1,0).
- Konkavität (der Schweregrad der konkaven Teile der Kontur).
- Konkave Punkte (die Anzahl der konkaven Teile der Kontur).
- Symmetrie
- Fraktale Dimension („Küstennäherung“ – 1).
Sie können den Datensatz „Breast Cancer Wisconsin“ direkt aus sklearn laden, indem Sie die Funktion „ load_breast_cancer“ aus dem Modul „sklearn.datasets“ verwenden.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Code zum Laden des Brustkrebs-Wisconsin-Datensatzes mit sklearn. Abgerufen von
Sklearn-Datensätze aus der realen Welt
Reale Sklearn-Datensätze basieren auf realen Problemen und werden häufig zum Üben und Experimentieren mit Algorithmen und Techniken für maschinelles Lernen mithilfe der Sklearn-Bibliothek in Python verwendet.
7. Boston Housing
Der Boston Housing-Datensatz besteht aus Informationen zum Wohnungsbau in der Gegend von Boston, Massachusetts. Es verfügt über etwa 506 Zeilen und 14 Datenspalten.
Zu den Variablen im Datensatz gehören:
- CRIM – Pro-Kopf-Kriminalitätsrate nach Stadt.
- ZN – Der Anteil des Wohngrundstücks, das für Grundstücke über 25.000 Quadratfuß in Zonen ausgewiesen ist.
- INDUS – Der Anteil der Nicht-Einzelhandelsflächen pro Stadt.
- CHAS – Charles River-Dummy-Variable (= 1, wenn das Gebiet an den Fluss grenzt; andernfalls 0).
- NOX – Die Stickoxidkonzentration (Teile pro 10 Millionen).
- RM – Die durchschnittliche Anzahl der Zimmer pro Wohnung.
- ALTER – Der Anteil der Eigentumswohnungen, die vor 1940 gebaut wurden.
- DIS – Die gewichteten Entfernungen zu fünf Bostoner Arbeitsvermittlungszentren.
- RAD – Der Index der Zugänglichkeit zu Radialstraßen.
- STEUER – Der volle Grundsteuersatz pro 10.000 US-Dollar.
- PTRATIO – Das Schüler-Lehrer-Verhältnis nach Städten.
- B - 1000(Bk - 0,63)^2 wobei -Bk der Anteil der Schwarzen pro Stadt ist.
- LSTAT – Der prozentuale niedrigere Status der Bevölkerung.
- MEDV – Der mittlere Wert von Eigenheimen in 1.000 US-Dollar.
Sie können den Boston Housing-Datensatz direkt aus scikit-learn laden, indem Sie die Funktion „load_boston“ aus dem Modul „sklearn.datasets“ verwenden.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Code zum Laden des Boston Housing-Datensatzes mit sklearn. Abgerufen von
8. Olivetti-Gesichter
Der Olivetti Faces-Datensatz ist eine Sammlung von Graustufenbildern menschlicher Gesichter, die zwischen April 1992 und April 1994 in den AT&T Laboratories aufgenommen wurden. Es enthält 400 Bilder von 10 Personen, wobei für jede Person 40 Bilder aus unterschiedlichen Winkeln und bei unterschiedlichen Lichtverhältnissen aufgenommen wurden.
Sie können den Olivetti Faces-Datensatz in sklearn laden, indem Sie die Funktion fetch_olivetti_faces aus dem Datasets-Modul verwenden.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Code zum Laden des Olivetti Faces-Datensatzes mit sklearn. Abgerufen von
9. Wohnen in Kalifornien
Dieser Sklearn-Datensatz enthält Informationen zu durchschnittlichen Hauswerten sowie Attribute für Volkszählungsbezirke in Kalifornien. Es umfasst außerdem 20.640 Instanzen und 8 Funktionen.
Einige der Variablen im Datensatz:
- MedInc – Das mittlere Einkommen im Block.
- HouseAge – Das Durchschnittsalter der Häuser im Block.
- AveRooms – Die durchschnittliche Anzahl der Zimmer pro Haushalt.
- AveBedrms – Die durchschnittliche Anzahl der Schlafzimmer pro Haushalt.
- Bevölkerung – Die Blockbevölkerung.
- AveOccup – Die durchschnittliche Haushaltsbelegung.
- Breitengrad – Der Breitengrad des Blocks in Dezimalgrad.
- Längengrad – Der Längengrad des Blocks in Dezimalgrad.
Sie können den Datensatz „California Housing“ mit der Funktion fetch_california_housing von sklearn laden.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Code zum Laden des California Housing-Datensatzes mit sklearn. Abgerufen von
10. MNIST
Der MNIST-Datensatz ist beliebt und wird häufig in den Bereichen maschinelles Lernen und Computer Vision verwendet. Es besteht aus 70.000 Graustufenbildern der handgeschriebenen Ziffern 0–9, davon 60.000 Bilder zum Training und 10.000 zum Testen. Jedes Bild ist 28 x 28 Pixel groß und verfügt über eine entsprechende Beschriftung, die angibt, welche Ziffern es darstellt.
Sie können den MNIST-Datensatz von sklearn mit dem folgenden Code laden:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Hinweis: Der MNIST-Datensatz ist eine Teilmenge des Digits-Datensatzes.
Code zum Laden des MNIST-Datensatzes mit sklearn. Abgerufen von
11. Mode-MNIST
Der Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt. Der Fashion-MNIST-Datensatz besteht aus 70.000 Graustufenbildern (Trainingssatz mit 60.000 und Testsatz mit 10.000) von Kleidungsstücken.
Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.
Sie können diesen Sklearn-Datensatz mit der Funktion fetch_openml laden.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Code zum Laden des Fashion MNIST-Datensatzes mit sklearn. Abgerufen von__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ am 30.3.2023.
Generierte Sklearn-Datensätze
Generierte Sklearn-Datensätze sind synthetische Datensätze, die mithilfe der Sklearn-Bibliothek in Python generiert werden. Sie werden zum Testen, Benchmarking und Entwickeln von Algorithmen/Modellen für maschinelles Lernen verwendet.
12. make_classification
Diese Funktion generiert einen zufälligen n-Klassen-Klassifizierungsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und informativen Merkmalen.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Features und 3 Klassen:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen, mit 3 Klassen und 3 informativen Merkmalen. Die übrigen Funktionen sind redundant oder rauschen.
Code zum Laden des make_classification-Datensatzes mit sklearn. Abgerufen von
13. make_regression
Diese Funktion generiert einen zufälligen Regressionsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und Rauschen.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Funktionen und einem Rauschpegel von 0,1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen mit einem Rauschpegel von 0,1. Die Zielvariable y wird eine kontinuierliche Variable sein.
Code zum Laden des make_regression-Datensatzes mit sklearn. Abgerufen von
14. make_blobs
Diese Funktion generiert einen Zufallsdatensatz mit einer angegebenen Anzahl von Stichproben und Clustern.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Stichproben und 3 Clustern:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Stichproben und 2 Merkmalen (X- und Y-Koordinaten), mit 3 Clustern, die an zufälligen Orten zentriert sind, und ohne Rauschen.
Code zum Laden des make_blobs-Datensatzes mit sklearn. Abgerufen von
15. make_moons Und make_circles
Diese Funktionen generieren Datensätze mit nichtlinearen Grenzen, die zum Testen nichtlinearer Klassifizierungsalgorithmen nützlich sind.
Hier ist ein Beispielcode zum Laden des make_moons-Datensatzes:
aus sklearn.datasets importiere make_moons
X, y = make_moons(n_samples=1000, Noise=0,2, random_state=42)
Dieser Code generiert einen Datensatz mit 1000 Stichproben und 2 Merkmalen (x- und y-Koordinaten) mit einer nichtlinearen Grenze zwischen den beiden Klassen und mit 0,2 Standardabweichungen des Gaußschen Rauschens, die zu den Daten hinzugefügt werden.
Code zum Laden des make_moons-Datensatzes mit sklearn. Abgerufen von
Hier ist ein Beispielcode zum Generieren und Laden des make_circles-Datensatzes:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Code zum Laden des make_circles-Datensatzes mit sklearn. Abgerufen von
16. make_sparse_coded_signal
Diese Funktion generiert einen spärlich codierten Signaldatensatz, der zum Testen von Kompressionserfassungsalgorithmen nützlich ist.
Hier ist ein Beispielcode zum Laden dieses Sklearn-Datensatzes:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Dieser Code generiert einen spärlich codierten Signaldatensatz mit 100 Proben, 50 Merkmalen und 10 Atomen.
Code zum Laden des make_sparse_coded_signal-Datensatzes mit sklearn. Abgerufen von
Häufige Anwendungsfälle für Sklearn-Datensätze
Vorinstallierte (Spielzeug-)Sklearn-Datensätze
Sklearn-Datensätze aus der realen Welt
Generierte Sklearn-Datensätze
Abschließende Gedanken
Sklearn-Datensätze bieten Entwicklern und Forschern eine bequeme Möglichkeit, Modelle für maschinelles Lernen zu testen und zu bewerten, ohne Daten manuell sammeln und vorverarbeiten zu müssen.
Sie stehen außerdem jedem zum Download und zur kostenlosen Nutzung zur Verfügung.
Das Hauptbild dieses Artikels wurde mit dem AI Stable Diffusion-Modell von HackerNoon unter Verwendung der Eingabeaufforderung „Iris-Datensatz“ generiert.
Weitere Datensatz-Listicles: