Daten unterstützen Algorithmen für maschinelles Lernen und Scikit-Learn oder
Sklearn-Datensätze sind als Teil von scikit-learn enthalten (
Um einen bestimmten Datensatz zu verwenden, können Sie ihn einfach aus dem Modul sklearn.datasets importieren und die entsprechende Funktion aufrufen, um die Daten in Ihr Programm zu laden.
Diese Datensätze sind in der Regel vorverarbeitet und gebrauchsfertig, was Datenpraktikern, die mit verschiedenen Modellen und Algorithmen für maschinelles Lernen experimentieren müssen, Zeit und Mühe spart.
Dieser Datensatz umfasst Messungen der Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite von 150 Irisblüten, die zu drei verschiedenen Arten gehören: Setosa, Versicolor und Virginica. Der Iris-Datensatz besteht aus 150 Zeilen und 5 Spalten, die als Datenrahmen gespeichert werden, einschließlich einer Spalte für die Art jeder Blume.
Zu den Variablen gehören:
Sie können den Iris-Datensatz direkt aus sklearn laden, indem Sie die Funktion „load_iris“ aus dem Modul „sklearn.datasets“ verwenden.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Code zum Laden des Iris-Datensatzes mit sklearn. Abgerufen von
Dieser Sklearn-Datensatz enthält Informationen zu 442 Patienten mit Diabetes, einschließlich demografischer und klinischer Messungen:
Der Diabetes-Datensatz kann mit der Funktion „load_diabetes()“ aus dem Modul „sklearn.datasets“ geladen werden.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Code zum Laden des Diabetes-Datensatzes mit sklearn. Abgerufen von
Dieser Sklearn-Datensatz ist eine Sammlung handgeschriebener Ziffern von 0 bis 9, die als Graustufenbilder gespeichert sind. Es enthält insgesamt 1797 Proben, wobei jede Probe ein 2D-Array der Form (8,8) ist. Der Ziffern-Sklearn-Datensatz enthält 64 Variablen (oder Merkmale), die den 64 Pixeln in jedem Ziffernbild entsprechen.
Der Digits-Datensatz kann mit der Funktion „load_digits()“ aus dem Modul „sklearn.datasets“ geladen werden.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Code zum Laden des Digits-Datensatzes mit sklearn. Abgerufen von
Der Linnerud-Datensatz enthält körperliche und physiologische Messungen von 20 Profisportlern.
Der Datensatz enthält die folgenden Variablen:
So laden Sie den Linnerud-Datensatz in Python mit sklearn:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Code zum Laden des Linnerud-Datensatzes mit sklearn. Abgerufen von
Dieser Sklearn-Datensatz enthält die Ergebnisse chemischer Analysen von Weinen, die in einem bestimmten Gebiet Italiens angebaut werden, um die Weine in ihre richtigen Sorten zu klassifizieren.
Einige der Variablen im Datensatz:
Der Wine-Datensatz kann mit der Funktion „load_wine()“ aus dem Modul sklearn.datasets geladen werden.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Code zum Laden des Weinqualitätsdatensatzes mit sklearn. Abgerufen von
Dieser Sklearn-Datensatz besteht aus Informationen über Brustkrebstumoren und wurde ursprünglich von Dr. William H. Wolberg erstellt. Der Datensatz wurde erstellt, um Forschern und Praktikern des maschinellen Lernens dabei zu helfen, Tumore entweder als bösartig (krebsartig) oder gutartig (nicht krebsartig) zu klassifizieren.
Einige der in diesem Datensatz enthaltenen Variablen:
Sie können den Datensatz „Breast Cancer Wisconsin“ direkt aus sklearn laden, indem Sie die Funktion „ load_breast_cancer“ aus dem Modul „sklearn.datasets“ verwenden.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Code zum Laden des Brustkrebs-Wisconsin-Datensatzes mit sklearn. Abgerufen von
Reale Sklearn-Datensätze basieren auf realen Problemen und werden häufig zum Üben und Experimentieren mit Algorithmen und Techniken für maschinelles Lernen mithilfe der Sklearn-Bibliothek in Python verwendet.
Der Boston Housing-Datensatz besteht aus Informationen zum Wohnungsbau in der Gegend von Boston, Massachusetts. Es verfügt über etwa 506 Zeilen und 14 Datenspalten.
Zu den Variablen im Datensatz gehören:
Sie können den Boston Housing-Datensatz direkt aus scikit-learn laden, indem Sie die Funktion „load_boston“ aus dem Modul „sklearn.datasets“ verwenden.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Code zum Laden des Boston Housing-Datensatzes mit sklearn. Abgerufen von
Der Olivetti Faces-Datensatz ist eine Sammlung von Graustufenbildern menschlicher Gesichter, die zwischen April 1992 und April 1994 in den AT&T Laboratories aufgenommen wurden. Es enthält 400 Bilder von 10 Personen, wobei für jede Person 40 Bilder aus unterschiedlichen Winkeln und bei unterschiedlichen Lichtverhältnissen aufgenommen wurden.
Sie können den Olivetti Faces-Datensatz in sklearn laden, indem Sie die Funktion fetch_olivetti_faces aus dem Datasets-Modul verwenden.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Code zum Laden des Olivetti Faces-Datensatzes mit sklearn. Abgerufen von
Dieser Sklearn-Datensatz enthält Informationen zu durchschnittlichen Hauswerten sowie Attribute für Volkszählungsbezirke in Kalifornien. Es umfasst außerdem 20.640 Instanzen und 8 Funktionen.
Einige der Variablen im Datensatz:
Sie können den Datensatz „California Housing“ mit der Funktion fetch_california_housing von sklearn laden.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Code zum Laden des California Housing-Datensatzes mit sklearn. Abgerufen von
Der MNIST-Datensatz ist beliebt und wird häufig in den Bereichen maschinelles Lernen und Computer Vision verwendet. Es besteht aus 70.000 Graustufenbildern der handgeschriebenen Ziffern 0–9, davon 60.000 Bilder zum Training und 10.000 zum Testen. Jedes Bild ist 28 x 28 Pixel groß und verfügt über eine entsprechende Beschriftung, die angibt, welche Ziffern es darstellt.
Sie können den MNIST-Datensatz von sklearn mit dem folgenden Code laden:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Hinweis: Der MNIST-Datensatz ist eine Teilmenge des Digits-Datensatzes.
Code zum Laden des MNIST-Datensatzes mit sklearn. Abgerufen von
Der Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt. Der Fashion-MNIST-Datensatz besteht aus 70.000 Graustufenbildern (Trainingssatz mit 60.000 und Testsatz mit 10.000) von Kleidungsstücken.
Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.
Sie können diesen Sklearn-Datensatz mit der Funktion fetch_openml laden.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Code zum Laden des Fashion MNIST-Datensatzes mit sklearn. Abgerufen von__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ am 30.3.2023.
Generierte Sklearn-Datensätze sind synthetische Datensätze, die mithilfe der Sklearn-Bibliothek in Python generiert werden. Sie werden zum Testen, Benchmarking und Entwickeln von Algorithmen/Modellen für maschinelles Lernen verwendet.
Diese Funktion generiert einen zufälligen n-Klassen-Klassifizierungsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und informativen Merkmalen.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Features und 3 Klassen:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen, mit 3 Klassen und 3 informativen Merkmalen. Die übrigen Funktionen sind redundant oder rauschen.
Code zum Laden des make_classification-Datensatzes mit sklearn. Abgerufen von
Diese Funktion generiert einen zufälligen Regressionsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und Rauschen.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Funktionen und einem Rauschpegel von 0,1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen mit einem Rauschpegel von 0,1. Die Zielvariable y wird eine kontinuierliche Variable sein.
Code zum Laden des make_regression-Datensatzes mit sklearn. Abgerufen von
Diese Funktion generiert einen Zufallsdatensatz mit einer angegebenen Anzahl von Stichproben und Clustern.
Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Stichproben und 3 Clustern:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Dieser Code generiert einen Datensatz mit 100 Stichproben und 2 Merkmalen (X- und Y-Koordinaten), mit 3 Clustern, die an zufälligen Orten zentriert sind, und ohne Rauschen.
Code zum Laden des make_blobs-Datensatzes mit sklearn. Abgerufen von
Diese Funktionen generieren Datensätze mit nichtlinearen Grenzen, die zum Testen nichtlinearer Klassifizierungsalgorithmen nützlich sind.
Hier ist ein Beispielcode zum Laden des make_moons-Datensatzes:
aus sklearn.datasets importiere make_moons
X, y = make_moons(n_samples=1000, Noise=0,2, random_state=42)
Dieser Code generiert einen Datensatz mit 1000 Stichproben und 2 Merkmalen (x- und y-Koordinaten) mit einer nichtlinearen Grenze zwischen den beiden Klassen und mit 0,2 Standardabweichungen des Gaußschen Rauschens, die zu den Daten hinzugefügt werden.
Code zum Laden des make_moons-Datensatzes mit sklearn. Abgerufen von
Hier ist ein Beispielcode zum Generieren und Laden des make_circles-Datensatzes:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Code zum Laden des make_circles-Datensatzes mit sklearn. Abgerufen von
Diese Funktion generiert einen spärlich codierten Signaldatensatz, der zum Testen von Kompressionserfassungsalgorithmen nützlich ist.
Hier ist ein Beispielcode zum Laden dieses Sklearn-Datensatzes:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Dieser Code generiert einen spärlich codierten Signaldatensatz mit 100 Proben, 50 Merkmalen und 10 Atomen.
Code zum Laden des make_sparse_coded_signal-Datensatzes mit sklearn. Abgerufen von
Sklearn-Datensätze bieten Entwicklern und Forschern eine bequeme Möglichkeit, Modelle für maschinelles Lernen zu testen und zu bewerten, ohne Daten manuell sammeln und vorverarbeiten zu müssen.
Sie stehen außerdem jedem zum Download und zur kostenlosen Nutzung zur Verfügung.
Das Hauptbild dieses Artikels wurde mit dem AI Stable Diffusion-Modell von HackerNoon unter Verwendung der Eingabeaufforderung „Iris-Datensatz“ generiert.
Weitere Datensatz-Listicles: