Les données alimentent les algorithmes d'apprentissage automatique et scikit-learn ou
Les ensembles de données Sklearn sont inclus dans le cadre du scikit-learn (
Pour utiliser un jeu de données spécifique, vous pouvez simplement l'importer depuis le module sklearn.datasets et appeler la fonction appropriée pour charger les données dans votre programme.
Ces ensembles de données sont généralement prétraités et prêts à l'emploi, ce qui fait gagner du temps et des efforts aux praticiens des données qui doivent expérimenter différents modèles et algorithmes d'apprentissage automatique.
Cet ensemble de données comprend des mesures de la longueur des sépales, de la largeur des sépales, de la longueur des pétales et de la largeur des pétales de 150 fleurs d'iris, qui appartiennent à 3 espèces différentes : setosa, versicolor et virginica. L'ensemble de données d'iris comporte 150 lignes et 5 colonnes, qui sont stockées sous forme de données, y compris une colonne pour l'espèce de chaque fleur.
Les variables comprennent :
Vous pouvez charger l'ensemble de données iris directement depuis sklearn à l'aide de la fonction load_iris du module sklearn.datasets.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Code pour charger le jeu de données Iris à l'aide de sklearn. Extrait de
Cet ensemble de données sklearn contient des informations sur 442 patients atteints de diabète, y compris des mesures démographiques et cliniques :
L'ensemble de données sur le diabète peut être chargé à l'aide de la fonction load_diabetes() du module sklearn.datasets.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Code pour charger l'ensemble de données sur le diabète à l'aide de sklearn. Extrait de
Cet ensemble de données sklearn est une collection de chiffres écrits à la main de 0 à 9, stockés sous forme d'images en niveaux de gris. Il contient un total de 1797 échantillons, chaque échantillon étant un tableau 2D de forme (8,8). Il y a 64 variables (ou caractéristiques) dans le jeu de données digits sklearn, correspondant aux 64 pixels de chaque image numérique.
L'ensemble de données Digits peut être chargé à l'aide de la fonction load_digits() du module sklearn.datasets.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Code pour charger le jeu de données Digits à l'aide de sklearn. Extrait de
L'ensemble de données Linnerud contient des mesures physiques et physiologiques de 20 athlètes professionnels.
L'ensemble de données comprend les variables suivantes :
Pour charger l'ensemble de données Linnerud en Python à l'aide de sklearn :
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Code pour charger le jeu de données linnerud à l'aide de sklearn. Extrait de
Cet ensemble de données sklearn contient les résultats d'analyses chimiques de vins cultivés dans une région spécifique d'Italie, pour classer les vins dans leurs variétés correctes.
Certaines des variables de l'ensemble de données :
L'ensemble de données Wine peut être chargé à l'aide de la fonction load_wine() du module sklearn.datasets.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Code pour charger l'ensemble de données Wine Quality à l'aide de sklearn. Extrait de
Cet ensemble de données sklearn contient des informations sur les tumeurs du cancer du sein et a été initialement créé par le Dr William H. Wolberg. L'ensemble de données a été créé pour aider les chercheurs et les praticiens de l'apprentissage automatique à classer les tumeurs comme malignes (cancéreuses) ou bénignes (non cancéreuses).
Certaines des variables incluses dans cet ensemble de données :
Vous pouvez charger l'ensemble de données Breast Cancer Wisconsin directement à partir de sklearn à l'aide de la fonction load_breast_cancer du module sklearn.datasets.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Code pour charger l'ensemble de données Breast Cancer Wisconsin à l'aide de sklearn. Extrait de
Les ensembles de données sklearn du monde réel sont basés sur des problèmes du monde réel, couramment utilisés pour pratiquer et expérimenter des algorithmes et des techniques d'apprentissage automatique à l'aide de la bibliothèque sklearn en Python.
L'ensemble de données Boston Housing comprend des informations sur le logement dans la région de Boston, Massachusetts. Il contient environ 506 lignes et 14 colonnes de données.
Certaines des variables de l'ensemble de données incluent :
Vous pouvez charger l'ensemble de données Boston Housing directement depuis scikit-learn à l'aide de la fonction load_boston du module sklearn.datasets.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Code pour charger l'ensemble de données Boston Housing à l'aide de sklearn. Extrait de
L'ensemble de données Olivetti Faces est une collection d'images en niveaux de gris de visages humains prises entre avril 1992 et avril 1994 aux laboratoires AT&T. Il contient 400 images de 10 individus, chaque individu ayant 40 images prises sous différents angles et différentes conditions d'éclairage.
Vous pouvez charger l'ensemble de données Olivetti Faces dans sklearn en utilisant la fonction fetch_olivetti_faces du module d'ensembles de données.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Code pour charger le jeu de données Olivetti Faces à l'aide de sklearn. Extrait de
Cet ensemble de données sklearn contient des informations sur les valeurs médianes des maisons, ainsi que des attributs pour les secteurs de recensement en Californie. Il comprend également 20 640 instances et 8 fonctionnalités.
Certaines des variables de l'ensemble de données :
Vous pouvez charger l'ensemble de données California Housing à l'aide de la fonction fetch_california_housing de sklearn.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Code pour charger l'ensemble de données California Housing à l'aide de sklearn. Extrait de
L'ensemble de données MNIST est populaire et largement utilisé dans les domaines de l'apprentissage automatique et de la vision par ordinateur. Il se compose de 70 000 images en niveaux de gris de chiffres manuscrits de 0 à 9, avec 60 000 images pour la formation et 10 000 pour les tests. Chaque image a une taille de 28x28 pixels et a une étiquette correspondante indiquant les chiffres qu'elle représente.
Vous pouvez charger le jeu de données MNIST à partir de sklearn en utilisant le code suivant :
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Remarque : L'ensemble de données MNIST est un sous-ensemble de l'ensemble de données Digits.
Code pour charger le jeu de données MNIST à l'aide de sklearn. Extrait de
L'ensemble de données Fashion MNIST a été créé par Zalando Research en remplacement de l'ensemble de données MNIST d'origine. L'ensemble de données Fashion MNIST se compose de 70 000 images en niveaux de gris (ensemble d'entraînement de 60 000 et un ensemble de test de 10 000) d'articles vestimentaires.
Les images ont une taille de 28 x 28 pixels et représentent 10 classes différentes de vêtements, notamment des t-shirts/hauts, des pantalons, des pulls, des robes, des manteaux, des sandales, des chemises, des baskets, des sacs et des bottines. Il est similaire à l'ensemble de données MNIST original, mais avec des tâches de classification plus difficiles en raison de la plus grande complexité et de la variété des vêtements.
Vous pouvez charger cet ensemble de données sklearn à l'aide de la fonction fetch_openml.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Code pour charger le jeu de données Fashion MNIST à l'aide de sklearn. Extrait de __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ le 30/3/2023.
Les ensembles de données sklearn générés sont des ensembles de données synthétiques, générés à l'aide de la bibliothèque sklearn en Python. Ils sont utilisés pour tester, comparer et développer des algorithmes/modèles d'apprentissage automatique.
Cette fonction génère un jeu de données de classification aléatoire de classe n avec un nombre spécifié d'échantillons, de caractéristiques et de caractéristiques informatives.
Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons, 5 fonctionnalités et 3 classes :
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Ce code génère un jeu de données avec 100 échantillons et 5 caractéristiques, avec 3 classes et 3 caractéristiques informatives. Les fonctionnalités restantes seront redondantes ou parasites.
Code pour charger l'ensemble de données make_classification à l'aide de sklearn. Extrait de
Cette fonction génère un jeu de données de régression aléatoire avec un nombre spécifié d'échantillons, de caractéristiques et de bruit.
Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons, 5 caractéristiques et un niveau de bruit de 0,1 :
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Ce code génère un jeu de données avec 100 échantillons et 5 caractéristiques, avec un niveau de bruit de 0,1. La variable cible y sera une variable continue.
Code pour charger l'ensemble de données make_regression à l'aide de sklearn. Extrait de
Cette fonction génère un jeu de données aléatoire avec un nombre spécifié d'échantillons et de grappes.
Voici un exemple de code pour générer cet ensemble de données sklearn avec 100 échantillons et 3 clusters :
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Ce code génère un jeu de données avec 100 échantillons et 2 caractéristiques (coordonnées x et y), avec 3 clusters centrés à des emplacements aléatoires et sans bruit.
Code pour charger l'ensemble de données make_blobs à l'aide de sklearn. Extrait de
Ces fonctions génèrent des ensembles de données avec des limites non linéaires qui sont utiles pour tester des algorithmes de classification non linéaires.
Voici un exemple de code pour charger l'ensemble de données make_moons :
à partir de sklearn.datasets importer make_moons
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
Ce code génère un jeu de données avec 1000 échantillons et 2 caractéristiques (coordonnées x et y) avec une frontière non linéaire entre les deux classes et avec 0,2 écart type de bruit gaussien ajouté aux données.
Code pour charger le jeu de données make_moons à l'aide de sklearn. Extrait de
Voici un exemple de code pour générer et charger l'ensemble de données make_circles :
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Code pour charger l'ensemble de données make_circles à l'aide de sklearn. Extrait de
Cette fonction génère un ensemble de données de signaux codés clairsemés qui est utile pour tester les algorithmes de détection de compression.
Voici un exemple de code pour charger cet ensemble de données sklearn :
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Ce code génère un ensemble de données de signaux codés clairsemés avec 100 échantillons, 50 caractéristiques et 10 atomes.
Code pour charger l'ensemble de données make_sparse_coded_signal à l'aide de sklearn. Extrait de
Les ensembles de données Sklearn offrent aux développeurs et aux chercheurs un moyen pratique de tester et d'évaluer des modèles d'apprentissage automatique sans avoir à collecter et à prétraiter manuellement les données.
Ils sont également disponibles pour tout le monde à télécharger et à utiliser librement.
L'image principale de cet article a été générée via le modèle AI Stable Diffusion de HackerNoon à l'aide de l'invite "iris dataset".
Plus de listes d'ensembles de données :