Os dados alimentam algoritmos de aprendizado de máquina e scikit-learn ou
Os conjuntos de dados Sklearn são incluídos como parte do scikit-learn (
Para usar um conjunto de dados específico, você pode simplesmente importá-lo do módulo sklearn.datasets e chamar a função apropriada para carregar os dados em seu programa.
Esses conjuntos de dados geralmente são pré-processados e prontos para uso, o que economiza tempo e esforço para profissionais de dados que precisam experimentar diferentes modelos e algoritmos de aprendizado de máquina.
Este conjunto de dados inclui medições do comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala de 150 flores de íris, que pertencem a 3 espécies diferentes: setosa, versicolor e virginica. O dataset iris possui 150 linhas e 5 colunas, que são armazenadas como um dataframe, incluindo uma coluna para as espécies de cada flor.
As variáveis incluem:
Você pode carregar o conjunto de dados da íris diretamente do sklearn usando a função load_iris do módulo sklearn.datasets.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Código para carregar o conjunto de dados Iris usando sklearn. Recuperado de
Este conjunto de dados sklearn contém informações sobre 442 pacientes com diabetes, incluindo medições demográficas e clínicas:
O conjunto de dados Diabetes pode ser carregado usando a função load_diabetes() do módulo sklearn.datasets.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Código para carregar o conjunto de dados Diabetes usando sklearn. Recuperado de
Este conjunto de dados sklearn é uma coleção de dígitos escritos à mão de 0 a 9, armazenados como imagens em tons de cinza. Ele contém um total de 1797 amostras, com cada amostra sendo uma matriz 2D de forma (8,8). Existem 64 variáveis (ou recursos) no conjunto de dados do sklearn de dígitos, correspondendo aos 64 pixels em cada imagem de dígito.
O conjunto de dados Digits pode ser carregado usando a função load_digits() do módulo sklearn.datasets.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Código para carregar o conjunto de dados Digits usando sklearn. Recuperado de
O conjunto de dados Linnerud contém medições físicas e fisiológicas de 20 atletas profissionais.
O conjunto de dados inclui as seguintes variáveis:
Para carregar o conjunto de dados Linnerud em Python usando sklearn:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Código para carregar o conjunto de dados linnerud usando sklearn. Recuperado de
Este conjunto de dados sklearn contém os resultados de análises químicas de vinhos cultivados em uma área específica da Itália, para classificar os vinhos em suas variedades corretas.
Algumas das variáveis no conjunto de dados:
O conjunto de dados Wine pode ser carregado usando a função load_wine() do módulo sklearn.datasets.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Código para carregar o conjunto de dados Wine Quality usando sklearn. Recuperado de
Este conjunto de dados sklearn consiste em informações sobre tumores de câncer de mama e foi inicialmente criado pelo Dr. William H. Wolberg. O conjunto de dados foi criado para auxiliar pesquisadores e profissionais de aprendizado de máquina na classificação de tumores como malignos (cancerígenos) ou benignos (não cancerosos).
Algumas das variáveis incluídas neste conjunto de dados:
Você pode carregar o conjunto de dados Breast Cancer Wisconsin diretamente do sklearn usando a função load_breast_cancer do módulo sklearn.datasets.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Código para carregar o conjunto de dados Breast Cancer Wisconsin usando sklearn. Recuperado de
Os conjuntos de dados sklearn do mundo real são baseados em problemas do mundo real, comumente usados para praticar e experimentar algoritmos e técnicas de aprendizado de máquina usando a biblioteca sklearn em Python.
O conjunto de dados de habitação de Boston consiste em informações sobre habitação na área de Boston, Massachusetts. Tem cerca de 506 linhas e 14 colunas de dados.
Algumas das variáveis no conjunto de dados incluem:
Você pode carregar o conjunto de dados Boston Housing diretamente do scikit-learn usando a função load_boston do módulo sklearn.datasets.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Código para carregar o conjunto de dados do Boston Housing usando sklearn. Recuperado de
O conjunto de dados Olivetti Faces é uma coleção de imagens em tons de cinza de rostos humanos tiradas entre abril de 1992 e abril de 1994 nos Laboratórios AT&T. Ele contém 400 imagens de 10 indivíduos, com cada indivíduo tendo 40 imagens tiradas em diferentes ângulos e diferentes condições de iluminação.
Você pode carregar o conjunto de dados Olivetti Faces no sklearn usando a função fetch_olivetti_faces do módulo de conjuntos de dados.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Código para carregar o conjunto de dados Olivetti Faces usando sklearn. Recuperado de
Este conjunto de dados sklearn contém informações sobre os valores medianos das casas, bem como atributos para setores censitários na Califórnia. Ele também inclui 20.640 instâncias e 8 recursos.
Algumas das variáveis no conjunto de dados:
Você pode carregar o conjunto de dados California Housing usando a função fetch_california_housing do sklearn.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Código para carregar o conjunto de dados California Housing usando sklearn. Recuperado de
O conjunto de dados MNIST é popular e amplamente utilizado nas áreas de aprendizado de máquina e visão computacional. Consiste em 70.000 imagens em tons de cinza de dígitos manuscritos de 0 a 9, com 60.000 imagens para treinamento e 10.000 para teste. Cada imagem tem 28x28 pixels de tamanho e possui um rótulo correspondente indicando quais dígitos ela representa.
Você pode carregar o conjunto de dados MNIST do sklearn usando o seguinte código:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Nota: O conjunto de dados MNIST é um subconjunto do conjunto de dados Digits.
Código para carregar o conjunto de dados MNIST usando sklearn. Recuperado de
O conjunto de dados Fashion MNIST foi criado pela Zalando Research como um substituto para o conjunto de dados MNIST original. O conjunto de dados Fashion MNIST consiste em 70.000 imagens em tons de cinza (conjunto de treinamento de 60.000 e um conjunto de teste de 10.000) de itens de vestuário.
As imagens têm tamanho de 28 x 28 pixels e representam 10 classes diferentes de itens de vestuário, incluindo camisetas/blusas, calças, pulôveres, vestidos, casacos, sandálias, camisas, tênis, bolsas e botins. É semelhante ao conjunto de dados MNIST original, mas com tarefas de classificação mais desafiadoras devido à maior complexidade e variedade dos itens de vestuário.
Você pode carregar este conjunto de dados sklearn usando a função fetch_openml.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Código para carregar o conjunto de dados Fashion MNIST usando sklearn. Recuperado de__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ em 30/3/2023.
Conjuntos de dados sklearn gerados são conjuntos de dados sintéticos, gerados usando a biblioteca sklearn em Python. Eles são usados para testar, comparar e desenvolver algoritmos/modelos de aprendizado de máquina.
Essa função gera um conjunto de dados de classificação de n classes aleatório com um número especificado de amostras, recursos e recursos informativos.
Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e 3 classes:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Esse código gera um conjunto de dados com 100 amostras e 5 recursos, sendo 3 classes e 3 recursos informativos. Os recursos restantes serão redundantes ou ruído.
Código para carregar o conjunto de dados make_classification usando sklearn. Recuperado de
Essa função gera um conjunto de dados de regressão aleatória com um número especificado de amostras, recursos e ruído.
Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras, 5 recursos e nível de ruído de 0,1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Este código gera um conjunto de dados com 100 amostras e 5 características, com um nível de ruído de 0,1. A variável de destino y será uma variável contínua.
Código para carregar o conjunto de dados make_regression usando sklearn. Recuperado de
Essa função gera um conjunto de dados aleatório com um número especificado de amostras e clusters.
Aqui está um código de exemplo para gerar este conjunto de dados sklearn com 100 amostras e 3 clusters:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Esse código gera um conjunto de dados com 100 amostras e 2 recursos (coordenadas x e y), com 3 clusters centralizados em locais aleatórios e sem ruído.
Código para carregar o conjunto de dados make_blobs usando sklearn. Recuperado de
Essas funções geram conjuntos de dados com limites não lineares que são úteis para testar algoritmos de classificação não linear.
Aqui está um exemplo de código para carregar o conjunto de dados make_moons:
de sklearn.datasets import make_moons
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
Esse código gera um conjunto de dados com 1.000 amostras e 2 recursos (coordenadas x e y) com um limite não linear entre as duas classes e com 0,2 desvios padrão de ruído gaussiano adicionado aos dados.
Código para carregar o conjunto de dados make_moons usando sklearn. Recuperado de
Aqui está um exemplo de código para gerar e carregar o conjunto de dados make_circles:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Código para carregar o conjunto de dados make_circles usando sklearn. Recuperado de
Esta função gera um conjunto de dados de sinal codificado esparso que é útil para testar algoritmos de detecção compressiva.
Aqui está um código de exemplo para carregar este conjunto de dados sklearn:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Esse código gera um conjunto de dados de sinal codificado esparso com 100 amostras, 50 recursos e 10 átomos.
Código para carregar o conjunto de dados make_sparse_coded_signal usando sklearn. Recuperado de
Os conjuntos de dados do Sklearn fornecem uma maneira conveniente para desenvolvedores e pesquisadores testarem e avaliarem modelos de aprendizado de máquina sem precisar coletar e pré-processar manualmente os dados.
Eles também estão disponíveis para qualquer pessoa baixar e usar livremente.
A imagem principal deste artigo foi gerada por meio do modelo AI Stable Diffusion do HackerNoon usando o prompt 'iris dataset'.
Mais listas de conjuntos de dados: