데이터는 기계 학습 알고리즘과 scikit-learn을 지원합니다.
Sklearn 데이터세트는 scikit-learn(
특정 데이터세트를 사용하려면 sklearn.datasets 모듈에서 해당 데이터세트를 가져오고 적절한 함수를 호출하여 데이터를 프로그램에 로드하면 됩니다.
이러한 데이터 세트는 일반적으로 사전 처리되어 즉시 사용할 수 있으므로 다양한 기계 학습 모델 및 알고리즘을 실험해야 하는 데이터 실무자의 시간과 노력을 절약할 수 있습니다.
이 데이터세트에는 세토사(setosa), 베르시컬러(versicolor), 버지니아(Virginica) 등 3가지 종에 속하는 붓꽃 150개의 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비에 대한 측정값이 포함되어 있습니다. 붓꽃 데이터세트에는 150개의 행과 5개의 열이 있으며, 각 꽃의 종에 대한 열을 포함하여 데이터프레임으로 저장됩니다.
변수는 다음과 같습니다.
sklearn.datasets 모듈의 load_iris 함수를 사용하여 sklearn에서 직접 붓꽃 데이터세트를 로드할 수 있습니다.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
sklearn을 사용하여 Iris 데이터 세트를 로드하는 코드입니다. 검색 위치
이 sklearn 데이터 세트에는 인구 통계 및 임상 측정을 포함하여 당뇨병 환자 442명에 대한 정보가 포함되어 있습니다.
당뇨병 데이터세트는 sklearn.datasets 모듈의 load_diabetes() 함수를 사용하여 로드할 수 있습니다.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
sklearn을 사용하여 당뇨병 데이터 세트를 로드하기 위한 코드입니다. 검색 위치
이 sklearn 데이터 세트는 0부터 9까지 손으로 쓴 숫자 모음으로 회색조 이미지로 저장됩니다. 여기에는 총 1797개의 샘플이 포함되어 있으며 각 샘플은 모양 (8,8)의 2D 배열입니다. 숫자 sklearn 데이터 세트에는 각 숫자 이미지의 64픽셀에 해당하는 64개의 변수(또는 기능)가 있습니다.
Digits 데이터세트는 sklearn.datasets 모듈의 load_digits() 함수를 사용하여 로드할 수 있습니다.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
sklearn을 사용하여 Digits 데이터 세트를 로드하는 코드입니다. 검색 위치
Linnerud 데이터세트에는 20명의 프로 운동선수에 대한 신체적, 생리적 측정값이 포함되어 있습니다.
데이터 세트에는 다음 변수가 포함됩니다.
sklearn을 사용하여 Python에서 Linnerud 데이터세트를 로드하려면 다음 안내를 따르세요.
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
sklearn을 사용하여 linnerud 데이터세트를 로드하는 코드입니다. 검색 위치
이 sklearn 데이터 세트에는 와인을 올바른 품종으로 분류하기 위해 이탈리아의 특정 지역에서 재배된 와인의 화학적 분석 결과가 포함되어 있습니다.
데이터세트의 일부 변수는 다음과 같습니다.
Wine 데이터 세트는 sklearn.datasets 모듈의 load_wine() 함수를 사용하여 로드할 수 있습니다.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
sklearn을 사용하여 와인 품질 데이터 세트를 로드하는 코드입니다. 검색 위치
이 sklearn 데이터세트는 유방암 종양에 대한 정보로 구성되어 있으며 처음에는 William H. Wolberg 박사가 만들었습니다. 이 데이터 세트는 연구원과 기계 학습 실무자가 종양을 악성(암성) 또는 양성(비암성)으로 분류하는 데 도움을 주기 위해 만들어졌습니다.
이 데이터 세트에 포함된 일부 변수는 다음과 같습니다.
sklearn.datasets 모듈의 load_breast_cancer 함수를 사용하여 sklearn에서 직접 Breast Cancer Wisconsin 데이터세트를 로드할 수 있습니다.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
sklearn을 사용하여 Breast Cancer Wisconsin 데이터세트를 로드하는 코드입니다. 검색 위치
실제 sklearn 데이터 세트는 Python의 sklearn 라이브러리를 사용하여 기계 학습 알고리즘 및 기술을 연습하고 실험하는 데 일반적으로 사용되는 실제 문제를 기반으로 합니다.
Boston Housing 데이터세트는 매사추세츠주 보스턴 지역의 주택에 대한 정보로 구성됩니다. 여기에는 약 506개의 행과 14개의 열이 있습니다.
데이터 세트의 일부 변수는 다음과 같습니다.
sklearn.datasets 모듈의 load_boston 함수를 사용하여 scikit-learn에서 직접 Boston Housing 데이터세트를 로드할 수 있습니다.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
sklearn을 사용하여 Boston Housing 데이터 세트를 로드하는 코드입니다. 검색 위치
Olivetti Faces 데이터 세트는 1992년 4월부터 1994년 4월까지 AT&T 연구소에서 촬영한 인간 얼굴의 회색조 이미지 모음입니다. 여기에는 10명의 개인에 대한 400개의 이미지가 포함되어 있으며 각 개인은 서로 다른 각도와 조명 조건에서 촬영된 40개의 이미지를 가지고 있습니다.
데이터 세트 모듈의 fetch_olivetti_faces 함수를 사용하여 sklearn에서 Olivetti Faces 데이터 세트를 로드할 수 있습니다.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
sklearn을 사용하여 Olivetti Faces 데이터세트를 로드하는 코드입니다. 검색 위치
이 sklearn 데이터 세트에는 캘리포니아의 인구 조사 지역에 대한 속성뿐만 아니라 중간 주택 가격에 대한 정보가 포함되어 있습니다. 또한 20,640개의 인스턴스와 8개의 기능이 포함되어 있습니다.
데이터세트의 일부 변수는 다음과 같습니다.
sklearn의 fetch_california_housing 함수를 사용하여 캘리포니아 주택 데이터세트를 로드할 수 있습니다.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
sklearn을 사용하여 캘리포니아 주택 데이터 세트를 로드하는 코드입니다. 검색 위치
MNIST 데이터 세트는 기계 학습 및 컴퓨터 비전 분야에서 널리 사용되고 널리 사용됩니다. 이는 손으로 쓴 숫자 0~9의 회색조 이미지 70,000개로 구성되며, 훈련용 이미지 60,000개, 테스트용 이미지 10,000개입니다. 각 이미지의 크기는 28x28픽셀이며 해당 이미지가 나타내는 숫자를 나타내는 해당 라벨이 있습니다.
다음 코드를 사용하여 sklearn에서 MNIST 데이터세트를 로드할 수 있습니다.
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
참고: MNIST 데이터세트는 Digits 데이터세트의 하위 집합입니다.
sklearn을 사용하여 MNIST 데이터세트를 로드하는 코드입니다. 검색 위치
Fashion MNIST 데이터세트는 원래 MNIST 데이터세트를 대체하기 위해 Zalando Research에서 생성되었습니다. Fashion MNIST 데이터세트는 의류 품목에 대한 70,000개의 회색조 이미지(60,000개의 훈련 세트와 10,000개의 테스트 세트)로 구성됩니다.
이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.
fetch_openml 함수를 사용하여 이 sklearn 데이터세트를 로드할 수 있습니다.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
sklearn을 사용하여 Fashion MNIST 데이터세트를 로드하는 코드입니다. 2023년 3월 30일에__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __에서 검색됨.
생성된 sklearn 데이터세트는 Python의 sklearn 라이브러리를 사용하여 생성된 합성 데이터세트입니다. 이는 기계 학습 알고리즘/모델을 테스트, 벤치마킹 및 개발하는 데 사용됩니다.
이 함수는 지정된 수의 샘플, 기능 및 정보 기능을 사용하여 무작위 n 클래스 분류 데이터 세트를 생성합니다.
다음은 100개의 샘플, 5개의 기능 및 3개의 클래스가 포함된 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
이 코드는 100개의 샘플과 5개의 기능, 3개의 클래스와 3개의 정보 기능이 포함된 데이터 세트를 생성합니다. 나머지 기능은 중복되거나 노이즈가 됩니다.
sklearn을 사용하여 make_classification 데이터세트를 로드하는 코드입니다. 검색 위치
이 함수는 지정된 수의 샘플, 기능 및 노이즈를 사용하여 무작위 회귀 데이터 세트를 생성합니다.
다음은 100개의 샘플, 5개의 기능, 노이즈 수준 0.1로 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
이 코드는 노이즈 수준이 0.1인 100개의 샘플과 5개의 기능이 포함된 데이터 세트를 생성합니다. 목표 변수 y는 연속형 변수가 됩니다.
sklearn을 사용하여 make_regression 데이터세트를 로드하는 코드입니다. 검색 위치
이 함수는 지정된 수의 샘플과 클러스터를 사용하여 무작위 데이터세트를 생성합니다.
다음은 100개의 샘플과 3개의 클러스터로 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
이 코드는 100개의 샘플과 2개의 특징(x 및 y 좌표), 3개의 클러스터가 무작위 위치에 중심에 있고 노이즈가 없는 데이터세트를 생성합니다.
sklearn을 사용하여 make_blobs 데이터세트를 로드하기 위한 코드입니다. 검색 위치
이러한 함수는 비선형 분류 알고리즘을 테스트하는 데 유용한 비선형 경계가 있는 데이터세트를 생성합니다.
make_moons 데이터 세트를 로드하는 예제 코드는 다음과 같습니다.
sklearn.datasets에서 make_moons 가져오기
X, y = make_moons(n_samples=1000, 노이즈=0.2, random_state=42)
이 코드는 두 클래스 사이에 비선형 경계가 있고 데이터에 0.2 표준 편차의 가우스 노이즈가 추가된 1000개의 샘플과 2개의 특징(x 및 y 좌표)이 있는 데이터 세트를 생성합니다.
sklearn을 사용하여 make_moons 데이터세트를 로드하는 코드입니다. 검색 위치
make_circles 데이터 세트를 생성하고 로드하는 예제 코드는 다음과 같습니다.
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
sklearn을 사용하여 make_circles 데이터세트를 로드하는 코드입니다. 검색 위치
이 기능은 압축 감지 알고리즘을 테스트하는 데 유용한 희소 코딩된 신호 데이터 세트를 생성합니다.
다음은 이 sklearn 데이터 세트를 로드하기 위한 예제 코드입니다.
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
이 코드는 샘플 100개, 특징 50개, 원자 10개로 코딩된 희소 신호 데이터세트를 생성합니다.
sklearn을 사용하여 make_sparse_coded_signal 데이터 세트를 로드하기 위한 코드입니다. 검색 위치
Sklearn 데이터 세트는 개발자와 연구원이 데이터를 수동으로 수집하고 전처리할 필요 없이 기계 학습 모델을 테스트하고 평가할 수 있는 편리한 방법을 제공합니다.
또한 누구나 자유롭게 다운로드하여 사용할 수 있습니다.
이 기사의 리드 이미지는 프롬프트 '홍채 데이터 세트'를 사용하여 HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.
더 많은 데이터세트 목록: