データは機械学習アルゴリズムと scikit-learn または
Sklearn データセットは、scikit-learn (
特定のデータセットを使用するには、sklearn.datasets モジュールからインポートし、適切な関数を呼び出してデータをプログラムにロードするだけです。
これらのデータセットは通常、前処理されてすぐに使用できるため、さまざまな機械学習モデルやアルゴリズムを試す必要があるデータ担当者の時間と労力を節約できます。
このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリス データセットには 150 行と 5 列があり、各花の種の列を含むデータ フレームとして格納されます。
変数には次のものがあります。
sklearn.datasets モジュールのload_iris関数を使用して、sklearn から直接アイリス データセットを読み込むことができます。
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
sklearn を使用して Iris データセットをロードするためのコード。から取得
この sklearn データセットには、糖尿病患者 442 人に関する情報が含まれており、人口統計学的および臨床的測定値が含まれています。
Diabetes データセットは、sklearn.datasets モジュールのload_diabetes()関数を使用してロードできます。
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
sklearn を使用して糖尿病データセットをロードするためのコード。から取得
この sklearn データセットは、0 から 9 までの手書きの数字のコレクションであり、グレースケール イメージとして保存されます。合計 1797 個のサンプルが含まれており、各サンプルは形状 (8,8) の 2D 配列です。数字 sklearn データセットには、各数字画像の 64 ピクセルに対応する 64 個の変数 (または特徴) があります。
Digits データセットは、sklearn.datasets モジュールのload_digits()関数を使用してロードできます。
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
sklearn を使用して Digits データセットをロードするためのコード。から取得
Linnerud データセットには、20 人のプロのアスリートの身体的および生理学的測定値が含まれています。
データセットには次の変数が含まれます。
sklearn を使用して Python で Linnerud データセットを読み込むには:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
sklearn を使用して linnerud データセットをロードするためのコード。から取得
この sklearn データセットには、ワインを正しい品種に分類するために、イタリアの特定の地域で栽培されたワインの化学分析の結果が含まれています。
データセット内の変数の一部:
Wine データセットは、sklearn.datasets モジュールのload_wine()関数を使用してロードできます。
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
sklearn を使用して Wine Quality データセットをロードするためのコード。から取得
この sklearn データセットは、乳がんの腫瘍に関する情報で構成されており、最初は William H. Wolberg 博士によって作成されました。このデータセットは、研究者や機械学習の専門家が腫瘍を悪性 (癌性) または良性 (非癌性) に分類するのを支援するために作成されました。
このデータセットに含まれる変数の一部:
sklearn.datasets モジュールのload_breast_cancer関数を使用して、sklearn から乳がんウィスコンシン データセットを直接読み込むことができます。
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
sklearn を使用して乳がんウィスコンシン データセットを読み込むためのコード。から取得
実世界の sklearn データセットは、実世界の問題に基づいており、Python の sklearn ライブラリを使用して機械学習アルゴリズムと手法を実践および実験するために一般的に使用されます。
ボストン住宅データセットは、マサチューセッツ州ボストン地域の住宅に関する情報で構成されています。約 506 行と 14 列のデータがあります。
データセット内の変数には次のものがあります。
sklearn.datasets モジュールのload_boston関数を使用して、scikit-learn からボストン ハウジング データセットを直接読み込むことができます。
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
sklearn を使用してボストン住宅データセットを読み込むためのコード。から取得
Olivetti Faces データセットは、AT&T Laboratories で 1992 年 4 月から 1994 年 4 月の間に撮影された人間の顔のグレースケール画像のコレクションです。 10 人の個人の 400 枚の画像が含まれており、各個人は異なる角度と異なる照明条件で撮影された 40 枚の画像を持っています。
データセット モジュールのfetch_olivetti_faces関数を使用して、sklearn に Olivetti Faces データセットを読み込むことができます。
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
sklearn を使用して Olivetti Faces データセットをロードするためのコード。から取得
この sklearn データセットには、住宅の中央値に関する情報と、カリフォルニア州の国勢調査区の属性が含まれています。また、20,640 のインスタンスと 8 つの機能も含まれています。
データセット内の変数の一部:
sklearn のfetch_california_housing関数を使用して、カリフォルニア州住宅データセットを読み込むことができます。
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
sklearn を使用して California Housing データセットをロードするためのコード。から取得
MNIST データセットは人気があり、機械学習とコンピューター ビジョンの分野で広く使用されています。これは、手書きの数字 0 ~ 9 の 70,000 枚のグレースケール画像で構成され、トレーニング用に 60,000 枚の画像、テスト用に 10,000 枚の画像が含まれます。各画像のサイズは 28x28 ピクセルで、対応するラベルで、それが表す数字を示します。
次のコードを使用して、sklearn から MNIST データセットを読み込むことができます。
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
注: MNIST データセットは Digits データセットのサブセットです。
sklearn を使用して MNIST データセットを読み込むためのコード。から取得
Fashion MNIST データセットは、元の MNIST データセットの代わりとして Zalando Research によって作成されました。 Fashion MNIST データセットは、衣料品の 70,000 のグレースケール画像 (60,000 のトレーニング セットと 10,000 のテスト セット) で構成されています。
画像のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクル ブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。
fetch_openml 関数を使用して、この sklearn データセットをロードできます。
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
sklearn を使用して Fashion MNIST データセットをロードするためのコード。 2023 年 3 月 30 日に __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ から取得。
生成された sklearn データセットは、Python の sklearn ライブラリを使用して生成された合成データセットです。それらは、機械学習アルゴリズム/モデルのテスト、ベンチマーク、および開発に使用されます。
この関数は、指定された数のサンプル、特徴、および有益な特徴を持つランダムな n クラス分類データセットを生成します。
100 個のサンプル、5 つの機能、および 3 つのクラスを含むこの sklearn データセットを生成するコード例を次に示します。
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
このコードは、100 個のサンプルと 5 つの特徴、3 つのクラスと 3 つの有益な特徴を含むデータセットを生成します。残りの機能は冗長またはノイズになります。
sklearn を使用して make_classification データセットをロードするためのコード。から取得
この関数は、指定された数のサンプル、特徴、およびノイズを使用して、ランダムな回帰データセットを生成します。
100 個のサンプル、5 つの特徴、および 0.1 のノイズ レベルでこの sklearn データセットを生成するコード例を次に示します。
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
このコードは、ノイズ レベル 0.1 で、100 個のサンプルと 5 個の特徴を含むデータセットを生成します。ターゲット変数 y は連続変数になります。
sklearn を使用して make_regression データセットをロードするためのコード。から取得
この関数は、指定された数のサンプルとクラスターを持つランダム データセットを生成します。
100 個のサンプルと 3 つのクラスターでこの sklearn データセットを生成するコード例を次に示します。
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
このコードは、100 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成します。3 つのクラスターはランダムな位置に集中し、ノイズはありません。
sklearn を使用して make_blobs データセットをロードするためのコード。から取得
これらの関数は、非線形分類アルゴリズムのテストに役立つ非線形境界を持つデータセットを生成します。
make_moons データセットをロードするコードの例を次に示します。
sklearn.datasets import make_moons から
X, y = make_moons(n_samples=1000, ノイズ=0.2, random_state=42)
このコードは、1000 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成し、2 つのクラス間に非線形境界があり、0.2 標準偏差のガウス ノイズがデータに追加されます。
sklearn を使用して make_moons データセットをロードするためのコード。から取得
make_circles データセットを生成して読み込むコードの例を次に示します。
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
sklearn を使用して make_circles データセットをロードするためのコード。から取得
この関数は、圧縮センシング アルゴリズムのテストに役立つスパース コード信号データセットを生成します。
この sklearn データセットをロードするためのコード例を次に示します。
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
このコードは、100 個のサンプル、50 個の特徴、および 10 個の原子を含むスパース コード信号データセットを生成します。
sklearn を使用して make_sparse_coded_signal データセットをロードするためのコード。から取得
Sklearn データセットは、データを手動で収集して前処理することなく、開発者や研究者が機械学習モデルをテストおよび評価するための便利な方法を提供します。
また、どなたでも自由にダウンロードしてご利用いただけます。
この記事のリード画像は、プロンプト「アイリス データセット」を使用して、 HackerNoon の AI Stable Diffusionモデルによって生成されました。
その他のデータセット リスト: