機械学習モデルの構築に最適な 16 の Sklearn データセット

データは機械学習アルゴリズムと scikit-learn またはsklearn研究者、実務家、愛好家によって広く使用されている高品質のデータセットを提供します。 scikit-learn (sklearn) は、SciPy の上に構築された機械学習用の Python モジュールです。幅広いアルゴリズム、使いやすさ、他の Python ライブラリとの統合が特徴です。

「Sklearn データセット」とは何ですか?

Sklearn データセットは、scikit-learn ( sklearn ) ライブラリなので、ライブラリにプリインストールされています。このため、これらのデータセットを個別にダウンロードしなくても、簡単にアクセスして読み込むことができます。

特定のデータセットを使用するには、sklearn.datasets モジュールからインポートし、適切な関数を呼び出してデータをプログラムにロードするだけです。

これらのデータセットは通常、前処理されてすぐに使用できるため、さまざまな機械学習モデルやアルゴリズムを試す必要があるデータ担当者の時間と労力を節約できます。

Sklearn ライブラリのデータセットの完全なリスト

虹彩
糖尿病
数字
リネルド
ワイン
乳癌ウィスコンシン
ボストンハウジング
オリベッティの顔
カリフォルニア州の住宅
MNIST
ファッション-MNIST
make_classification
make_regression
make_blobs
make_moons と make_circles
Make_sparse_coded_signal

プリインストールされた（おもちゃの）Sklearnデータセット

1.虹彩

このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリスデータセットには 150 行と 5 列があり、各花の種の列を含むデータフレームとして格納されます。

変数には次のものがあります。

Sepal.Length - sepal.length はがく片の長さをセンチメートル単位で表します。
Sepal.Width - sepal.width は、がく片の幅をセンチメートル単位で表します。
Petal.Length - petal.length は、花びらの長さをセンチメートル単位で表します。
Species - 種変数は、アヤメの花の種を表し、可能な値は setosa、versicolor、virginica の 3 つです。

sklearn.datasets モジュールのload_iris関数を使用して、sklearn から直接アイリスデータセットを読み込むことができます。

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

sklearn を使用して Iris データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 2023 年 3 月 27 日。

2.糖尿病

この sklearn データセットには、糖尿病患者 442 人に関する情報が含まれており、人口統計学的および臨床的測定値が含まれています。

年
セックス
体格指数 (BMI)
平均血圧
6回の血清測定（総コレステロール、低密度リポタンパク質（LDL）コレステロール、高密度リポタンパク質（HDL）コレステロールなど）。
糖尿病疾患の進行 (HbA1c) の定量的尺度。

Diabetes データセットは、sklearn.datasets モジュールのload_diabetes()関数を使用してロードできます。

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

sklearn を使用して糖尿病データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 2023 年 3 月 28 日。

3.数字

この sklearn データセットは、0 から 9 までの手書きの数字のコレクションであり、グレースケールイメージとして保存されます。合計 1797 個のサンプルが含まれており、各サンプルは形状 (8,8) の 2D 配列です。数字 sklearn データセットには、各数字画像の 64 ピクセルに対応する 64 個の変数 (または特徴) があります。

Digits データセットは、sklearn.datasets モジュールのload_digits()関数を使用してロードできます。

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

sklearn を使用して Digits データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset 2023 年 3 月 29 日。

4. リネルド

Linnerud データセットには、20 人のプロのアスリートの身体的および生理学的測定値が含まれています。

データセットには次の変数が含まれます。

3 つの身体運動変数 - チンアップ、シットアップ、ジャンピングジャック。
3 つの生理学的測定変数 - 脈拍、収縮期血圧、および拡張期血圧。

sklearn を使用して Python で Linnerud データセットを読み込むには:

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

sklearn を使用して linnerud データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 2023 年 3 月 27 日。

5.ワイン

この sklearn データセットには、ワインを正しい品種に分類するために、イタリアの特定の地域で栽培されたワインの化学分析の結果が含まれています。

データセット内の変数の一部:

アルコール
リンゴ酸
灰
灰のアルカリ度
マグネシウム
総フェノール
フラボノイド

Wine データセットは、sklearn.datasets モジュールのload_wine()関数を使用してロードできます。

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

sklearn を使用して Wine Quality データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 2023 年 3 月 28 日。

6. 乳癌ウィスコンシンデータセット

この sklearn データセットは、乳がんの腫瘍に関する情報で構成されており、最初は William H. Wolberg 博士によって作成されました。このデータセットは、研究者や機械学習の専門家が腫瘍を悪性 (癌性) または良性 (非癌性) に分類するのを支援するために作成されました。

このデータセットに含まれる変数の一部:

ID番号
診断 (M = 悪性、B = 良性)。
半径 (中心から周囲の点までの距離の平均)。
テクスチャ (グレースケール値の標準偏差)。
周長
エリア
滑らかさ (半径の長さの局所的な変化)。
コンパクトさ (周囲^2 / 面積 - 1.0)。
凹み (輪郭の凹み部分の程度)。
凹点（輪郭の凹みの数）。
対称
フラクタル次元 (「海岸線近似」 - 1)。

sklearn.datasets モジュールのload_breast_cancer関数を使用して、sklearn から乳がんウィスコンシンデータセットを直接読み込むことができます。

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

sklearn を使用して乳がんウィスコンシンデータセットを読み込むためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html 2023 年 3 月 28 日。

実世界の Sklearn データセット

実世界の sklearn データセットは、実世界の問題に基づいており、Python の sklearn ライブラリを使用して機械学習アルゴリズムと手法を実践および実験するために一般的に使用されます。

7。ボストンハウジング

ボストン住宅データセットは、マサチューセッツ州ボストン地域の住宅に関する情報で構成されています。約 506 行と 14 列のデータがあります。

データセット内の変数には次のものがあります。

CRIM - 町ごとの一人当たりの犯罪率。
ZN - 25,000 平方フィートを超える区画に区画された住宅地の割合。
INDUS - 町ごとの非小売業エーカーの割合。
CHAS - チャールズリバーのダミー変数 (トラクトが川に接している場合は = 1、それ以外の場合は 0)。
NOX - 一酸化窒素濃度 (1000 万分の 1)。
RM - 住居あたりの平均部屋数。
AGE - 1940 年以前に建てられた個人所有のユニットの割合。
DIS - ボストンの 5 つの雇用センターまでの加重距離。
RAD - 放射状高速道路へのアクセシビリティのインデックス。
TAX - $10,000 あたりの固定資産税の全額。
PTRATIO - 町ごとの生徒と教師の比率。
B - 1000(Bk - 0.63)^2 ここで、-Bk は町ごとの黒人の割合です。
LSTAT - 母集団の低いステータスのパーセンテージ。
MEDV - 1,000 ドル単位の持ち家住宅の中央値。

sklearn.datasets モジュールのload_boston関数を使用して、scikit-learn からボストンハウジングデータセットを直接読み込むことができます。

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

sklearn を使用してボストン住宅データセットを読み込むためのコード。から取得https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html 2023 年 3 月 29 日。

8. オリベッティの顔

Olivetti Faces データセットは、AT&T Laboratories で 1992 年 4 月から 1994 年 4 月の間に撮影された人間の顔のグレースケール画像のコレクションです。 10 人の個人の 400 枚の画像が含まれており、各個人は異なる角度と異なる照明条件で撮影された 40 枚の画像を持っています。

データセットモジュールのfetch_olivetti_faces関数を使用して、sklearn に Olivetti Faces データセットを読み込むことができます。

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

sklearn を使用して Olivetti Faces データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 2023 年 3 月 29 日。

9. カリフォルニア州の住宅

この sklearn データセットには、住宅の中央値に関する情報と、カリフォルニア州の国勢調査区の属性が含まれています。また、20,640 のインスタンスと 8 つの機能も含まれています。

データセット内の変数の一部:

MedInc - ブロック内の収入の中央値。
HouseAge - ブロック内の住宅の築年数の中央値。
AveRooms - 1 世帯あたりの部屋の平均数。
AveBedrms - 世帯あたりの寝室の平均数。
人口 - ブロックの人口。
AveOccup - 世帯の平均占有率。
緯度 - ブロックの緯度 (10 進度)。
経度 - ブロックの経度 (10 進度)。

sklearn のfetch_california_housing関数を使用して、カリフォルニア州住宅データセットを読み込むことができます。

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

sklearn を使用して California Housing データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 2023 年 3 月 29 日。

10. MNIST

MNIST データセットは人気があり、機械学習とコンピュータービジョンの分野で広く使用されています。これは、手書きの数字 0 ～ 9 の 70,000 枚のグレースケール画像で構成され、トレーニング用に 60,000 枚の画像、テスト用に 10,000 枚の画像が含まれます。各画像のサイズは 28x28 ピクセルで、対応するラベルで、それが表す数字を示します。

次のコードを使用して、sklearn から MNIST データセットを読み込むことができます。

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

注: MNIST データセットは Digits データセットのサブセットです。

sklearn を使用して MNIST データセットを読み込むためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 2023 年 3 月 30 日。

11.ファッション-MNIST

Fashion MNIST データセットは、元の MNIST データセットの代わりとして Zalando Research によって作成されました。 Fashion MNIST データセットは、衣料品の 70,000 のグレースケール画像 (60,000 のトレーニングセットと 10,000 のテストセット) で構成されています。

画像のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクルブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。

fetch_openml 関数を使用して、この sklearn データセットをロードできます。

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

sklearn を使用して Fashion MNIST データセットをロードするためのコード。 2023 年 3 月 30 日に __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ から取得。

生成された Sklearn データセット

生成された sklearn データセットは、Python の sklearn ライブラリを使用して生成された合成データセットです。それらは、機械学習アルゴリズム/モデルのテスト、ベンチマーク、および開発に使用されます。

12. make_classification

この関数は、指定された数のサンプル、特徴、および有益な特徴を持つランダムな n クラス分類データセットを生成します。

100 個のサンプル、5 つの機能、および 3 つのクラスを含むこの sklearn データセットを生成するコード例を次に示します。

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

このコードは、100 個のサンプルと 5 つの特徴、3 つのクラスと 3 つの有益な特徴を含むデータセットを生成します。残りの機能は冗長またはノイズになります。

sklearn を使用して make_classification データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 2023 年 3 月 30 日。

13. make_regression

この関数は、指定された数のサンプル、特徴、およびノイズを使用して、ランダムな回帰データセットを生成します。

100 個のサンプル、5 つの特徴、および 0.1 のノイズレベルでこの sklearn データセットを生成するコード例を次に示します。

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

このコードは、ノイズレベル 0.1 で、100 個のサンプルと 5 個の特徴を含むデータセットを生成します。ターゲット変数 y は連続変数になります。

sklearn を使用して make_regression データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 2023 年 3 月 30 日。

14. make_blobs

この関数は、指定された数のサンプルとクラスターを持つランダムデータセットを生成します。

100 個のサンプルと 3 つのクラスターでこの sklearn データセットを生成するコード例を次に示します。

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

このコードは、100 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成します。3 つのクラスターはランダムな位置に集中し、ノイズはありません。

sklearn を使用して make_blobs データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 2023 年 3 月 30 日。

15. make_moonsとメイクサークル

これらの関数は、非線形分類アルゴリズムのテストに役立つ非線形境界を持つデータセットを生成します。

make_moons データセットをロードするコードの例を次に示します。

sklearn.datasets import make_moons から

X, y = make_moons(n_samples=1000, ノイズ=0.2, random_state=42)

このコードは、1000 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成し、2 つのクラス間に非線形境界があり、0.2 標準偏差のガウスノイズがデータに追加されます。

sklearn を使用して make_moons データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 2023 年 3 月 30 日。

make_circles データセットを生成して読み込むコードの例を次に示します。

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

sklearn を使用して make_circles データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 2023 年 3 月 30 日。

16. make_sparse_coded_signal

この関数は、圧縮センシングアルゴリズムのテストに役立つスパースコード信号データセットを生成します。

この sklearn データセットをロードするためのコード例を次に示します。

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

このコードは、100 個のサンプル、50 個の特徴、および 10 個の原子を含むスパースコード信号データセットを生成します。

sklearn を使用して make_sparse_coded_signal データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 2023 年 3 月 30 日。

Sklearn データセットの一般的な使用例

プリインストールされた（おもちゃの）Sklearnデータセット

虹彩- この sklearn データセットは、分類タスクに一般的に使用され、分類アルゴリズムをテストするためのベンチマークデータセットとして使用されます。

糖尿病- このデータセットには、糖尿病患者に関する医療情報が含まれており、医療分析の分類および回帰タスクに使用されます。

数字- この sklearn データセットには、手書き数字の画像が含まれており、画像分類やパターン認識タスクに一般的に使用されます。

リネルド- このデータセットには、20 人のアスリートの体力と医療データが含まれており、多変量回帰分析によく使用されます。

ワイン- この sklearn データセットには、ワインの化学分析が含まれており、一般的に分類およびクラスタリングタスクに使用されます。

乳癌ウィスコンシン- このデータセットには、乳がん患者に関する医療情報が含まれており、医療分析の分類タスクに一般的に使用されます。

実世界の Sklearn データセット

ボストンハウジング- この sklearn データセットには、ボストンの住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。

オリベッティの顔- このデータセットには顔のグレースケール画像が含まれており、画像分類や顔認識タスクによく使用されます。

カリフォルニア州の住宅- この sklearn データセットには、カリフォルニア州の住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。

MNIST - このデータセットには、手書きの数字の画像が含まれており、画像分類やパターン認識タスクによく使用されます。

ファッション-MNIST - この sklearn データセットには衣料品の画像が含まれており、一般的に画像分類やパターン認識タスクに使用されます。

生成された Sklearn データセット

make_classification - このデータセットは、バイナリおよびマルチクラス分類タスク用にランダムに生成されたデータセットです。

make_regression - このデータセットは、回帰タスク用にランダムに生成されたデータセットです。

make_blobs - この sklearn データセットは、クラスタリングタスク用にランダムに生成されたデータセットです。

make_moonsとメイクサークル- これらのデータセットは、分類タスク用にランダムに生成されたデータセットであり、一般に非線形分類器のテストに使用されます。

make_sparse_coded_signal - このデータセットは、信号処理におけるスパースコーディングタスク用にランダムに生成されたデータセットです。

最終的な考え

Sklearn データセットは、データを手動で収集して前処理することなく、開発者や研究者が機械学習モデルをテストおよび評価するための便利な方法を提供します。

また、どなたでも自由にダウンロードしてご利用いただけます。

この記事のリード画像は、プロンプト「アイリスデータセット」を使用して、 HackerNoon の AI Stable Diffusionモデルによって生成されました。

その他のデータセットリスト:

機械学習モデルの構築に最適な 16 の Sklearn データセット

長すぎる; 読むには

「Sklearn データセット」とは何ですか?

Sklearn ライブラリのデータセットの完全なリスト

プリインストールされた（おもちゃの）Sklearnデータセット

1.虹彩

2.糖尿病

3.数字

4. リネルド

5.ワイン

6. 乳癌ウィスコンシンデータセット

実世界の Sklearn データセット

7。ボストンハウジング

8. オリベッティの顔

9. カリフォルニア州の住宅

10. MNIST

11.ファッション-MNIST

生成された Sklearn データセット

12. make_classification

13. make_regression

14. make_blobs

15. make_moonsとメイクサークル

16. make_sparse_coded_signal

Sklearn データセットの一般的な使用例

プリインストールされた（おもちゃの）Sklearnデータセット

実世界の Sklearn データセット

生成された Sklearn データセット

最終的な考え

About Author

ラベル

この記事は...

Categories

Trending Topics

機械学習モデルの構築に最適な 16 の Sklearn データセット

長すぎる; 読むには

「Sklearn データセット」とは何ですか?

Sklearn ライブラリのデータセットの完全なリスト

プリインストールされた（おもちゃの）Sklearnデータセット

1.虹彩

2.糖尿病

3.数字

4. リネルド

5.ワイン

6. 乳癌ウィスコンシン データセット

実世界の Sklearn データセット

7。 ボストン ハウジング

8. オリベッティの顔

9. カリフォルニア州の住宅

10. MNIST

11.ファッション-MNIST

生成された Sklearn データセット

12. make_classification

13. make_regression

14. make_blobs

15. make_moonsとメイクサークル

16. make_sparse_coded_signal

Sklearn データセットの一般的な使用例

プリインストールされた（おもちゃの）Sklearnデータセット

実世界の Sklearn データセット

生成された Sklearn データセット

最終的な考え

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics

6. 乳癌ウィスコンシンデータセット

7。ボストンハウジング