Dữ liệu cung cấp năng lượng cho các thuật toán học máy và scikit-learning hoặc
Bộ dữ liệu Sklearn được đưa vào như một phần của scikit-learning (
Để sử dụng một tập dữ liệu cụ thể, bạn chỉ cần nhập tập dữ liệu đó từ mô-đun sklearn.datasets và gọi hàm thích hợp để tải dữ liệu vào chương trình của mình.
Các bộ dữ liệu này thường được xử lý trước và sẵn sàng sử dụng, giúp tiết kiệm thời gian và công sức cho những người thực hành dữ liệu, những người cần thử nghiệm các mô hình và thuật toán máy học khác nhau.
Bộ dữ liệu này bao gồm các phép đo chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa và chiều rộng cánh hoa của 150 bông hoa diên vĩ, thuộc 3 loài khác nhau: setosa, versicolor và virginica. Bộ dữ liệu hoa diên vĩ có 150 hàng và 5 cột, được lưu trữ dưới dạng khung dữ liệu, bao gồm một cột cho loài của mỗi loài hoa.
Các biến bao gồm:
Bạn có thể tải tập dữ liệu mống mắt trực tiếp từ sklearn bằng hàm load_iris từ mô-đun sklearn.datasets.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Mã để tải tập dữ liệu Iris bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn này chứa thông tin về 442 bệnh nhân mắc bệnh tiểu đường, bao gồm các phép đo nhân khẩu học và lâm sàng:
Có thể tải bộ dữ liệu về Bệnh tiểu đường bằng cách sử dụng hàm load_diabetes() từ mô-đun sklearn.datasets.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Mã để tải tập dữ liệu Bệnh tiểu đường bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn này là tập hợp các chữ số viết tay từ 0 đến 9, được lưu trữ dưới dạng hình ảnh thang độ xám. Nó chứa tổng cộng 1797 mẫu, với mỗi mẫu là một mảng hình dạng 2D (8,8). Có 64 biến (hoặc tính năng) trong tập dữ liệu sklearn chữ số, tương ứng với 64 pixel trong mỗi hình ảnh chữ số.
Tập dữ liệu Digits có thể được tải bằng hàm load_digits() từ mô-đun sklearn.datasets.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Mã để tải tập dữ liệu Chữ số bằng sklearn. Lấy ra từ
Bộ dữ liệu Linnerud chứa các phép đo thể chất và sinh lý của 20 vận động viên chuyên nghiệp.
Bộ dữ liệu bao gồm các biến sau:
Để tải tập dữ liệu Linnerud bằng Python bằng sklearn:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Mã để tải tập dữ liệu linnerud bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn này chứa kết quả phân tích hóa học của các loại rượu vang được trồng ở một khu vực cụ thể của Ý, để phân loại các loại rượu vang theo đúng loại của chúng.
Một số biến trong tập dữ liệu:
Tập dữ liệu Wine có thể được tải bằng hàm load_wine() từ mô-đun sklearn.datasets.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Mã để tải tập dữ liệu Chất lượng rượu bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn này bao gồm thông tin về các khối u ung thư vú và ban đầu được tạo ra bởi Tiến sĩ William H. Wolberg. Bộ dữ liệu được tạo ra để hỗ trợ các nhà nghiên cứu và học viên máy học phân loại khối u thành ác tính (ung thư) hoặc lành tính (không ung thư).
Một số biến có trong tập dữ liệu này:
Bạn có thể tải bộ dữ liệu Wisconsin về Ung thư vú trực tiếp từ sklearn bằng cách sử dụng hàm load_breast_cancer từ mô-đun sklearn.datasets.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Mã để tải bộ dữ liệu Ung thư vú Wisconsin bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn trong thế giới thực dựa trên các vấn đề trong thế giới thực, thường được sử dụng để thực hành và thử nghiệm các thuật toán và kỹ thuật học máy bằng thư viện sklearn trong Python.
Bộ dữ liệu Nhà ở Boston bao gồm thông tin về nhà ở trong khu vực Boston, Massachusetts. Nó có khoảng 506 hàng và 14 cột dữ liệu.
Một số biến trong tập dữ liệu bao gồm:
Bạn có thể tải tập dữ liệu Nhà ở Boston trực tiếp từ scikit-learning bằng cách sử dụng hàm load_boston từ mô-đun sklearn.datasets.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Mã để tải tập dữ liệu Nhà ở Boston bằng sklearn. Lấy ra từ
Bộ dữ liệu Khuôn mặt Olivetti là tập hợp các hình ảnh thang độ xám của khuôn mặt người được chụp từ tháng 4 năm 1992 đến tháng 4 năm 1994 tại Phòng thí nghiệm AT&T. Nó chứa 400 hình ảnh của 10 cá nhân, với mỗi cá nhân có 40 hình ảnh được chụp ở các góc độ và điều kiện ánh sáng khác nhau.
Bạn có thể tải bộ dữ liệu Olivetti Faces trong sklearn bằng cách sử dụng hàm fetch_olivetti_faces từ mô-đun bộ dữ liệu.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Mã để tải bộ dữ liệu Olivetti Faces bằng sklearn. Lấy ra từ
Bộ dữ liệu sklearn này chứa thông tin về giá trị nhà ở trung bình, cũng như các thuộc tính cho các vùng điều tra dân số ở California. Nó cũng bao gồm 20.640 phiên bản và 8 tính năng.
Một số biến trong tập dữ liệu:
Bạn có thể tải tập dữ liệu Nhà ở California bằng cách sử dụng hàm fetch_california_housing từ sklearn.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
Mã để tải bộ dữ liệu Nhà ở California bằng sklearn. Lấy ra từ
Bộ dữ liệu MNIST phổ biến và được sử dụng rộng rãi trong các lĩnh vực học máy và thị giác máy tính. Nó bao gồm 70.000 hình ảnh thang độ xám của các chữ số viết tay từ 0–9, với 60.000 hình ảnh để đào tạo và 10.000 để kiểm tra. Mỗi hình ảnh có kích thước 28x28 pixel và có một nhãn tương ứng biểu thị các chữ số mà nó đại diện.
Bạn có thể tải tập dữ liệu MNIST từ sklearn bằng mã sau:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Lưu ý: Tập dữ liệu MNIST là một tập hợp con của tập dữ liệu Digits.
Mã để tải tập dữ liệu MNIST bằng sklearn. Lấy ra từ
Bộ dữ liệu Fashion MNIST do Zalando Research tạo ra để thay thế cho bộ dữ liệu MNIST ban đầu. Bộ dữ liệu Fashion MNIST bao gồm 70.000 hình ảnh thang độ xám (tập huấn luyện 60.000 và tập kiểm tra 10.000) mặt hàng quần áo.
Hình ảnh có kích thước 28x28 pixel và đại diện cho 10 loại mặt hàng quần áo khác nhau, bao gồm áo phông/áo, quần tây, áo chui đầu, váy, áo khoác, xăng đan, áo sơ mi, giày thể thao, túi xách và bốt đến mắt cá chân. Nó tương tự như bộ dữ liệu MNIST ban đầu, nhưng với các nhiệm vụ phân loại khó khăn hơn do sự phức tạp và đa dạng hơn của các mặt hàng quần áo.
Bạn có thể tải tập dữ liệu sklearn này bằng hàm fetch_openml.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Mã để tải bộ dữ liệu Fashion MNIST bằng sklearn. Đã lấy từ__ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ vào ngày 30/3/2023.
Bộ dữ liệu sklearn đã tạo là bộ dữ liệu tổng hợp, được tạo bằng thư viện sklearn trong Python. Chúng được sử dụng để thử nghiệm, đo điểm chuẩn và phát triển các mô hình/thuật toán học máy.
Hàm này tạo tập dữ liệu phân loại n lớp ngẫu nhiên với số lượng mẫu, tính năng và tính năng thông tin được chỉ định.
Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và 3 lớp:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Mã này tạo ra một tập dữ liệu với 100 mẫu và 5 tính năng, với 3 lớp và 3 tính năng cung cấp thông tin. Các tính năng còn lại sẽ dư thừa hoặc nhiễu.
Mã để tải tập dữ liệu make_classification bằng sklearn. Lấy ra từ
Hàm này tạo tập dữ liệu hồi quy ngẫu nhiên với số lượng mẫu, tính năng và nhiễu được chỉ định.
Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu, 5 tính năng và mức độ nhiễu là 0,1:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Mã này tạo tập dữ liệu có 100 mẫu và 5 tính năng, với độ nhiễu là 0,1. Biến mục tiêu y sẽ là một biến liên tục.
Mã để tải tập dữ liệu make_regression bằng sklearn. Lấy ra từ
Hàm này tạo một tập dữ liệu ngẫu nhiên với số lượng mẫu và cụm được chỉ định.
Đây là mã ví dụ để tạo tập dữ liệu sklearn này với 100 mẫu và 3 cụm:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Mã này tạo tập dữ liệu có 100 mẫu và 2 tính năng (tọa độ x và y), với 3 cụm được đặt ở giữa tại các vị trí ngẫu nhiên và không có nhiễu.
Mã để tải tập dữ liệu make_blobs bằng sklearn. Lấy ra từ
Các hàm này tạo các bộ dữ liệu có ranh giới phi tuyến tính, hữu ích để thử nghiệm các thuật toán phân loại phi tuyến tính.
Đây là mã ví dụ để tải bộ dữ liệu make_moons:
từ sklearn.datasets nhập make_moons
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
Mã này tạo ra một tập dữ liệu với 1000 mẫu và 2 tính năng (tọa độ x và y) với ranh giới phi tuyến tính giữa hai lớp và với 0,2 độ lệch chuẩn của nhiễu Gaussian được thêm vào dữ liệu.
Mã để tải tập dữ liệu make_moons bằng sklearn. Lấy ra từ
Đây là mã ví dụ để tạo và tải tập dữ liệu make_circles:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
Mã để tải tập dữ liệu make_circles bằng sklearn. Lấy ra từ
Chức năng này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt, hữu ích để thử nghiệm các thuật toán cảm biến nén.
Đây là mã ví dụ để tải tập dữ liệu sklearn này:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Mã này tạo ra một bộ dữ liệu tín hiệu được mã hóa thưa thớt với 100 mẫu, 50 tính năng và 10 nguyên tử.
Mã để tải tập dữ liệu make_sparse_coded_signal bằng sklearn. Lấy ra từ
Bộ dữ liệu Sklearn cung cấp một cách thuận tiện để các nhà phát triển và nhà nghiên cứu kiểm tra và đánh giá các mô hình máy học mà không cần phải thu thập và xử lý trước dữ liệu theo cách thủ công.
Chúng cũng có sẵn cho mọi người tải xuống và sử dụng miễn phí.
Hình ảnh chính của bài viết này được tạo thông qua mô hình Khuếch tán ổn định AI của HackerNoon bằng cách sử dụng dấu nhắc 'bộ dữ liệu mống mắt'.
Danh sách tập dữ liệu khác: