Veriler, makine öğrenimi algoritmalarına ve scikit-learn veya
Sklearn veri kümeleri, scikit-learn'in bir parçası olarak dahil edilmiştir (
Belirli bir veri kümesini kullanmak için, onu sklearn.datasets modülünden içe aktarabilir ve verileri programınıza yüklemek için uygun işlevi çağırabilirsiniz.
Bu veri kümeleri genellikle önceden işlenir ve kullanıma hazır olur; bu, farklı makine öğrenimi modelleri ve algoritmalarıyla denemeler yapması gereken veri uygulayıcıları için zamandan ve emekten tasarruf sağlar.
Bu veri seti, setosa, versicolor ve virginica olmak üzere 3 farklı türe ait olan 150 iris çiçeğinin çanak yaprağı uzunluğu, çanak yaprağı genişliği, taç yaprağı uzunluğu ve taç yaprağı genişliği ölçümlerini içerir. İris veri kümesinde, her çiçeğin türü için bir sütun da dahil olmak üzere bir veri çerçevesi olarak depolanan 150 satır ve 5 sütun bulunur.
Değişkenler şunları içerir:
İris veri kümesini, sklearn.datasets modülündeki load_iris işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.
# To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())
Iris veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Bu sklearn veri seti, demografik ve klinik ölçümler de dahil olmak üzere 442 diyabet hastası hakkında bilgi içerir:
Diyabet veri kümesi, sklearn.datasets modülündeki load_diabetes() işlevi kullanılarak yüklenebilir.
from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())
Sklearn kullanarak Diyabet veri kümesini yüklemeye yönelik kod. Alınan
Bu sklearn veri kümesi, gri tonlamalı görüntüler olarak depolanan, 0'dan 9'a kadar elle yazılmış rakamlardan oluşan bir koleksiyondur. Toplam 1797 örnek içerir ve her örnek 2 boyutlu bir şekil dizisidir (8,8). Rakamlar sklearn veri setinde, her rakamlı görüntüdeki 64 piksele karşılık gelen 64 değişken (veya özellik) vardır.
Digits veri kümesi, sklearn.datasets modülündeki load_digits() işlevi kullanılarak yüklenebilir.
from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)
Sklearn kullanarak Digits veri kümesini yükleme kodu. Alınan
Linnerud veri seti 20 profesyonel sporcunun fiziksel ve fizyolojik ölçümlerini içermektedir.
Veri kümesi aşağıdaki değişkenleri içerir:
Linnerud veri kümesini Python'a sklearn kullanarak yüklemek için:
from sklearn.datasets import load_linnerud linnerud = load_linnerud()
Linnerud veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Bu sklearn veri seti, şarapları doğru çeşitlerine göre sınıflandırmak için İtalya'nın belirli bir bölgesinde yetiştirilen şarapların kimyasal analizlerinin sonuçlarını içerir.
Veri kümesindeki değişkenlerden bazıları:
Wine veri kümesi, sklearn.datasets modülündeki load_wine() işlevi kullanılarak yüklenebilir.
from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names
Şarap Kalitesi veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
Bu sklearn veri seti, meme kanseri tümörleri hakkındaki bilgileri içerir ve ilk olarak Dr. William H. Wolberg tarafından oluşturulmuştur. Veri seti, araştırmacılara ve makine öğrenimi uygulayıcılarına, tümörleri kötü huylu (kanserli) veya iyi huylu (kanserli olmayan) olarak sınıflandırmada yardımcı olmak için oluşturuldu.
Bu veri setinde yer alan değişkenlerden bazıları:
Meme Kanseri Wisconsin veri kümesini, sklearn.datasets modülündeki load_breast_cancer işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.
from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())
Meme Kanseri Wisconsin veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Gerçek dünya sklearn veri kümeleri, Python'daki sklearn kütüphanesini kullanarak makine öğrenimi algoritmaları ve teknikleri ile pratik yapmak ve deneyler yapmak için yaygın olarak kullanılan gerçek dünya problemlerine dayanmaktadır.
Boston Konut veri seti, Boston, Massachusetts bölgesindeki konutlara ilişkin bilgilerden oluşur. Yaklaşık 506 satır ve 14 sütun veriden oluşur.
Veri kümesindeki değişkenlerden bazıları şunlardır:
Boston Housing veri setini, sklearn.datasets modülündeki load_boston işlevini kullanarak doğrudan scikit-learn'den yükleyebilirsiniz.
from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())
Boston Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Olivetti Faces veri seti, Nisan 1992 ile Nisan 1994 arasında AT&T Laboratuvarlarında çekilen insan yüzlerinin gri tonlamalı görüntülerinden oluşan bir koleksiyondur. Her biri farklı açılardan ve farklı aydınlatma koşullarında çekilmiş 40 görüntüden oluşan 10 kişiden oluşan 400 görüntü içerir.
Olivetti Faces veri kümesini, veri kümeleri modülündeki fetch_olivetti_faces işlevini kullanarak sklearn'e yükleyebilirsiniz.
from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target
Olivetti Faces veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Bu sklearn veri seti, Kaliforniya'daki nüfus sayımı bölgelerinin özelliklerinin yanı sıra ortalama ev değerlerine ilişkin bilgiler içerir. Ayrıca 20.640 örnek ve 8 özellik içerir.
Veri kümesindeki değişkenlerden bazıları:
California Housing veri kümesini sklearn'deki fetch_california_housing işlevini kullanarak yükleyebilirsiniz.
from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target
California Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
MNIST veri seti popülerdir ve makine öğrenmesi ve bilgisayarlı görme alanlarında yaygın olarak kullanılmaktadır. 60.000'i eğitim ve 10.000'i test için olmak üzere, 0-9 arası elle yazılmış rakamlardan oluşan 70.000 gri tonlamalı görüntüden oluşur. Her görüntü 28x28 piksel boyutundadır ve hangi basamakları temsil ettiğini belirten karşılık gelen bir etikete sahiptir.
MNIST veri kümesini sklearn'den aşağıdaki kodu kullanarak yükleyebilirsiniz:
from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')
Not: MNIST veri kümesi, Rakamlar veri kümesinin bir alt kümesidir.
MNIST veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Fashion MNIST veri seti, orijinal MNIST veri setinin yerine geçmek üzere Zalando Research tarafından oluşturuldu. Fashion MNIST veri seti, giyim öğelerinin 70.000 gri tonlamalı görüntüsünden (60.000 eğitim seti ve 10.000 test seti) oluşur.
Görüntüler 28x28 piksel boyutundadır ve tişörtler/üstler, pantolonlar, kazaklar, elbiseler, paltolar, sandaletler, gömlekler, spor ayakkabılar, çantalar ve bilekte botlar dahil olmak üzere 10 farklı giyim öğesini temsil etmektedir. Orijinal MNIST veri setine benzer ancak giyim öğelerinin daha karmaşık ve çeşitli olması nedeniyle sınıflandırma görevleri daha zorludur.
Bu sklearn veri kümesini fetch_openml işlevini kullanarak yükleyebilirsiniz.
from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')
Fashion MNIST veri kümesini sklearn kullanarak yüklemek için kullanılan kod. __ https://scikit-learn.org/stable/modules/geneated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ adresinden 30/3/2023 tarihinde alındı.
Oluşturulan sklearn veri kümeleri, Python'daki sklearn kitaplığı kullanılarak oluşturulan sentetik veri kümeleridir. Makine öğrenimi algoritmalarını/modellerini test etmek, kıyaslamak ve geliştirmek için kullanılırlar.
Bu işlev, belirli sayıda örnek, özellik ve bilgilendirici özellik içeren rastgele bir n sınıfı sınıflandırma veri kümesi oluşturur.
100 örnek, 5 özellik ve 3 sınıf içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:
from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)
Bu kod, 3 sınıf ve 3 bilgilendirici özellik içeren 100 örnek ve 5 özellik içeren bir veri kümesi oluşturur. Geri kalan özellikler yedekli veya gürültülü olacaktır.
make_classification veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
Bu işlev, belirli sayıda örnek, özellik ve gürültü içeren rastgele bir regresyon veri kümesi oluşturur.
100 örnek, 5 özellik ve 0,1 gürültü seviyesiyle bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
Bu kod, 0,1 gürültü düzeyine sahip, 100 örnek ve 5 özellikten oluşan bir veri kümesi oluşturur. Hedef değişken y sürekli bir değişken olacaktır.
make_regression veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
Bu işlev, belirli sayıda örnek ve kümeden oluşan rastgele bir veri kümesi oluşturur.
100 örnek ve 3 küme içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)
Bu kod, 100 örnek ve 2 özellik (x ve y koordinatları), rastgele konumlarda ortalanmış 3 küme içeren ve gürültüsüz bir veri kümesi oluşturur.
make_blobs veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan
Bu işlevler, doğrusal olmayan sınıflandırma algoritmalarını test etmek için yararlı olan, doğrusal olmayan sınırlara sahip veri kümeleri oluşturur.
make_moons veri kümesini yüklemek için örnek bir kod:
sklearn.datasets'ten make_moons'u içe aktar
X, y = make_moons(n_samples=1000, gürültü=0,2, random_state=42)
Bu kod, 1000 örnek ve 2 özellik (x ve y koordinatları) içeren, iki sınıf arasında doğrusal olmayan bir sınıra sahip ve verilere Gauss gürültüsünün 0,2 standart sapması eklenmiş bir veri kümesi oluşturur.
make_moons veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
make_circles veri kümesini oluşturmak ve yüklemek için örnek bir kodu burada bulabilirsiniz:
from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)
make_circles veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
Bu işlev, sıkıştırma algılama algoritmalarını test etmek için yararlı olan seyrek kodlu bir sinyal veri kümesi oluşturur.
Bu sklearn veri kümesini yüklemek için örnek bir kodu burada bulabilirsiniz:
from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)
Bu kod, 100 örnek, 50 özellik ve 10 atom içeren seyrek kodlu bir sinyal veri kümesi üretir.
Make_sparse_coded_signal veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan
Sklearn veri kümeleri, geliştiricilerin ve araştırmacıların, verileri manuel olarak toplamaya ve ön işlemeye gerek kalmadan makine öğrenimi modellerini test etmeleri ve değerlendirmeleri için uygun bir yol sağlar.
Ayrıca herkesin ücretsiz olarak indirip kullanmasına da açıktır.
Bu makalenin ana görseli, 'iris veri kümesi' istemi kullanılarak HackerNoon'un AI Stabil Difüzyon modeli aracılığıyla oluşturulmuştur.
Daha Fazla Veri Kümesi Listesi: