paint-brush
Makine Öğrenimi Modelleri Oluşturmak için En İyi 16 Sklearn Veri Kümesiile@datasets
29,723 okumalar
29,723 okumalar

Makine Öğrenimi Modelleri Oluşturmak için En İyi 16 Sklearn Veri Kümesi

Çok uzun; Okumak

Sklearn, SciPy üzerine kurulu, makine öğrenimine yönelik bir Python modülüdür. Geniş algoritma yelpazesi ve kullanım kolaylığı nedeniyle benzersizdir. Veriler, makine öğrenimi algoritmalarına ve scikit-learn'e güç verir. Sklearn, araştırmacılar, uygulayıcılar ve meraklılar tarafından yaygın olarak kullanılan yüksek kaliteli veri kümeleri sunmaktadır.
featured image - Makine Öğrenimi Modelleri Oluşturmak için En İyi 16 Sklearn Veri Kümesi
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Veriler, makine öğrenimi algoritmalarına ve scikit-learn veya sklearn araştırmacılar, uygulayıcılar ve meraklılar tarafından yaygın olarak kullanılan yüksek kaliteli veri kümeleri sunar. Scikit-learn (sklearn), SciPy üzerine kurulu makine öğrenimi için bir Python modülüdür. Geniş algoritma yelpazesi, kullanım kolaylığı ve diğer Python kütüphaneleriyle entegrasyonu nedeniyle benzersizdir.

“Sklearn Veri Kümeleri” nedir?

Sklearn veri kümeleri, scikit-learn'in bir parçası olarak dahil edilmiştir ( sklearn ) kitaplığı, böylece kitaplıkla birlikte önceden yüklenmiş olarak gelirler. Bu sayede ayrı olarak indirmenize gerek kalmadan bu veri kümelerine kolayca erişebilir ve yükleyebilirsiniz.


Belirli bir veri kümesini kullanmak için, onu sklearn.datasets modülünden içe aktarabilir ve verileri programınıza yüklemek için uygun işlevi çağırabilirsiniz.


Bu veri kümeleri genellikle önceden işlenir ve kullanıma hazır olur; bu, farklı makine öğrenimi modelleri ve algoritmalarıyla denemeler yapması gereken veri uygulayıcıları için zamandan ve emekten tasarruf sağlar.

Sklearn Kütüphanesindeki Veri Kümelerinin Tam Listesi

  1. İris
  2. Diyabet
  3. Rakamlar
  4. Linnerud
  5. Şarap
  6. Meme Kanseri Wisconsin
  7. Boston Konutları
  8. Olivetti'nin Yüzleri
  9. Kaliforniya Konutları
  10. MNIST
  11. Moda-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons ve make_circles
  16. Make_sparse_coded_signal

Önceden Yüklenmiş(Oyuncak) Sklearn Veri Kümeleri

1. İris

Bu veri seti, setosa, versicolor ve virginica olmak üzere 3 farklı türe ait olan 150 iris çiçeğinin çanak yaprağı uzunluğu, çanak yaprağı genişliği, taç yaprağı uzunluğu ve taç yaprağı genişliği ölçümlerini içerir. İris veri kümesinde, her çiçeğin türü için bir sütun da dahil olmak üzere bir veri çerçevesi olarak depolanan 150 satır ve 5 sütun bulunur.


Değişkenler şunları içerir:


  • Sepal.Length - Sepal.length, sepal uzunluğunu santimetre cinsinden temsil eder.
  • Sepal.Width - Sepal.width, sepalin genişliğini santimetre cinsinden temsil eder.
  • Petal.Length - Petal.length, taç yaprağının uzunluğunu santimetre cinsinden temsil eder.
  • Türler - Tür değişkeni, üç olası değerle iris çiçeğinin türünü temsil eder: setosa, versicolor ve virginica.


İris veri kümesini, sklearn.datasets modülündeki load_iris işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


Iris veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.load_iris.html 27/3/2023 tarihinde.

2. Diyabet

Bu sklearn veri seti, demografik ve klinik ölçümler de dahil olmak üzere 442 diyabet hastası hakkında bilgi içerir:

  • Yaş
  • Seks
  • Vücut kitle indeksi (BMI)
  • Ortalama kan basıncı
  • Altı kan serumu ölçümü (örneğin toplam kolesterol, düşük yoğunluklu lipoprotein (LDL) kolesterol, yüksek yoğunluklu lipoprotein (HDL) kolesterol).
  • Diyabet hastalığının ilerlemesinin (HbA1c) niceliksel bir ölçüsü.


Diyabet veri kümesi, sklearn.datasets modülündeki load_diabetes() işlevi kullanılarak yüklenebilir.


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


Sklearn kullanarak Diyabet veri kümesini yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 28/3/2023 tarihinde.

3. Rakamlar

Bu sklearn veri kümesi, gri tonlamalı görüntüler olarak depolanan, 0'dan 9'a kadar elle yazılmış rakamlardan oluşan bir koleksiyondur. Toplam 1797 örnek içerir ve her örnek 2 boyutlu bir şekil dizisidir (8,8). Rakamlar sklearn veri setinde, her rakamlı görüntüdeki 64 piksele karşılık gelen 64 değişken (veya özellik) vardır.


Digits veri kümesi, sklearn.datasets modülündeki load_digits() işlevi kullanılarak yüklenebilir.


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


Sklearn kullanarak Digits veri kümesini yükleme kodu. Alınan https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwriting-digits-dataset 29/3/2023 tarihinde.


4. Linnerud

Linnerud veri seti 20 profesyonel sporcunun fiziksel ve fizyolojik ölçümlerini içermektedir.


Veri kümesi aşağıdaki değişkenleri içerir:


  • Üç fiziksel egzersiz değişkeni: barfiks, mekik ve zıplama.
  • Üç fizyolojik ölçüm değişkeni: nabız, sistolik kan basıncı ve diyastolik kan basıncı.


Linnerud veri kümesini Python'a sklearn kullanarak yüklemek için:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


Linnerud veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 27/3/2023 tarihinde.

5. Şarap

Bu sklearn veri seti, şarapları doğru çeşitlerine göre sınıflandırmak için İtalya'nın belirli bir bölgesinde yetiştirilen şarapların kimyasal analizlerinin sonuçlarını içerir.


Veri kümesindeki değişkenlerden bazıları:


  • Alkol
  • Malik asit
  • Kül
  • Külün alkaliliği
  • Magnezyum
  • Toplam fenoller
  • Flavanoidler


Wine veri kümesi, sklearn.datasets modülündeki load_wine() işlevi kullanılarak yüklenebilir.


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


Şarap Kalitesi veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 28/3/2023 tarihinde.

6. Meme Kanseri Wisconsin Veri Kümesi

Bu sklearn veri seti, meme kanseri tümörleri hakkındaki bilgileri içerir ve ilk olarak Dr. William H. Wolberg tarafından oluşturulmuştur. Veri seti, araştırmacılara ve makine öğrenimi uygulayıcılarına, tümörleri kötü huylu (kanserli) veya iyi huylu (kanserli olmayan) olarak sınıflandırmada yardımcı olmak için oluşturuldu.


Bu veri setinde yer alan değişkenlerden bazıları:


  • kimlik Numarası
  • Teşhis (M = kötü huylu, B = iyi huylu).
  • Yarıçap (merkezden çevre üzerindeki noktalara olan mesafelerin ortalaması).
  • Doku (gri tonlamalı değerlerin standart sapması).
  • Çevre
  • Alan
  • Pürüzsüzlük (yarıçap uzunluklarındaki yerel değişim).
  • Kompaktlık (çevre^2 / alan - 1,0).
  • İçbükeylik (konturun içbükey kısımlarının ciddiyeti).
  • İçbükey noktalar (konturun içbükey kısımlarının sayısı).
  • Simetri
  • Fraktal boyut ("kıyı şeridi yaklaşımı" - 1).


Meme Kanseri Wisconsin veri kümesini, sklearn.datasets modülündeki load_breast_cancer işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


Meme Kanseri Wisconsin veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.load_breast_cancer.html 28/3/2023 tarihinde.


Meme Kanseri Wisconsin veri kümesi

Gerçek Dünya Sklearn Veri Kümeleri

Gerçek dünya sklearn veri kümeleri, Python'daki sklearn kütüphanesini kullanarak makine öğrenimi algoritmaları ve teknikleri ile pratik yapmak ve deneyler yapmak için yaygın olarak kullanılan gerçek dünya problemlerine dayanmaktadır.

7. Boston Konutları

Boston Konut veri seti, Boston, Massachusetts bölgesindeki konutlara ilişkin bilgilerden oluşur. Yaklaşık 506 satır ve 14 sütun veriden oluşur.


Veri kümesindeki değişkenlerden bazıları şunlardır:


  • CRIM - Şehirlere göre kişi başına düşen suç oranı.
  • ZN - 25.000 m²'nin üzerindeki parseller için imar edilen konut arazilerinin oranı.
  • INDUS - Kasaba başına perakende olmayan iş alanlarının oranı.
  • CHAS - Charles Nehri kukla değişkeni (= eğer bölge nehri sınırlıyorsa 1; aksi halde 0).
  • NOX - Nitrik oksit konsantrasyonu (10 milyonda bir parça).
  • RM – Konut başına düşen ortalama oda sayısı.
  • YAŞ – 1940'tan önce inşa edilen, sahibi tarafından kullanılan birimlerin oranı.
  • DIS - Boston'daki beş iş bulma merkezine olan ağırlıklı mesafeler.
  • RAD - Radyal otoyollara erişilebilirlik endeksi.
  • VERGİ - 10.000 $ başına tam değerli emlak vergisi oranı.
  • PTRATIO - Kasabalara göre öğrenci-öğretmen oranı.
  • B - 1000(Bk - 0,63)^2 burada -Bk kasabaya göre siyahların oranıdır.
  • LSTAT - Nüfusun daha düşük durumunun yüzdesi.
  • MEDV - Sahibi tarafından kullanılan evlerin ortalama değeri 1000$'dır.


Boston Housing veri setini, sklearn.datasets modülündeki load_boston işlevini kullanarak doğrudan scikit-learn'den yükleyebilirsiniz.


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


Boston Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/0.15/modules/generate/sklearn.datasets.load_boston.html 29/3/2023 tarihinde.

8. Olivetti'nin Yüzleri

Olivetti Faces veri seti, Nisan 1992 ile Nisan 1994 arasında AT&T Laboratuvarlarında çekilen insan yüzlerinin gri tonlamalı görüntülerinden oluşan bir koleksiyondur. Her biri farklı açılardan ve farklı aydınlatma koşullarında çekilmiş 40 görüntüden oluşan 10 kişiden oluşan 400 görüntü içerir.


Olivetti Faces veri kümesini, veri kümeleri modülündeki fetch_olivetti_faces işlevini kullanarak sklearn'e yükleyebilirsiniz.


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


Olivetti Faces veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.fetch_olivetti_faces.html 29/3/2023 tarihinde.

9. Kaliforniya Konutları

Bu sklearn veri seti, Kaliforniya'daki nüfus sayımı bölgelerinin özelliklerinin yanı sıra ortalama ev değerlerine ilişkin bilgiler içerir. Ayrıca 20.640 örnek ve 8 özellik içerir.


Veri kümesindeki değişkenlerden bazıları:


  • MedInc - Bloktaki ortalama gelir.
  • HouseAge - Bloktaki evlerin ortalama yaşı.
  • AveRooms - Hane başına düşen ortalama oda sayısı.
  • AveBedrms - Hane başına düşen ortalama yatak odası sayısı.
  • Nüfus - Blok nüfusu.
  • AveOccup - Ortalama hane halkı doluluğu.
  • Enlem - Bloğun ondalık derece cinsinden enlemi.
  • Boylam - Bloğun ondalık derece cinsinden boylamı.


California Housing veri kümesini sklearn'deki fetch_california_housing işlevini kullanarak yükleyebilirsiniz.


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


California Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.fetch_california_housing.html 29/3/2023 tarihinde.

10. MNIST

MNIST veri seti popülerdir ve makine öğrenmesi ve bilgisayarlı görme alanlarında yaygın olarak kullanılmaktadır. 60.000'i eğitim ve 10.000'i test için olmak üzere, 0-9 arası elle yazılmış rakamlardan oluşan 70.000 gri tonlamalı görüntüden oluşur. Her görüntü 28x28 piksel boyutundadır ve hangi basamakları temsil ettiğini belirten karşılık gelen bir etikete sahiptir.


MNIST veri kümesini sklearn'den aşağıdaki kodu kullanarak yükleyebilirsiniz:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


Not: MNIST veri kümesi, Rakamlar veri kümesinin bir alt kümesidir.


MNIST veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 30/3/2023 tarihinde.


11. Moda-MNIST

Fashion MNIST veri seti, orijinal MNIST veri setinin yerine geçmek üzere Zalando Research tarafından oluşturuldu. Fashion MNIST veri seti, giyim öğelerinin 70.000 gri tonlamalı görüntüsünden (60.000 eğitim seti ve 10.000 test seti) oluşur.


Görüntüler 28x28 piksel boyutundadır ve tişörtler/üstler, pantolonlar, kazaklar, elbiseler, paltolar, sandaletler, gömlekler, spor ayakkabılar, çantalar ve bilekte botlar dahil olmak üzere 10 farklı giyim öğesini temsil etmektedir. Orijinal MNIST veri setine benzer ancak giyim öğelerinin daha karmaşık ve çeşitli olması nedeniyle sınıflandırma görevleri daha zorludur.


Bu sklearn veri kümesini fetch_openml işlevini kullanarak yükleyebilirsiniz.


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


Fashion MNIST veri kümesini sklearn kullanarak yüklemek için kullanılan kod. __ https://scikit-learn.org/stable/modules/geneated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ adresinden 30/3/2023 tarihinde alındı.

Oluşturulan Sklearn Veri Kümeleri

Oluşturulan sklearn veri kümeleri, Python'daki sklearn kitaplığı kullanılarak oluşturulan sentetik veri kümeleridir. Makine öğrenimi algoritmalarını/modellerini test etmek, kıyaslamak ve geliştirmek için kullanılırlar.

12. make_classification

Bu işlev, belirli sayıda örnek, özellik ve bilgilendirici özellik içeren rastgele bir n sınıfı sınıflandırma veri kümesi oluşturur.


100 örnek, 5 özellik ve 3 sınıf içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


Bu kod, 3 sınıf ve 3 bilgilendirici özellik içeren 100 örnek ve 5 özellik içeren bir veri kümesi oluşturur. Geri kalan özellikler yedekli veya gürültülü olacaktır.


make_classification veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 30/3/2023 tarihinde.

13. make_regression

Bu işlev, belirli sayıda örnek, özellik ve gürültü içeren rastgele bir regresyon veri kümesi oluşturur.


100 örnek, 5 özellik ve 0,1 gürültü seviyesiyle bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


Bu kod, 0,1 gürültü düzeyine sahip, 100 örnek ve 5 özellikten oluşan bir veri kümesi oluşturur. Hedef değişken y sürekli bir değişken olacaktır.


make_regression veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 30/3/2023 tarihinde.

14. make_blobs

Bu işlev, belirli sayıda örnek ve kümeden oluşan rastgele bir veri kümesi oluşturur.


100 örnek ve 3 küme içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


Bu kod, 100 örnek ve 2 özellik (x ve y koordinatları), rastgele konumlarda ortalanmış 3 küme içeren ve gürültüsüz bir veri kümesi oluşturur.


make_blobs veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 30/3/2023 tarihinde.

15. make_moons Ve make_circles

Bu işlevler, doğrusal olmayan sınıflandırma algoritmalarını test etmek için yararlı olan, doğrusal olmayan sınırlara sahip veri kümeleri oluşturur.


make_moons veri kümesini yüklemek için örnek bir kod:


sklearn.datasets'ten make_moons'u içe aktar

X, y = make_moons(n_samples=1000, gürültü=0,2, random_state=42)


Bu kod, 1000 örnek ve 2 özellik (x ve y koordinatları) içeren, iki sınıf arasında doğrusal olmayan bir sınıra sahip ve verilere Gauss gürültüsünün 0,2 standart sapması eklenmiş bir veri kümesi oluşturur.


make_moons veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 30/3/2023 tarihinde.


make_circles veri kümesini oluşturmak ve yüklemek için örnek bir kodu burada bulabilirsiniz:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


make_circles veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 30/3/2023 tarihinde.

16. make_sparse_coded_signal

Bu işlev, sıkıştırma algılama algoritmalarını test etmek için yararlı olan seyrek kodlu bir sinyal veri kümesi oluşturur.


Bu sklearn veri kümesini yüklemek için örnek bir kodu burada bulabilirsiniz:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


Bu kod, 100 örnek, 50 özellik ve 10 atom içeren seyrek kodlu bir sinyal veri kümesi üretir.


Make_sparse_coded_signal veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan https://scikit-learn.org/stable/modules/generate/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 30/3/2023 tarihinde.


Sklearn Veri Kümeleri için Yaygın Kullanım Durumları

Önceden Yüklenmiş(Oyuncak) Sklearn Veri Kümeleri

İris - Bu sklearn veri kümesi, sınıflandırma görevleri için yaygın olarak kullanılır ve sınıflandırma algoritmalarını test etmek için bir kıyaslama veri kümesi olarak kullanılır.


Diyabet - Bu veri seti diyabetli hastalar hakkında tıbbi bilgiler içerir ve sağlık hizmetleri analitiğinde sınıflandırma ve regresyon görevleri için kullanılır.


Rakamlar - Bu sklearn veri seti, el yazısı rakamların görüntülerini içerir ve genellikle görüntü sınıflandırma ve örüntü tanıma görevleri için kullanılır.


Linnerud - Bu veri seti 20 sporcunun fiziksel kondisyon ve tıbbi verilerini içerir ve çok değişkenli regresyon analizi için yaygın olarak kullanılır.


Şarap - Bu sklearn veri seti, şarapların kimyasal analizini içerir ve genellikle sınıflandırma ve kümeleme görevleri için kullanılır.


Meme Kanseri Wisconsin - Bu veri seti meme kanseri hastaları hakkında tıbbi bilgiler içerir ve sağlık hizmetleri analitiğinde sınıflandırma görevleri için yaygın olarak kullanılır.

Gerçek Dünya Sklearn Veri Kümeleri

Boston Konutları - Bu sklearn veri seti, Boston'daki konutlarla ilgili bilgiler içerir ve genellikle regresyon görevleri için kullanılır.


Olivetti'nin Yüzleri - Bu veri kümesi, yüzlerin gri tonlamalı görüntülerini içerir ve genellikle görüntü sınıflandırma ve yüz tanıma görevleri için kullanılır.


Kaliforniya Konutları - Bu sklearn veri seti Kaliforniya'daki konutlarla ilgili bilgiler içerir ve genellikle regresyon görevleri için kullanılır.


MNIST - Bu veri kümesi el yazısıyla yazılan rakamların görüntülerini içerir ve genellikle görüntü sınıflandırma ve örüntü tanıma görevleri için kullanılır.


Moda-MNIST - Bu sklearn veri seti, giyim eşyalarının resimlerini içerir ve genellikle resim sınıflandırma ve desen tanıma görevleri için kullanılır.

Oluşturulan Sklearn Veri Kümeleri

make_classification - Bu veri seti, ikili ve çok sınıflı sınıflandırma görevleri için rastgele oluşturulmuş bir veri setidir.


make_regression - Bu veri kümesi, regresyon görevleri için rastgele oluşturulmuş bir veri kümesidir.


make_blobs - Bu sklearn veri kümesi, kümeleme görevleri için rastgele oluşturulmuş bir veri kümesidir.


make_moons Ve make_circles - Bu veri kümeleri, sınıflandırma görevleri için rastgele oluşturulmuş veri kümeleridir ve genellikle doğrusal olmayan sınıflandırıcıları test etmek için kullanılır.


make_sparse_coded_signal - Bu veri seti, sinyal işlemede seyrek kodlama görevleri için rastgele oluşturulmuş bir veri setidir.

Son düşünceler

Sklearn veri kümeleri, geliştiricilerin ve araştırmacıların, verileri manuel olarak toplamaya ve ön işlemeye gerek kalmadan makine öğrenimi modellerini test etmeleri ve değerlendirmeleri için uygun bir yol sağlar.


Ayrıca herkesin ücretsiz olarak indirip kullanmasına da açıktır.


Bu makalenin ana görseli, 'iris veri kümesi' istemi kullanılarak HackerNoon'un AI Stabil Difüzyon modeli aracılığıyla oluşturulmuştur.


Daha Fazla Veri Kümesi Listesi:

  1. Excel Veri Kümeleri
  2. Keras Veri Kümeleri
  3. R Veri Kümeleri