Keras, karmaşık sinir ağı modellerini oluşturma ve eğitme sürecini basitleştiren üst düzey bir API sağlar. Geliştiriciler, önceden oluşturulmuş çok çeşitli katmanlar ve işlevlerle, optimizasyon algoritmalarını kullanarak büyük veri kümeleri üzerinde derin öğrenme modellerini kolayca oluşturabilir ve eğitebilir. Keras ayrıca eğitim ve çıkarım için GPU hızlandırmayı da destekleyerek hem araştırma hem de endüstri uygulamaları için popüler bir seçim haline geliyor.
Keras veri kümeleri, Keras kitaplığıyla önceden yüklenmiş olarak gelen, önceden işlenmiş veri kümeleridir. Bu veri kümeleri, derin öğrenme topluluğunda görüntü sınıflandırma, metin sınıflandırma ve regresyon gibi çeşitli görevlerde modelleri kıyaslamak için yaygın olarak kullanılır. Geliştiriciler bu veri kümelerinden yararlanarak farklı derin öğrenme modellerini deneyebilir ve performanslarını kolayca karşılaştırabilir.
Bu makale, dünya çapındaki geliştiricilerin ve araştırmacıların erişebileceği Derin Öğrenme Modellerini Oluşturmak ve Eğitmek için En İyi Keras Veri Kümelerini ele almaktadır.
MNIST veri seti popülerdir ve makine öğrenmesi ve bilgisayarlı görme alanlarında yaygın olarak kullanılmaktadır. 60.000'i eğitim ve 10.000'i test için olmak üzere, 0-9 arası elle yazılmış rakamlardan oluşan 70.000 gri tonlamalı görüntüden oluşur. Her görüntü 28x28 piksel boyutundadır ve hangi basamakları temsil ettiğini belirten karşılık gelen bir etikete sahiptir.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.mnist.load_data(path="mnist.npz")
CIFAR-10 veri seti, sınıf başına 6.000 görüntü olmak üzere 10 sınıfta 60.000 32x32 renkli görüntüden oluşur. Toplamda 50.000 eğitim görüntüsü ve 10.000 test görüntüsü vardır; bunlar ayrıca her biri 10.000 görüntü içeren beş eğitim kümesine ve bir test kümesine bölünmüştür.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.cifar10.load_data()
CIFAR-100 veri seti, sınıf başına 600 görüntü olmak üzere 100 sınıfta 60.000 (50.000 eğitim görüntüsü ve 10.000 test görüntüsü) 32x32 renkli görüntüye sahiptir. 100 sınıf, kendi sınıfını belirten ince bir etiket ve ait olduğu süper sınıfı temsil eden kaba bir etiketle 20 süper sınıfa ayrılmıştır.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.cifar100.load_data(label_mode="fine")
Fashion MNIST veri seti, orijinal MNIST veri setinin yerine geçmek üzere Zalando Research tarafından oluşturuldu. Fashion MNIST veri seti, giyim öğelerinin 70.000 gri tonlamalı görüntüsünden (60.000 eğitim seti ve 10.000 test seti) oluşur.
Görüntüler 28x28 piksel boyutundadır ve tişörtler/üstler, pantolonlar, kazaklar, elbiseler, paltolar, sandaletler, gömlekler, spor ayakkabılar, çantalar ve bilekte botlar dahil olmak üzere 10 farklı giyim öğesini temsil etmektedir. Orijinal MNIST veri setine benzer ancak giyim öğelerinin daha karmaşık ve çeşitli olması nedeniyle sınıflandırma görevleri daha zorludur.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.fashion_mnist.load_data()
IMDB veri kümesi, genel olarak duygu analizi görevleri için kullanılır; buradaki amaç, incelemeleri içeriklerine göre olumlu veya olumsuz olarak sınıflandırmaktır. İnternet Film Veritabanı web sitesinden olumlu ve olumsuz incelemeler arasında eşit olarak bölünmüş 50.000 film incelemesinden (25.000 eğitim seti ve 25.000 test seti) oluşan bir koleksiyondan oluşur.
Bu veri kümesindeki her inceleme, önceden işlenmiş ve her tam sayının incelemedeki bir kelimeyi temsil ettiği tam sayı dizilerine dönüştürülmüş bir metin belgesidir. Kelime dağarcığı boyutu, veri kümesindeki en sık kullanılan 10.000 kelimeyle sınırlıdır ve daha az sıklıkta kullanılan kelimeler, özel bir "bilinmeyen" belirteçle değiştirilir.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.imdb.load_data( path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3, **kwargs )
Boston Konut veri seti, Boston bölgesindeki konutlarla ilgili bilgiler içerir. Bu bilgiler, her bir örneğin öznitelikleriyle birlikte 506 örnekten (404 eğitim ve 102 test örneği) oluşur.
Nitelikler, konut başına ortalama oda sayısı, kişi başına düşen suç oranı ve kasaba başına perakende olmayan iş alanlarının oranı gibi niceliksel ve kategorik değişkenlerin bir karışımını içeriyor.
Bu veri kümesi şu adresten indirilebilir:
tf.keras.datasets.boston_housing.load_data( path="boston_housing.npz", test_split=0.2, seed=113 )
Şarap Kalitesi veri seti, kırmızı ve beyaz şarap örneklerine ilişkin bilgiler içerir. Bu veri setinin amacı şarabın kalitesini pH, yoğunluk, alkol içeriği ve sitrik asit içeriği gibi kimyasal özelliklere göre sınıflandırmaktır.
Bu veri kümesindeki değişkenler şunları içerir:
Veri setini indirebilirsiniz
from keras.datasets import wine_quality (X_train, y_train), (X_test, y_test) = wine_quality.load_data(test_split=0.2, seed=113)
Reuters Newswire veri seti, orijinal Reuters veri setinin önceden işlenmiş bir versiyonudur ve metin tamsayı dizileri olarak kodlanmıştır. 30.979 kelimelik kelime dağarcığına sahip 11.228 haber makalesinden oluşmaktadır.
Her makale “mısır”, “ham”, “kazançlar” ve “satın almalar” gibi 46 farklı konudan birine sınıflandırılmıştır.
Veri setini şuradan indirebilirsiniz:
tf.keras.datasets.reuters.load_data(path="reuters.npz",num_words=None,skip_top=0, maxlen=None,test_split=0.2,seed=113,start_char=1,oov_char=2,index_from=3,**kwargs)
Bu veri seti, Pima Hintli kadınlarına ilişkin yaş, gebelik sayısı, glikoz seviyeleri, kan basıncı, cilt kalınlığı, BMI ve insülin seviyesi gibi tıbbi verilerden oluşuyor. Pima Indians Diabetes veri kümesinin Keras sürümü, 8 giriş değişkeni ve 1 çıkış değişkeni içeren 768 örnek içerir.
Pima Kızılderilileri Diyabet veri seti şu adresten indirilebilir:
from tensorflow.keras.datasets import pima_indians_diabetes (x_train, y_train), (x_test, y_test) = pima_indians_diabetes.load_data()
Köpekler ve Kediler veri seti, her sınıftan 12.500 görüntü içeren 25.000 etiketli köpek ve kedi görüntüsünden oluşur. Bu görseller farklı boyut ve kalitede çeşitli kaynaklardan toplanmıştır.
Veri setini şuradan indirebilirsiniz:
# Import the necessary Keras libraries: from keras.preprocessing.image import ImageDataGenerator # Set the paths to the training and validation directories: train_dir = 'path/to/train' validation_dir = 'path/to/validation' # Define an ImageDataGenerator object to perform data augmentation and normalization: train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) # Use flow_from_directory to load directory data in Keras: validation_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=32, class_mode='binary') validation_generator = validation_datagen.flow_from_directory(validation_dir, target_size=(150, 150), batch_size=32, class_mode='binary') # The flow_from_directory yields preprocessed image batches and labels as DirectoryIterator.
Yukarıdaki kodda, aşırı uyumun önlenmesine yardımcı olmak amacıyla eğitim görüntülerinin varyasyonlarını oluşturmak için veri artırmayı kullandığımızı unutmayın. Doğrulama verileri artırılmaz.
Keras veri kümeleri, makine öğrenimi uygulayıcıları ve araştırmacıları için veri toplama ve ön işlemede zamandan ve emekten tasarruf sağlayan, model geliştirme ve denemeye daha fazla odaklanmaya olanak tanıyan değerli bir kaynaktır.
Bu Keras veri kümeleri aynı zamanda herkesin ücretsiz olarak indirip kullanmasına da açıktır.
Daha Fazla Veri Kümesi Listesi: