Yazarlar:
(1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;
(2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan
(3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan
(4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.
Bu bölümde film türü sınıflandırmasına yönelik geçmiş metodolojiler ve çalışmamızın arkasındaki motivasyonlar tartışılmaktadır. Video içeriği büyük ölçüde (1) Video kareleri (Görüntüler) ve (2) Ses (Konuşma {diyaloglar} + Konuşma dışı {vokaller}) olarak bölümlendirilmiştir. Video içeriğini analiz etmek için geçmişte bireysel olarak bilişsel [3]–[7] veya duyuşsal [8] düzeylere odaklanan çeşitli çalışmalar yapılmıştır. Daha etkili bir çalışma için, tür sınıflandırma görevinde daha iyi performans gösterebilmek için her iki düzeyin de dikkate alınması gerekir.
Geçmiş çalışmalarda, sahne bileşenlerini yakalamak için görsel rahatsızlıklar, ortalama çekim uzunluğu, video karelerindeki ışık yoğunluğundaki kademeli değişim ve ses dalga formundaki tepe noktaları [3] gibi düşük seviyeli özelliklere dayalı olarak birçok biliş temelli yaklaşım önerilmiştir. [4]. Bilişsel sınıflandırma için kullanılan diğer özellikler arasında çerçevelerdeki RGB renkleri [6], film çekimleri [7], çekim uzunluğu [9], sahnelerdeki arka plan türü (karanlık/karanlık olmayan) [6] vb. yer alır. Benzer şekilde, bazı yaklaşımlar yalnızca duygusal analiz için önerilmiştir [8].
Bir film, izleyicilere çok fazla bilgi sunan birden fazla türe sahip olabilir, dolayısıyla izleyiciye bir film önerme görevi de görebilir. Jain ve ark. [5] yalnızca 200 eğitim örneğini kullanarak film kliplerini sınıflandırmak için 4 video özelliğini (çekim uzunluğu, hareket, renk baskınlığı, aydınlatma anahtarı) ve 5 ses özelliğini kullandı. Türleri tahmin etmek için film kliplerinin tamamını kullandılar. Ancak çalışma, modellerini eğitmek için yalnızca 200 eğitim örneği kullanıyor. Buna göre rapor ettikleri doğruluk, aşırı uyumdan kaynaklanıyor olabilir. Ayrıca çalışma yalnızca tek etiketli sınıflandırmaya odaklanmıştır. Huang ve diğerleri. [4], 223 boyutlu bir veri kümesi üzerinde hem işitsel hem de görsel özellikleri (toplamda yaklaşık 277 özellik) kullanan 7 yığılmış SVM'ye sahip Kendini Uyarlayan Harmony Arama algoritmasını önerdi. Ertuğrul ve ark. [10], olay örgüsünü cümlelere bölerek ve cümleleri türlere göre sınıflandırarak ve son türü maksimum oluşuma sahip olacak şekilde alarak, filmlerin olay örgüsü de dahil olmak üzere düşük düzeyli özellikleri kullandı. Pais ve ark. [11] genel özetteki bazı önemli kelimelere dayanarak görüntü-metin özelliklerini birleştirmeyi önerdi ve bu özelliklere dayalı olarak film türü sınıflandırması gerçekleştirdi. Model, 107 film fragmanından oluşan bir set üzerinde test edildi. Şahin ve ark. [12] türleri sınıflandırmak için film konularını ve alıntılarını kullanmış ve Hiyerarşik dikkat ağları önermiştir. Benzer şekilde Kumar ve ark. [13] genel zaman karmaşıklığını azaltmaya odaklanarak karma vektörleştirmeyi kullanarak türü sınıflandırmak için film grafiklerini kullanmayı önerdi. Yukarıda bahsedilen çalışmalar düşük seviyeli özelliklere dayanmaktadır ve film fragmanlarından herhangi bir yüksek seviyeli özellik yakalamamaktadır, bu nedenle iyi bir seviye tanıma sistemine güvenilemez.
Daha yeni çalışmalardan yola çıkarak birçok araştırmacı, film türü sınıflandırma görevleri için derin ağları kullandı. Shambharkar ve ark. [14] mekansal ve zamansal özellikleri yakalamak için tek etiketli 3D CNN tabanlı bir mimari önerdi. Burada uzamsal ve zamansal özellikler yakalansa da, model tek etiketli sınıflandırma nedeniyle sağlam değildir. Bazı araştırmacılar film türlerini sınıflandırmak için film afişleri üzerinde çalışmışlardır. Chu ve ark. [15] nesne algılamayı ve görsel görünümleri kolaylaştırmak için derin bir sinir ağı formüle etti. Her ne kadar çalışma posterlerden pek çok bilgi alsa da posterin kendisi bir filmi tamamen tanımlamak için yeterli değil. Simoes ve ark. [16], denetimsiz kümeleme algoritması tarafından sağlanan sahne histogramlarını, her fragman için ağırlıklı tür tahminlerini ve bazı düşük seviyeli video özelliklerini içeren bir CNN-Motion önerdi. Bu, bir videodan önemli bir grup özellik sağlıyordu ancak türü sınıflandırmak için bazı duygusal ve bilişsel temelli özelliklerden yoksundu.
Bu nedenle, geçmiş literatürden, hem bilişsel hem de duygusal çalışma için video fragmanlarından önemli bilgilerin çıkarılması gerektiği açıktır. Dolayısıyla bu çalışmanın arkasındaki motivasyonumuz, [1]'de olduğu gibi video içerik analizinin her iki düzeyine de dayanan bir yaklaşım oluşturmaktır. Önerilen mimarinin ve modelin yeni ve sağlam olduğuna ve gelecekte çeşitli araştırma perspektifleri için kullanılabileceğine inanıyoruz.