paint-brush
VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: Deneylerile@kinetograph
172 okumalar

VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: Deneyler

Çok uzun; Okumak

Bu yazıda araştırmacılar, insan etkisinin tanınması için VEATIC veri setini tanıtıyor, mevcut veri setlerindeki sınırlamaları ele alıyor ve bağlama dayalı çıkarımı mümkün kılıyor.
featured image - VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: Deneyler
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);

(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);

(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);

(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).

Bağlantı Tablosu

4. Deneyler

Bu çalışmada, bağlam görevinde yeni bir duygu tanıma, yani her video karesindeki hem bağlam hem de karakter bilgisi aracılığıyla seçilen karakterin değerliliğini ve uyarılma durumunu çıkarımlamayı öneriyoruz. Burada, bağlam görevinde yeni duygu tanımayı kıyaslamak için basit bir temel model öneriyoruz. Modelin işlem hattı Şekil 8'de gösterilmektedir. İki basit alt modül benimsedik: özellik çıkarımı için bir evrişimli sinir ağı (CNN) modülü ve zamansal bilgi işleme için bir görsel transformatör modülü. CNN modül yapısı Resnet50'den uyarlanmıştır [21]. Yüz/karakter ve bağlam özelliklerinin ayrı ayrı çıkarıldığı ve daha sonra birleştirildiği CAER [33] ve EMOTIC'in [32] aksine, tamamen bilgilendirilmiş çerçeveyi doğrudan kodluyoruz. Tek bir tahmin için ardışık N video karesi bağımsız olarak kodlanır. Daha sonra, ardışık çerçevelerin özellik vektörleri ilk konuma gömülür ve L set dikkat modülü içeren transformatör kodlayıcıya beslenir. Son olarak, uyarılma ve değer tahmini, çok katmanlı bir algılayıcı (MLP) kafası tarafından gerçekleştirilir.


Şekil 8. Bağlam görevinde duygu ve duygulanım takibi için kıyaslama modelinin mimarisi. Model, bir CNN özellik çıkarma modülünden ve ardışık çerçevelerin zamansal bilgilerini birleştirmek için bir görsel transformatörden oluşur.

4.1. Kayıp Fonksiyonu ve Eğitim Kurulumu

Temel modelimizin kayıp fonksiyonu, iki ayrı kaybın ağırlıklı birleşimidir. MSE kaybı, derecelendirmelerin temel gerçeğinin ve model tahminlerinin yerel hizalamasını düzenler. Duygusal derecelendirmelerin zamansal istatistiklerini öğrenmek gibi, derecelendirmelerin ve tahminlerin daha büyük ölçekte hizalanmasını garanti etmek için, bir düzenleme olarak uyumluluk korelasyon katsayısını (CCC) da kullanırız. Bu katsayı şu şekilde tanımlanır:


4.2. Değerlendirme Metrikleri


SAGR, iki X ve Y vektörünün bireysel değerlerinin işaretlerinin ne kadar eşleştiğini ölçer. [0, 1] cinsinden değerler alır; burada 1 tam uyumu, 0 ise tam bir çelişkiyi temsil eder. SAGR metriği diğerlerinden daha fazla ek performans bilgisi yakalayabilir. Örneğin, 0,2'lik bir değerlik temel gerçeği verildiğinde, 0,7 ve -0,3'lük tahminler aynı RMSE değerine yol açacaktır. Ancak açıkçası 0,7 daha uygundur çünkü pozitif bir değerdir.


Tablo 3. Önerilen modelimizin tam bilgili, yalnızca karakter ve yalnızca bağlam koşullarındaki performansı. Hem karakter hem de bağlam bilgisi yoluyla çıkarımda bulunulduğunda model en iyi performansı gösterir. Duygu ve duygu izleme görevlerinde hem bağlam hem de karakter bilgisinin önemini gösterir.


Tablo 4. İnce ayarlı önerilen yöntemimizin Veri Kümeleri üzerinde EMOTIC ve CARE-S önceden eğitilmiş modeliyle karşılaştırılması. Basit modelimiz, VEATIC'in genelleştirilebilirliğini gösteren rekabetçi sonuçlara ulaşıyor.

4.3. Karşılaştırma Sonuçları

Yukarıda belirtilen 4 ölçümü (CCC, PCC, RMSE ve SAGR) kullanarak bağlam görevinde yeni duygu tanımayı karşılaştırıyoruz. Sonuçlar Tablo 3'te gösterilmektedir. Diğer veri kümeleriyle karşılaştırıldığında, önerdiğimiz basit yöntem, veri kümelerindeki en son teknoloji yöntemlerle aynıdır.


Ayrıca, yalnızca bağlam ve yalnızca karakter çerçevelerini tamamen bilgilendirilmiş çerçeveler üzerindeki önceden eğitilmiş modele besleyerek duygu tanıma görevlerinde bağlam ve karakter bilgilerinin önemini de araştırıyoruz. Adil karşılaştırmalar elde etmek ve çerçeve piksel dağılımı farklılıklarının etkisini dışlamak için, önceden eğitilmiş modele yalnızca bağlam ve yalnızca karakter çerçevelerinde de ince ayar yapıyoruz. Karşılık gelen sonuçlar Tablo 3'te de gösterilmektedir. Tam bilgi olmadan model performansları hem yalnızca bağlam hem de yalnızca karakter koşulları için düşer.


VEATIC veri setinin etkinliğini göstermek için önceden eğitilmiş modelimizi VEATIC üzerinde kullandık, diğer veri setlerinde ince ayar yaptık ve performansını test ettik. Modelimizin basitliği ve modelimizin diğer veri seti makalelerinde önerilen modellere benzerliği göz önüne alındığında yalnızca EMOTIC [32] ve CAER-S [33] için test yaptık. Sonuçlar Tablo 4'te gösterilmektedir. Önceden eğitilmiş modelimiz, EMOTIC [32] ve CAERS'te [33] önerilen yöntemlerle aynı performansı göstermektedir. Böylece önerdiğimiz VEATIC veri setinin etkinliğini göstermektedir.