Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);
(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);
(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);
(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).
Bu çalışmada, bağlam görevinde yeni bir duygu tanıma, yani her video karesindeki hem bağlam hem de karakter bilgisi aracılığıyla seçilen karakterin değerliliğini ve uyarılma durumunu çıkarımlamayı öneriyoruz. Burada, bağlam görevinde yeni duygu tanımayı kıyaslamak için basit bir temel model öneriyoruz. Modelin işlem hattı Şekil 8'de gösterilmektedir. İki basit alt modül benimsedik: özellik çıkarımı için bir evrişimli sinir ağı (CNN) modülü ve zamansal bilgi işleme için bir görsel transformatör modülü. CNN modül yapısı Resnet50'den uyarlanmıştır [21]. Yüz/karakter ve bağlam özelliklerinin ayrı ayrı çıkarıldığı ve daha sonra birleştirildiği CAER [33] ve EMOTIC'in [32] aksine, tamamen bilgilendirilmiş çerçeveyi doğrudan kodluyoruz. Tek bir tahmin için ardışık N video karesi bağımsız olarak kodlanır. Daha sonra, ardışık çerçevelerin özellik vektörleri ilk konuma gömülür ve L set dikkat modülü içeren transformatör kodlayıcıya beslenir. Son olarak, uyarılma ve değer tahmini, çok katmanlı bir algılayıcı (MLP) kafası tarafından gerçekleştirilir.
Temel modelimizin kayıp fonksiyonu, iki ayrı kaybın ağırlıklı birleşimidir. MSE kaybı, derecelendirmelerin temel gerçeğinin ve model tahminlerinin yerel hizalamasını düzenler. Duygusal derecelendirmelerin zamansal istatistiklerini öğrenmek gibi, derecelendirmelerin ve tahminlerin daha büyük ölçekte hizalanmasını garanti etmek için, bir düzenleme olarak uyumluluk korelasyon katsayısını (CCC) da kullanırız. Bu katsayı şu şekilde tanımlanır:
SAGR, iki X ve Y vektörünün bireysel değerlerinin işaretlerinin ne kadar eşleştiğini ölçer. [0, 1] cinsinden değerler alır; burada 1 tam uyumu, 0 ise tam bir çelişkiyi temsil eder. SAGR metriği diğerlerinden daha fazla ek performans bilgisi yakalayabilir. Örneğin, 0,2'lik bir değerlik temel gerçeği verildiğinde, 0,7 ve -0,3'lük tahminler aynı RMSE değerine yol açacaktır. Ancak açıkçası 0,7 daha uygundur çünkü pozitif bir değerdir.
Yukarıda belirtilen 4 ölçümü (CCC, PCC, RMSE ve SAGR) kullanarak bağlam görevinde yeni duygu tanımayı karşılaştırıyoruz. Sonuçlar Tablo 3'te gösterilmektedir. Diğer veri kümeleriyle karşılaştırıldığında, önerdiğimiz basit yöntem, veri kümelerindeki en son teknoloji yöntemlerle aynıdır.
Ayrıca, yalnızca bağlam ve yalnızca karakter çerçevelerini tamamen bilgilendirilmiş çerçeveler üzerindeki önceden eğitilmiş modele besleyerek duygu tanıma görevlerinde bağlam ve karakter bilgilerinin önemini de araştırıyoruz. Adil karşılaştırmalar elde etmek ve çerçeve piksel dağılımı farklılıklarının etkisini dışlamak için, önceden eğitilmiş modele yalnızca bağlam ve yalnızca karakter çerçevelerinde de ince ayar yapıyoruz. Karşılık gelen sonuçlar Tablo 3'te de gösterilmektedir. Tam bilgi olmadan model performansları hem yalnızca bağlam hem de yalnızca karakter koşulları için düşer.
VEATIC veri setinin etkinliğini göstermek için önceden eğitilmiş modelimizi VEATIC üzerinde kullandık, diğer veri setlerinde ince ayar yaptık ve performansını test ettik. Modelimizin basitliği ve modelimizin diğer veri seti makalelerinde önerilen modellere benzerliği göz önüne alındığında yalnızca EMOTIC [32] ve CAER-S [33] için test yaptık. Sonuçlar Tablo 4'te gösterilmektedir. Önceden eğitilmiş modelimiz, EMOTIC [32] ve CAERS'te [33] önerilen yöntemlerle aynı performansı göstermektedir. Böylece önerdiğimiz VEATIC veri setinin etkinliğini göstermektedir.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .