Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);
(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);
(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);
(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).
Bu bölümde Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibini ( VEATIC ) tanıtıyoruz. Öncelikle tüm video klipleri nasıl elde ettiğimizi anlatıyoruz. Daha sonra veri açıklama prosedürlerini ve ön işleme sürecini gösteriyoruz. Son olarak önemli veri seti istatistiklerini raporluyor ve veri analizi sonuçlarını görselleştiriyoruz.
Veri setinde kullanılan tüm video klipler çevrimiçi bir video paylaşım web sitesinden (YouTube) alınmıştır ve video klipler, kliplerdeki karakterlerin duygularının/duygulanımlarının zaman içinde değişmesi gerektiği temel alınarak seçilmiştir. VEATIC veri seti toplamda 124 video klip, Hollywood filmlerinden 104 klip, ev videolarından 15 klip ve belgesellerden veya reality TV şovlarından 5 klip içeriyor. VEATIC veri kümesinden örnek çerçeveler (Şekil 2)'de gösterilmektedir. Bu videolar sıfır ila birden fazla etkileşimli karakter içerir. Videolardan tüm sesler kaldırıldı, böylece gözlemciler yalnızca hedef karakterin duygusunu takip ederken görsel bilgilere erişebildi.
Toplamda veri setindeki videoların ek açıklamalarına katılan 192 gözlemcimiz vardı. Tüm katılımcılar, UC Berkeley Kurumsal İnceleme Kurulunun kurallarına ve düzenlemelerine uygun olarak imzalı onay verdi ve tüm deneysel prosedürler onaylandı.
Katılımcılar veri setindeki toplam 124 videoyu izledi ve derecelendirdi. Gözlemcilerin yorulmasını önlemek için açıklama prosedürünü 1 saatlik ve 30 dakikalık iki açıklama oturumuna ayırdık. Katılımcılar herhangi bir videoya açıklama ekleyebilmeden önce, onlara Bradley ve Lang (1999) [6] tarafından sağlanan derecelendirmelere göre ızgaranın farklı yerlerinde etiketlenmiş örnek duyguların yer aldığı değerlik-uyarılma etki derecelendirme tablosunun basılı bir versiyonu gösterildi. Açıklamacılara, daha sonra açıklama sürecinde kullanacakları boyutlar ve örnek kelime konumları hakkında bilgi sahibi olmaları talimatı verildi. Katılımcılar duygu derecelendirme tablosuna aşina olduktan sonra, bir videodaki hedef karakterin değerini ve uyarılmasını sürekli olarak izledikleri iki dakikalık bir pratik açıklamasını tamamladılar (Şekil 3b). Ek açıklamacılara, fare işaretçilerini 2B değerlik-uyarılma ızgarası içinde gerçek zamanlı olarak sürekli hareket ettirerek videodaki hedef karakterin değerini ve uyarılmasını izlemeleri talimatı verildi. Izgara onların değerlik ve uyarılma derecelerini [−1, 1] aralığında eşleştirecektir. Potansiyel motor yanlılıkları kontrol etmek için, katılımcılar arasındaki değerlik-uyarılma boyutlarını dengeledik; açıklama yapanların yarısının x ekseninde değerlik ve y ekseninde uyarılmaya sahip olduğu ve diğer yarısının ise uyarılma x ekseninde olacak şekilde boyutlar ters çevrilmiş olduğu şekilde dengeledik. -ekseni ve değerlik y eksenindeydi. Gözlemciler uygulama açıklama oturumunu bitirdikten sonra veri kümesindeki videolara açıklama eklemeye başladılar.
Katılımcılara ek açıklamalara başlamadan önce, katılımcılara video başladığında hangi karakteri izleyeceklerini bildiren, hedef karakterin daire içine alındığı bir resim gösterildi (Şekil 3a). Daha sonra video kliplere gerçek zamanlı olarak açıklamalar eklediler. Her video açıklamasının sonunda katılımcılar, "Tanıdık değil", "Biraz tanıdık", "Biraz tanıdık", "Orta derecede tanıdık" ve "Son derece tanıdık" arasında değişen 1-5 ayrık Likert ölçeği kullanarak video klibe aşinalıklarını bildirdiler. aşina". Katılımcılara ayrıca 1 (Keyifli Değil) ile 9 (Son Derece Keyifli) arasında değişen 1-9 ayrık Likert ölçeği kullanılarak derecelendirilen klibi izlerken aldıkları keyif düzeyleri de soruldu. Ayrıca katılımcıların sıkılmaması adına 124 video klibin tamamı iki oturuma bölündü. Katılımcılar video klipleri iki oturumda ayrı ayrı derecelendirdiler.
Her deneme sırasında, fare işaretçisini herhangi bir konumda tuttukları süreyi takip ederek katılımcıların dikkat edip etmediğini değerlendirdik. Süre 10 saniyeden uzun olsaydı, etki derecelendirme tablosu dalgalanmaya başlayacaktı ve bu da katılımcılara hedef karakterin duygusunu izlemeye devam etmelerini hatırlatıyordu. Veri setimizde herhangi bir gürültülü açıklayıcı olup olmadığını değerlendirmek için, her bir açıklayıcı ile bir tanesini dışarıda bırakma konsensüsü (mevcut açıklayıcı dışındaki yanıtların toplamı) arasındaki Pearson korelasyonunu hesaplayarak her bir açıklayıcının fikir birliği ile uyumunu hesapladık. her video. Birini dışarıda bırakma fikir birliğine sahip tüm videolarda yalnızca bir ek açıklamacının 0,2'den düşük bir korelasyona sahip olduğunu bulduk. Yalnızca bir ek açıklayıcı eşiğimizin altına düştüğünden, videolardan herhangi bir önemli alternatif ek açıklamayı kaldırmamak amacıyla ek açıklayıcıyı veri kümesinde tutmaya karar verdik.
Şekil 4, 2 farklı video klipteki örnek ortalama derecelendirmeleri ve ana kareleri göstermektedir. Açıkçası, burada hem değerlik hem de uyarılma geniş bir derecelendirme aralığına sahiptir. Ayrıca, mekansal ve/veya zamansal bağlam bilgisinin duygu tanıma görevlerinde önemli bir rol oynadığını göstermektedir. Değerlik örneğinde (üstteki şekil), dövüşün zamansal ve/veya mekansal bağlam bilgisi olmadan, son karedeki (sarı) karakterin (kadının) şaşırtıcı derecede mutlu mu yoksa şaşkın mı olduğunu anlamak zor olacaktır. Uyarılma örneğinde (alttaki şekil), seçilen karakterin yüzü olmasa bile, gözlemciler yoğun bağlam yoluyla karakterin uyarılma durumunu kolayca ve tutarlı bir şekilde çıkarabiliyorlar.
Şekil 5, veri setimizdeki tek bir video için tüm katılımcıların örnek değerlik ve uyarılma derecelerini göstermektedir. Bireysel deneğin derecelendirmeleri (gri çizgiler), hem değerlik hem de uyarılma derecelendirmeleri için katılımcılar arasındaki fikir birliği derecelendirmelerini (yeşil çizgi) takip etti. Yeşil konsensüs çizgisinin etrafında örtüşen yoğun gri çizgi, geniş bir gözlemci yelpazesi arasındaki anlaşmaları gösterir. Ek olarak, her video için gözlemciler arasındaki standart sapmayı hesaplayarak, gözlemcilerin tepkilerinin videolar arasında nasıl değiştiğini araştırdık. Hem valans hem de uyarılma boyutları için gözlemciler arasındaki varyansın küçük olduğunu, valansın ortalama standart sapması µ = 0,248 ve medyanı 0,222 ve uyarılmanın ortalama standart sapması µ = 0,248 ve medyanı 0,244 olan küçük olduğunu bulduk. EMOTIC'in değerlik ve uyarılma derecesi varyansı ile karşılaştırılabilir [32].
Tüm videolarımız genelinde değerlik ve uyarılma derecelendirmelerinin dağılımı Şekil 6'da gösterilmektedir. Bireysel katılımcı derecelendirmelerinin, VEATIC veri kümesinin çeşitliliğini vurgulayan hem değerlik hem de uyarılma boyutlarına tamamen dağıldığını gördük. Ayrıca katılımcılar arasında her video için aşinalık ve keyif puanlarını da topladık (Şekil 7'de gösterilmektedir). 0-97 arasındaki video kimlikleri için ortalama aşinalık derecesi 1,61 olduğundan, gözlemcilerin veri setinde kullanılan videolara aşina olmadıklarını tespit ettik. Ek olarak, gözlemciler videoları izlerken aldıkları keyfi 0-97 video kimlikleri için ortalama 4,98 olarak derecelendirdiler; bu da gözlemcilerin video klipleri izlemekten ve video kliplere açıklama eklemekten orta derecede keyif aldıklarını gösteriyor. Bu videolara ilişkin ek açıklamalar, bu derecelendirmeleri içermeyen veri toplama sırasında daha erken bir zaman noktasında toplandığından, 98-123 numaralı video kimlikleri için aşinalık ve keyif derecelendirmeleri toplanmamıştır.
Aşağıdaki Tablo 2 VEATIC veri setinin temel istatistiklerini özetlemektedir. Özetle VEATIC, uzun bir toplam video klip süresine ve çok çeşitli bağlamları ve duygusal koşulları kapsayan çeşitli video kaynaklarına sahiptir. Üstelik önceki veri kümeleriyle karşılaştırıldığında, derecelendirmelere açıklama eklemek için çok daha fazla katılımcıyı işe aldık.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .