paint-brush
Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Model Ayrıntılarıile@kinetograph

Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Model Ayrıntıları

Çok uzun; Okumak

Bu makalede araştırmacılar, denetlenen yöntemlerin ötesine geçerek, anlatı yapısını belirleyerek ve duyguyu tahmin ederek fragmanlar oluşturmak için filmleri grafikler olarak modelliyor.
featured image - Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Model Ayrıntıları
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.

Bağlantı Tablosu

A. Model Detayları

Bu bölümde yaklaşımımızın çeşitli modelleme bileşenleri hakkında ayrıntılar sunuyoruz. GRAPHTRAILER mimarisinin ayrıntılarını vererek başlıyoruz (Bölüm A.1), ardından TP tanımlama ağının nasıl eğitildiğini tartışmaya geçiyoruz (Bölüm A.2) ve son olarak senaryolardaki ön eğitim hakkında teknik ayrıntılar veriyoruz (A.3) ve grafik geçişi için kullanılan duygu akışı (A.4).

A.1. GRAFİK RÖMORK


Düz Geçiş Tahmincisini [7] kullanarak modelimizdeki süreksizlikleri (yani, en üst k örnekleme, mahalle boyutu seçimi) ele alıyoruz. Geriye doğru geçiş sırasında gradyanları Gumbel-softmax yeniden parametrelendirme hilesi ile hesaplıyoruz [25, 32]. Yardımcı senaryo tabanlı ağda sahne düzeyindeki grafiklerin oluşturulması ve ayrıştırılması için aynı prosedür izlenir.

A.2. TP Tanımlama Eğitimi

Bölüm 3, sahneler için TP etiketlerinin (yani bir sahnenin bir filmde TP gibi davranıp davranmadığını belirten ikili etiketler) mevcut olduğunu varsayarak video ve senaryo tabanlı model için eğitim rejimimizi sunmaktadır. Bu tür etiketler göz önüne alındığında, modelimiz birkaç sıcak altın etiketi ile ağın TP tahminleri arasındaki ikili çapraz entropi kaybı (BCE) hedefiyle eğitilir.


Ancak pratikte eğitim setimiz sahneler için gümüş standart etiketler içerir. İkincisi TRIPOD [41] veri seti ile birlikte yayınlanır ve otomatik olarak oluşturulur. Özellikle TRIPOD, özet cümlelerinin TP'leri temsil ettiği varsayımıyla, özetler için (senaryolar için değil) altın standart TP ek açıklamaları sağlar. Ve cümle düzeyindeki açıklamalar, gümüş standartlı etiketler oluşturmaya zorlayan öğretmen [41] ile eğitilmiş bir eşleştirme modeliyle sahnelere yansıtılır.


A.3. Kendi Kendini Denetleyen Ön Eğitim

A.4. GRAPHTRAILER'da Duygu Akışı

Grafik geçiş algoritmamızda (Bölüm 3.1) bir sonraki çekimi seçme kriterlerinden biri, o ana kadar oluşturulan fragmanın duygu akışıdır. Spesifik olarak, fragmanların duygu yoğunluğuna göre üç bölüme ayrıldığı hipotezini[9] benimsiyoruz. İlk bölüm izleyicilerin ilgisini çekmek için orta yoğunluktadır, ikinci bölüm film hakkında önemli bilgiler vermek için düşük yoğunluktadır ve son olarak üçüncü bölüm filmde heyecan ve heyecan yaratmak için giderek daha yüksek yoğunluk gösterir.


Buna göre, L fragman çekimlerinden oluşan bir bütçe verildiğinde, ilk L/3 çekimlerin bölüm içinde büyük değişiklikler olmadan orta yoğunluğa sahip olmasını bekliyoruz (örneğin, tüm puanların bir aralığa normalleştirildiği 0,7'ye yakın ortalama mutlak yoğunlukta çekimler istiyoruz) -1'den 1'e kadar). Fragmanın ikinci bölümünde (yani sonraki L/3 çekimleri) yoğunlukta keskin bir düşüş bekliyoruz ve bu bölümdeki çekimlerin az çok nötr duyguyu (yani 0 yoğunluk) korumasını bekliyoruz. Son olarak üçüncü bölüm için (yani son L/3 çekimleri) yoğunluğun giderek artmasını bekliyoruz. Uygulamada, ilk atışın yoğunluğunun 0,7 olmasını (yani orta yoğunlukta) ve son atışta zirveye ulaşana kadar sonraki her atışta 0,1 oranında artmasını bekliyoruz.



[9] https : / / www. derek-lieu. com / blog / 2017 / 9 / 10 / - matris - bir - fragmandır - editörlerin rüyası