Mona Lisa'nın bir cadı gibi gülümsemesini görmek ister misiniz? Yoksa inci küpeli kızın göz kırpıp gülümsemesini mi istersiniz? Google yakın zamanda Lumiere [1] adında, bunların hepsini sizin için yapabilecek kapasitede bir video oluşturma modelini çıkardı.
Öncelikle metinden videoya bir model olmasına rağmen bundan çok daha fazlasını yapabilir. Bir istemle referans görsel verildiğinde, referans görselin stilini videolarınıza kopyalayarak videolarınıza stil kazandırabilir.
Hatta tek bir komutla videolarınızı bile düzenleyebilirsiniz. Model Lumiaire'dir. Sinemagraf adı verilen bir teknikle, bir görüntüde kullanıcı tarafından belirlenen bir bölgedeki nesneleri bile canlandırabilir.
İç boyama söz konusu olduğunda, Lumiere bu örnekte pasta gibi tamamen eksik olan bir nesne hakkında bile mantık yürütebiliyor.
Her şey yeni bir uzay-zaman U-Net mimarisine sahip bir yayılma modeline indirgeniyor [3]. Video oluşturma modellerinde oldukça yaygın olan zamansal tutarlılık sorununu çözmek için U-Net mimarisinin özelleştirilmesidir.
Lumiere makalesinin görsel açıklaması, model mimarisi ve sonuçlar mevcuttur.
Hepimiz videoların bir dizi görselden oluştuğunu biliyoruz. O halde yukarıdaki şekilde üst satırda gösterilen bir dizi görüntüyü ele alalım. Soldan sağa giden yeşil çizgiyle gösterilen görüntüde sadece bir satırı daraltırsak, dizideki görüntüler arasında piksel değerlerinde yumuşak bir geçiş görmemiz gerekir.
Geçiş düzgünse videoyu izlerken atlama efekti görmeyiz.
Örneğin, Stabil Video Difüzyonunu [2] alıp ayda yürüyen bir astronotun videosunu izlersek (yukarıda), ellerinin kareler arasında kaybolduğunu görebiliriz. Başka bir deyişle, çerçeveler arasındaki zamansal tutarlılık eksiktir.
Zaman ile x yönündeki yoğunluk arasındaki bu tür zamansal tutarsızlık, yukarıdaki şekilde vurgulandığı gibi XT Dilimi olarak çizilebilir. Ve eğer zamansal bir tutarsızlık varsa bu, XT dilimi grafiğinde vurgulanır.
Lumiere, bir uzay-zaman yayılma modeli ve yayılma modelinde mevcut olan değiştirilmiş bir U-Net mimarisini tanıtarak bu sorunu çözüyor.
Ayrıntılara bakmadan önce, Metinden videoya oluşturma modelinin tipik işlem hattıyla başlayalım.
Bu işlem hatları, giriş video dizisindeki anahtar kareler olarak her 5. kareyi örneklendirir ve bu anahtar kareleri saniyede yalnızca 3 karede 128 x 128 kadar düşük bir çözünürlükte oluşturabilen bir temel modeli eğitir.
Daha sonra ara kareleri tahmin ederek kare hızını artırmak için geçici Süper Çözünürlük kullanılır. Böylece kare hızı artık saniyede 16 kare oluyor.
Bu karelerin uzamsal çözünürlüğü daha sonra uzamsal süper çözünürlük ağı (SSR) tarafından 1024'e 1024'e yükseltilir ve bu da sonunda oluşturulan videomuza yol açar.
Bu çerçevede kullanılan temel model genellikle içinde U-Net bulunan bir difüzyon modelidir.
Öte yandan, Lumiere'in önerilen boru hattı tüm kareleri, kareleri düşürmeden tek seferde işliyor. Tüm çerçevelerin işlenmesinin hesaplama maliyetiyle başa çıkmak için, temel yayılma modelinin mimarisi, uzay-zaman UNet mimarisini veya STUNet'i ortaya çıkaracak şekilde değiştirildi.
STUNet tüm giriş çerçeveleriyle ilgilendiğinden, Geçici Süper Çözünürlük veya TSR ihtiyacı ortadan kalkar. Yani boru hattı hala uzamsal süper çözünürlüğe veya SSR'ye sahiptir. Ancak yenilik, MultiDiffusion'ın tanıtılmasıdır.
Uzay-zaman U-Net'e bakmadan önce U-Net'i hızlıca gözden geçirelim. U-Net'e giriş, Genişlik W, Yükseklik H ve RGB kanallarına sahip 3 adet 3 boyutlu bir görüntüdür. U-Net'in her çift evrişim aşamasından sonra, özelliklerin uzamsal boyutunu azaltmak veya alt örneklemek için maksimum havuzlamayı uyguluyoruz. Bu uzamsal boyut azaltma adımı kırmızı oklarla gösterilmiştir.
Benzer şekilde, kod çözücü aşamasında, çözünürlüğü tekrar giriş boyutuna yükseltmek veya üst örneklemek için yukarı evrişimler vardır.
Videolar söz konusu olduğunda girdide ek bir boyutumuz daha var: zaman. dolayısıyla uzay-zaman U-Net, videoyu yalnızca uzamsal boyutta değil aynı zamanda T zaman boyutunda da alt ve üst örneklemeyi önerir. Bu, zamansal yeniden boyutlandırmanın ana fikridir ve bu Lumiere makalesinin ana katkısıdır.
Giriş artık ek bir boyuta sahip olduğundan, yeniden boyutlandırma için 2B havuzlama yerine 3B havuzlama kullanılıyor.
Benim gibi siz de fikrin basitliğine şaşırabilirsiniz. Yazarların kendileri makalede bahsetti:
Şaşırtıcı bir şekilde, bu tasarım seçimi, mimaride yalnızca uzamsal aşağı ve yukarı örnekleme işlemlerini içeren ve ağ boyunca sabit bir zamansal çözünürlüğü koruyan geleneği takip eden önceki T2V modelleri tarafından gözden kaçırılmıştır.
Uygulamanın bazı nüanslarına geçelim. Video Difüzyon Modelleri adlı bu makalede tanıtılan faktörleştirilmiş evrişimi kullanırlar. Buradaki fikir, her 2B evrişimi, örneğin her 3x3 evrişimi 1x3x3 evrişime dönüştürerek, yalnızca uzaydan oluşan bir 3B evrişime dönüştürmektir.
Dikkat için, her uzamsal dikkat bloğunun ardından, dikkati birinci eksen üzerinde gerçekleştiren ve uzamsal eksenleri toplu eksenler olarak ele alan bir zamansal dikkat bloğu yerleştiririz.
Bu iki değişiklikle, çarpanlara ayrılmış evrişim blokları önceden eğitilmiş modele eklenir ve önceden eğitilmiş katman ağırlıkları sabitlenerek yalnızca ek katmanlar eğitilir.
Makalenin ikinci yeniliği ise uzaysal süperçözünürlük sırasında ortaya çıkan MultiDiffusion'dır. Video oluşturma modellerini lumiere'den önce alırsanız, uzaysal süper çözünürlük modeli bir dizi kare alır.
Ancak diziler örtüşmüyordu. Örneğin, SSR modülü tarafından girdi olarak alınan ilk 8 kare ve sonraki 8 kare herhangi bir örtüşme olmaksızın ayrıdır.
Ancak Lumiere'e gelince, ilk 8 kare ve ikinci 8 karede iki karenin örtüşmesi var. Bunu yaparak, uzaysal süper çözünürlüklü model, zamansal bölümler arasında yumuşak geçişler sağlıyor gibi görünüyor. Bu, makalede multiDiffusion olarak adlandırılan şeydir.
Önerilen iki tekniğin, görüntülü video gibi önceki mimarilerde yaygın olan basamaklı bir yayılma modeli mimarisinin yokluğu ile birleştirilmesi, oldukça çeşitli uygulamaların ortaya çıkmasına yol açmaktadır.
Örneğin:
Modeli niceliksel olarak değerlendirmek için model, kullanıcıların önerilen modelin sonuçlarını Pika, ZeroScope veya kararlı video dağıtımı gibi bazı son teknoloji modellerle karşılaştırdığı bir kullanıcı çalışması aracılığıyla çalıştırıldı. Sonuçlar, kullanıcıların hem metinden videoya hem de görüntüden videoya geçiş durumunda Lumiere modelini tercih ettiğini göstermektedir.
Sonuç olarak, gülümseyen Monalisa gibi tüm tanıtım videosu gösterileri dışında bu makalenin katkısı oldukça basittir. Bir satırda, makale zamansal kanalın alt örneklemesini tanıtıyor.
Bu, süper çözünürlük modeline beslenen üst üste binen karelerden başka bir şey olmayan MultiDiffusion ile birleştiğinde, zamansal olarak tutarlı, yüksek kaliteli videolar üretir.
Makalede çoklu Difüzyon süreci ile ve bu süreç olmadan sonuçları gösteren bazı ablasyon çalışmalarını görmek isterdim.
Bu da bizi bu makalenin sonuna getiriyor. Bir dahaki sefere birisi sizinle Lumiere hakkında konuştuğunda, tek satırda ne söyleyeceğinizi bilirsiniz. Umarım bu Lumiere modeline dair bir fikir vermiştir.
Bir sonraki yazımda görüşürüz, o zamana kadar, kendine iyi bak…
[1] Ömer Bar-Tal, Hila Chefer, Ömer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri,
[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach,
[3] Olaf Ronneberger, Philipp Fischer ve Thomas Brox,
Burada da yayınlandı