paint-brush
Google stellt sein bisher vielversprechendstes Text-to-Video-Modell vor: Lumierevon@aibites
1,353 Lesungen
1,353 Lesungen

Google stellt sein bisher vielversprechendstes Text-to-Video-Modell vor: Lumiere

von Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

Zu lang; Lesen

Möchten Sie Mona Lisa wie eine Hexe lächeln sehen? Oder möchten Sie, dass das Mädchen mit dem Perlenohrring zwinkert und lächelt? Google hat gerade ein Videogenerierungsmodell namens Lumiere [1] herausgebracht, das alles für Sie erledigen kann. Obwohl es sich in erster Linie um ein Text-zu-Video-Modell handelt, kann es noch viel mehr. Wenn Sie ein Referenzbild mit einer Eingabeaufforderung erhalten, können Sie Ihre Videos stilisieren, indem der Stil des Referenzbilds in Ihre Videos kopiert wird.
featured image - Google stellt sein bisher vielversprechendstes Text-to-Video-Modell vor: Lumiere
Shrinivasan Sankar HackerNoon profile picture

Einführung

Möchten Sie Mona Lisa wie eine Hexe lächeln sehen? Oder möchten Sie, dass das Mädchen mit dem Perlenohrring zwinkert und lächelt? Google hat gerade ein Videogenerierungsmodell namens Lumiere [1] herausgebracht, das alles für Sie erledigen kann.


Obwohl es sich in erster Linie um ein Text-zu-Video-Modell handelt, kann es noch viel mehr. Wenn Sie ein Referenzbild mit einer Eingabeaufforderung erhalten, können Sie Ihre Videos stilisieren, indem der Stil des Referenzbilds in Ihre Videos kopiert wird.


Sie können Ihre Videos sogar mit nur einer einzigen Eingabeaufforderung bearbeiten. Das Modell ist Lumiaire. Es ist sogar in der Lage, Objekte innerhalb eines vom Benutzer angegebenen Bereichs in einem Bild zu animieren, eine Technik namens Cinemagraphs.


Beim Inpainting ist Lumiere sogar in der Lage, über ein völlig fehlendes Objekt wie in diesem Beispiel einen Kuchen nachzudenken.


Alles läuft auf ein Diffusionsmodell mit einer neuartigen Raum-Zeit-U-Net-Architektur hinaus [3]. Es handelt sich um eine Anpassung der U-Net-Architektur, um das Problem der zeitlichen Konsistenz zu lösen, das bei Videogenerierungsmodellen weit verbreitet ist.

Visuelle Erklärung

Eine visuelle Erläuterung des Lumiere-Artikels, der Modellarchitektur und der Ergebnisse ist verfügbar.

Was ist also zeitliche Konsistenz?

Wir alle wissen, dass Videos eine Abfolge von Bildern sind. Nehmen wir also eine Reihe von Bildern, die in der oberen Reihe der obigen Abbildung gezeigt werden. Wenn wir nur eine Zeile im Bild eingrenzen, was durch die von links nach rechts verlaufende grüne Linie angezeigt wird, müssen wir einen fließenden Übergang der Pixelwerte zwischen den Bildern in der Sequenz sehen.


Wenn der Übergang fließend ist, sehen wir beim Ansehen des Videos keinen Sprungeffekt.


Wenn wir beispielsweise Stable Video Diffusion [2] verwenden und das Video eines Astronauten sehen, der auf dem Mond läuft (oben), können wir sehen, dass seine Hände zwischen den Bildern einfach verschwinden. Mit anderen Worten: Es fehlt die zeitliche Konsistenz zwischen den Frames.


Diese Art der zeitlichen Inkonsistenz zwischen der Zeit und der Intensität in x-Richtung kann als XT-Schnitt dargestellt werden, wie in der Abbildung oben hervorgehoben. Und wenn es eine zeitliche Inkonsistenz gibt, wird diese im Diagramm des XT-Slices hervorgehoben.


Lumiere geht dieses Problem an, indem es ein Raum-Zeit-Diffusionsmodell und eine modifizierte U-Net-Architektur einführt, die im Diffusionsmodell vorhanden ist.

Pipeline eines Textes zu Video

Bevor wir uns mit den Details befassen, beginnen wir mit der typischen Pipeline eines Text-zu-Video-Generierungsmodells.

Diese Pipelines tasten jeden fünften Frame als Keyframes aus der Eingabevideosequenz ab und trainieren ein Basismodell, das diese Keyframes mit einer Auflösung von nur 128 x 128 und nur 3 Bildern pro Sekunde generieren kann.


Anschließend wird die zeitliche Superauflösung verwendet, um die Bildrate durch Vorhersage der Zwischenbilder zu erhöhen. Die Bildrate beträgt nun also 16 Bilder pro Sekunde.


Die räumliche Auflösung dieser Bilder wird dann durch ein räumliches Superauflösungsnetzwerk (SSR) auf beispielsweise 1024 x 1024 erhöht, was schließlich zu unserem generierten Video führt.


Das in diesem Framework verwendete Basismodell ist normalerweise ein Diffusionsmodell, das wiederum ein U-Net enthält.

Die vorgeschlagene Pipeline von Lumiere

Die vorgeschlagene Pipeline von Lumiere hingegen verarbeitet alle Frames auf einmal, ohne Frames zu löschen. Um den Rechenaufwand für die Verarbeitung aller Frames zu bewältigen, wird die Architektur des Basisdiffusionsmodells geändert, um die Raum-Zeit-UNet-Architektur oder STUNet zu erhalten.


Da STUNet alle Eingabebilder verarbeitet, entfällt die Notwendigkeit einer Temporal Super Resolution oder TSR. Die Pipeline verfügt also immer noch über die räumliche Superauflösung oder SSR. Die Neuheit ist jedoch die Einführung von MultiDiffusion.

Von U-Net zu STUNet

Werfen wir einen kurzen Blick auf das U-Net, bevor wir uns mit dem Raum-Zeit-U-Net befassen. Die Eingabe in das U-Net ist ein 3-dimensionales Bild mit Breite W, Höhe H und RGB-Kanälen. Nach jeder doppelten Faltungsstufe des U-Net wenden wir maximales Pooling an, um die räumliche Dimension der Features herunterzurechnen oder zu reduzieren. Dieser Schritt zur Reduzierung der räumlichen Dimension wird durch die roten Pfeile angezeigt.


In ähnlicher Weise gibt es während der Decoderphase Aufwärtsfaltungen, um die Auflösung wieder auf die Größe der Eingabe zu erhöhen oder abzutasten.

Wenn es um Videos geht, haben wir eine zusätzliche Dimension im Input: Zeit. Daher schlägt Raum-Zeit-U-Net vor, das Video nicht nur in der räumlichen Dimension, sondern auch in der Zeitdimension T herunter- und hochzurechnen. Dies ist die Hauptidee der zeitlichen Größenänderung und der Hauptbeitrag dieses Lumiere-Artikels.


Für die Größenänderung verwenden sie 3D-Pooling anstelle von 2D-Pooling, da die Eingabe jetzt eine zusätzliche Dimension hat.


Wie ich werden Sie vielleicht von der Einfachheit der Idee überrascht sein. Die Autoren selbst haben in dem Artikel Folgendes erwähnt:

Überraschenderweise wurde diese Designwahl bei früheren T2V-Modellen übersehen, die der Konvention folgen, nur räumliche Down- und Upsampling-Operationen in die Architektur einzubeziehen und eine feste zeitliche Auflösung im gesamten Netzwerk beizubehalten.

Implementierung

Kommen wir zu einigen Nuancen der Implementierung. Sie verwenden die in diesem Artikel eingeführte faktorisierte Faltung namens Video Diffusion Models. Die Idee besteht darin, jede 2D-Faltung in eine raumbasierte 3D-Faltung umzuwandeln, indem man beispielsweise jede 3x3-Faltung in eine 1x3x3-Faltung umwandelt.


Für die Aufmerksamkeit fügen wir nach jedem räumlichen Aufmerksamkeitsblock einen zeitlichen Aufmerksamkeitsblock ein, der die Aufmerksamkeit über die erste Achse richtet und die räumlichen Achsen als Stapelachsen behandelt.

Mit diesen beiden Änderungen werden die faktorisierten Faltungsblöcke zum vorab trainierten Modell hinzugefügt und nur die zusätzlichen Schichten werden mit festen vorab trainierten Schichtgewichten trainiert.


Die zweite Neuheit des Artikels ist die während der räumlichen Superauflösung eingeführte MultiDiffusion. Wenn Sie die Videogenerierungsmodelle vor Lumiere verwenden, benötigt das räumliche Superauflösungsmodell eine Folge von Bildern.


Die Sequenzen überschnitten sich jedoch nicht. Beispielsweise sind die ersten 8 Frames und die nächsten 8 Frames, die vom SSR-Modul als Eingabe übernommen werden, ohne Überlappung getrennt.


Aber bei Lumiere überlappen sich die ersten 8 Frames und die zweiten 8 Frames um zwei Frames. Dadurch scheint das räumliche Superauflösungsmodell fließende Übergänge zwischen den Zeitsegmenten zu erreichen. Dies wird in der Arbeit als MultiDiffusion bezeichnet.

Anwendungen

Die Kopplung der beiden vorgeschlagenen Techniken zusammen mit dem Fehlen einer kaskadierten Diffusionsmodellarchitektur, die in früheren Architekturen wie Imagen Video vorherrscht, führt zu einer ganzen Reihe unterschiedlicher Anwendungen.


Zum Beispiel:

  • Das Modell kann Text in Videos mit Aufforderungen wie „Ein Astronaut, der auf dem Planeten Mars läuft und einen Umweg um seine Basis macht“ oder „Ein Hund, der ein Auto fährt und eine lustige Sonnenbrille trägt“ umwandeln.


  • Es kann Bilder zusammen mit einer Textaufforderung wie „Ein zwinkerndes und lächelndes Mädchen“ in Videos umwandeln.


  • Es kann die Generierung mit einem Referenzbild und einer Textaufforderung wie „ein tanzender Bär“ stilisieren. Apropos Cinemagraphs: Er kann vom Benutzer ausgewählte Bereiche wie Feuer oder Dampf animieren.


  • Es kann sogar Kleider, die Menschen tragen, mit nur einer einzigen Eingabeaufforderung bearbeiten.

Auswertung

Um das Modell quantitativ zu bewerten, wurde das Modell einer Benutzerstudie unterzogen, bei der die Benutzer die Ergebnisse des vorgeschlagenen Modells mit einigen hochmodernen Modellen wie Pika, ZeroScope oder Stable Video Diffusion verglichen. Die Ergebnisse zeigen, dass die Benutzer das Lumiere-Modell sowohl im Fall von Text zu Video als auch von Bild zu Video bevorzugten.

Abschluss

Zusammenfassend lässt sich sagen, dass der Beitrag dieses Artikels, abgesehen von all den Werbevideo-Stunts wie der lächelnden Monalisa, ziemlich einfach ist. In einer Zeile zusammengefasst führt der Artikel eine Unterabtastung des zeitlichen Kanals ein.


In Verbindung mit MultiDiffusion, bei der überlappende Bilder in das Superauflösungsmodell eingespeist werden, werden hochauflösende Videos erzeugt, die zeitlich konsistent sind.


Was ich gerne gesehen hätte, wären einige Ablationsstudien in der Arbeit, die die Ergebnisse mit und ohne MultiDiffusion-Verfahren zeigen.


Damit sind wir am Ende dieses Artikels angelangt. Wenn Sie das nächste Mal jemand über Lumiere spricht, wissen Sie, was Sie in einer Zeile sagen sollen. Ich hoffe, das hat einen Einblick in das Lumiere-Modell gegeben.


Wir sehen uns in meinem nächsten, bis dahin, pass auf dich auf …

Verweise

[1] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri, Ein Raum-Zeit-Diffusionsmodell für die Videoerzeugung (2024), arXiv-Vorabdruck.


[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach, Stabile Videodiffusion: Skalierung latenter Videodiffusionsmodelle auf große Datensätze (2023), arXiv-Vorabdruck.


[3] Olaf Ronneberger, Philipp Fischer und Thomas Brox, U-Net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung (2015), Internationale Konferenz über medizinische Bildverarbeitung und computergestützte Intervention.


Auch hier veröffentlicht