paint-brush
OpenAI の Sora はすでに問題を抱えているのか?@lukaszwronski
1,886 測定値
1,886 測定値

OpenAI の Sora はすでに問題を抱えているのか?

Lukasz Wronski7m2024/06/17
Read on Terminal Reader

長すぎる; 読むには

Luma Dream Machine は、生成 AI の世界で最新のセンセーションを巻き起こしています。これは、画像からビデオを生成するための最高のツールであり、Pika や Runway ML などの競合製品に勝っています。しかし、謎に包まれた Sora と比べるとどうでしょうか。Sora は使用できないため、OpenAI の公開デモと Luma Dream Machine の機能を比較します。
featured image - OpenAI の Sora はすでに問題を抱えているのか?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

生成 AI の世界で最近話題になっている Luma Dream Machine について聞いたことがありますか? これは OpenAI の Sora の最大のライバルと言われています。しかし、本当にそれほど優れているのでしょうか?


Dream Machine は誰でも利用できるのに対し、Sora は利用できないため、比較するのは難しいです。しかし、何がわかるか見てみましょう。現時点では、実際に使用できるため Dream Machine がリードしていることは否定できません。これは、画像からビデオを生成するための最高のツールであり、Pika や Runway ML などの競合製品に勝っています。しかし、謎に包まれた Sora と比べるとどうでしょうか?

Sora は使用できないため、OpenAI の公開デモと Luma Dream Machine の機能を比較します。計画は次のとおりです。OpenAI のデモ ビデオの最初のフレームを取得し、同じプロンプトを Luma の Dream Machine で使用します。これにより、Dream Machine が Sora と同じ物理、動き、空間をどれだけうまくコピーできるかがわかります。OpenAI のデモが厳選されている場合でも、詳細を比較して、両方のモデルのパフォーマンスを確認できます。


以下に、いくつかのビデオ比較をまとめました。各セットには 3 つの例があります。最初のビデオは、Sora の Web サイトにある OpenAI のデモからのものです。2 番目は、同じプロンプトと Sora のデモの最初のフレームをガイドとして使用して、Dream Machine の画像からビデオへの変換機能を使用して作成されました。3 番目は、プロンプトのみで Luma のツールがどのように機能するかを示しています。これは興味深いことです。なぜなら、Sora と Dream Machine の両方がテキストからビデオへの変換を使用しているため、創造性とプロンプトへの従いやすさを比較できるからです。


それでは、これ以上何も言わずに、例をチェックして、どのツールが優れているかを見てみましょう。

東京ウォーク


OpenAI のデモと Luma Dream Machine を比較してみましょう。最初の比較では、Dream Machine は印象的なカメラの動きを示し、主要人物の動作はスムーズで自然です。ただし、クリップ全体にわたって不自然なアーティファクトや、オブジェクトと人物の見た目の一貫性がないという問題があります。OpenAI のビデオとは異なり、背景の群衆はビデオが進むにつれて溶けて形を変えるように見えます。


主人公の顔も不自然に変化しており、動画が明らかに偽物のように見えますが、ソラにはそのような問題はありません。


テキストから動画への変換の例では、Dream Machine の動画は悪くないが、オブジェクトの不自然な変形が目立っている。たとえば、歩行者の手に傘がどこからともなく現れ、AI 生成であることが明確にわかる。これではロイヤリティフリーのストック クリップとは競争にならない。Sora の生成はおそらくそうなるだろう。


しかし、Dream Machine はプロンプトによく従っています。黒いジャケット、赤いドレス、口紅、サングラス、反射する道路、歩行者、ネオンライトがすべて揃っています。細部までよくできていますね!

ゴールド・ラッシュ


Luma の画像から動画への変換結果を OpenAI の結果と比較すると、それほどひどいものではありません。ただし、カメラの動きは東京の動画ほどスムーズではなく、突然停止してシーンがぎこちなく見えます。最悪なのは、クリップの最後のキャラクターの動きです。これは不自然でランダムに見えます。さらに、左側の建物はフレームごとにリアリティが低下しますが、これは Sora の例には見られない問題です。


前のクリップと同様に、安定性と一貫性が欠けており、アーティファクトが多すぎます。また、Sora は、低いフレーム レートと全体的に昔ながらの品質でクリップをビンテージ風に見せることにも優れており、プロンプトに応じて出力を様式化できることを示唆していますが、Dream Machine ではこれは実現できませんでした。


短くて自由形式のプロンプトを使用したテキストからビデオへの変換の例では、Luma のモデルはゴールドラッシュの歴史から別のシーンを選択しました。適切な色と照明を使用しており、その時代のスタイルに合っているように見えます。ただし、モーフィング効果と不自然な動きによりクリップ全体が台無しになり、ビデオ プロジェクトでは使用できなくなります。

砂塵の中のSUV


このビデオは、OpenAI の Web サイトで私が一番気に入っているものです。車の動きはとても自然で、照明、影、ダイナミクスも優れています。実際のビデオと区別がつかないため、コンテンツ クリエイターに最適です。対照的に、Dream Machine のカメラの動きは正確ですが、オブジェクトが不自然に押しつぶされ、ぐちゃぐちゃになっています。クリップの 2 番目の部分では、視点が大きく歪んでおり、明らかに AI 生成のように見えます。


テキストからビデオへの変換の例では、結果は実に良好で、Luma の製品で私が得た最高のものの 1 つです。最初のものほどダイナミックではありませんが、かなり自然に見えます。ただし、別の問題があります。プロンプトは詳細で、SUV を後ろから見て、タイヤからほこりが出ているように指定されています。Dream Machine はそれを別の方法で解釈しました。


これは、AI コンテンツ ジェネレーターの重要な側面を浮き彫りにしています。つまり、正確なプロンプト解釈がなければ、ビジョンやニーズに合わないバリエーションを生成するのに何時間も無駄にしてしまう可能性があるということです。

博物館


美術館の例は、別の種類の怪物です。いや、実際には怪物ではありません。より繊細で、穏やかで、ダイナミックさは少ないです。カメラを固定して歩くだけの単純なものです。OpenAI のバージョンは正確です。エキサイティングではありませんが、リアリティに欠けることはありません。Luma のバージョンは、カメラの動きが異なりますが、他のクリップで見られるような歪みがなく、見栄えも良好です。主な問題は、元の画像の一部ではない画像がぼやけて鮮明さに欠けていることです。全体的に、ビデオは問題なく、少し調整すれば適切な結果が得られます。


2 番目のビデオにも明らかな視覚的欠陥はありません。ギャラリーは問題なく見えます。私の最大の問題は、最初の部分でのカメラの動きの選択です。これはあまり現実的ではありません。興味深いことに、Dream Machine は 1 つのプロンプトに対して 2 つのシーンを生成し、途中で美術館の別の部屋を映しています。モデルがこれを選択したことは興味深いことです。2 番目の部分ではカメラの動きが改善され、より見やすくなっています。

後ろ向きジョガー


この例が興味深いのは、Sora のページで、ジョガーが間違った方向に走っていることがモデルの問題の 1 つとして示されているからです。トレッドミルはこのようには動作しませんが、AI の世界では何でも可能です。これは Dream Machine が活躍するチャンスでしょうか? 画像からビデオへの変換結果は、実際にはかなり良好です。


ジョギングをする人は入力画像と同じように後ろ向きに走っていますが、カメラの動きとジョギングをする人の動作はほぼ完璧です。若干の歪みがあり、時間の経過とともにカメラの視点が少しおかしくなりますが、少し厳選することで、制作に適切な結果を得ることができます。


プロンプトのみで生成されたバージョンも興味深いです。非常にダイナミックで少し歪んでいますが、これは特定の作品、特に揺れるスケッチのような美的感覚が求められる作品には適しているかもしれません。まったく悪くありません。最後に、Luma のモデルは将来の競合製品に近づいています。

イタリアンパピー


OpenAI サイトの最後のメイン サンプルは、カラフルなイタリアの街にいるダルメシアン犬です。Sora で作成された元のビデオは完璧ではありません。長いクリップでは、犬が少し奇妙な動きをし始め、アニメーションは他の紹介ビデオほど自然ではありません。Luma の最新の AI はこれをどのように処理するのでしょうか。


全然うまくない。テイクが 1 回しかなかったからかもしれないし (ジェネレーターのレートはかなり制限されている)、私たちが目にするのは不具合と非現実的なイメージの祭典だ。ビデオが進むにつれて犬の質感が変わり、建物は粘土で作られたように見え、最後には犬のような別の怪物が現れ、実際のビデオというよりサルバドール・ダリの作品のように見える。これは間違いなくこれまでで最悪の例だ。


ドリームマシンの作品も、それほど良くはない。プロンプトに従わず、ダルメシアンをまったく登場させていない。犬が座れる窓はなく、建物は漫画のようで、全体的な建築は意味不明だ。最悪なのは、ひどく歪んだ自転車に乗ったサイクリスト、運河に突っ込む変形した生き物、あるいは理由もなく他のサイクリストに変身する生き物たちだ。これは期待をはるかに下回る。

評決?

現在一般に公開されているものの中で、Luma の新しい AI は本当に素晴らしいものです。限界を押し広げ、非常に素晴らしいカメラ モーションと、多くの場合非常にリアルな人や物の動きを生成しています。参照画像を提供するとさらにうまく機能し、現在の競合製品よりも優れた効果を生み出しているようです。


しかし、Sora と同じくらい優れているのでしょうか? 今のところは、そうは思えません。Sora の作品は、少なくとも一見すると、本物のビデオと見間違えられることがあります。ショーケースは、Sora がストック ビデオと競合し、映画制作者やコンテンツ クリエイターの作業を楽にできることを示唆しています。一方、Dream Machine は、不具合が発生することが多く、プロンプトに正確に従うとは限りません。


これはモデルの改善におけるさらなる前進ですが、広範囲に使用するにはまだ信頼性と安定性が十分ではありません。


これは Sora の真のライバルでしょうか? まだそうではありません。しかし、私たちは Sora と直接やり取りしたことはなく、OpenAI のショーケースは慎重にキュレーションされている可能性があります。Sora は、Luma のモデルと同様の間違いをする可能性があります。Sora が一般公開されるまでは、確信は持てません。


個人的には、Dream Machine がリリースされてよかったと思っています。これにより、完璧な AI ビデオ ジェネレーターに近づきました。場合によっては便利で、今後さらに改善されるでしょう。Luma がこのツールをリリースし、ビデオ クリップ用の生成 AI を楽しむ新たな方法を提供してくれたことに感謝しています。


一方で、私は Sora がショーケースで示されているように機能することを期待しています。もしそうなれば、大きな飛躍となるでしょう。私は、結果を自分で比較できるように、公開されるのを心待ちにしています。