paint-brush
OpenAI 的 Sora 遇到麻烦了吗?经过@lukaszwronski
1,879 讀數
1,879 讀數

OpenAI 的 Sora 遇到麻烦了吗?

经过 Lukasz Wronski7m2024/06/17
Read on Terminal Reader

太長; 讀書

Luma Dream Machine 是生成式 AI 领域的最新热点。它是从图像生成视频的最佳工具,击败了 Pika 和 Runway ML 等竞争对手。但它与神秘的 Sora 相比如何?由于我们无法使用 Sora,我们将 OpenAI 的公开演示与 Luma Dream 机器的功能进行比较。
featured image - OpenAI 的 Sora 遇到麻烦了吗?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

你听说过生成式人工智能领域的最新轰动之作 Luma Dream Machine 吗?它被称为 OpenAI 的 Sora 的最大竞争对手。但它真的那么好吗?


比较它们很棘手,因为 Dream Machine 可供所有人使用,而 Sora 则不可供所有人使用。但让我们看看我们能发现什么。很难否认,目前 Dream Machine 处于领先地位,因为我们可以实际使用它。它是从图像生成视频的最佳工具,击败了 Pika 和 Runway ML 等竞争对手。但它与神秘的 Sora 相比如何?

由于我们无法使用 Sora,我们将比较 OpenAI 的公开演示和 Luma Dream Machine 的功能。计划如下:我们将从 OpenAI 的演示视频中截取第一帧,并使用与 Luma 的 Dream Machine 相同的提示。这将向我们展示 Dream Machine 可以多么出色地复制与 Sora 相同的物理、运动和空间。即使 OpenAI 的演示是精挑细选的,我们仍然可以比较细节并查看两种模型的性能。


下面,我整理了一些视频对比。每组有三个示例。第一个视频来自 OpenAI 在 Sora 网站上的演示。第二个视频是使用 Dream Machine 的图像转视频功能制作的,使用相同的提示和 Sora 演示的第一帧作为指导。第三个视频展示了 Luma 的工具如何仅使用提示。这很有趣,因为 Sora 和 Dream Machine 都使用文本转视频,因此我们可以比较他们的创造力以及他们对提示的遵循程度。


所以,事不宜迟,让我们看看这些例子,看看哪个工具能胜出。

东京漫步


让我们将 OpenAI 的演示与 Luma Dream Machine 进行比较。在第一个比较中,Dream Machine 展示了令人印象深刻的镜头运动,主角的动作流畅自然。然而,整个剪辑中存在不自然的伪影和物体和人物外观不一致的问题。与 OpenAI 的视频不同,随着视频的进展,背景人群似乎融化并改变形状。


主角的脸也发生了不自然的变化,使得视频看起来明显是假的,而 Sora 却没有这个问题。


在文本转视频的例子中,Dream Machine 的视频效果还不错,但物体的不自然变形很明显。例如,一把雨伞突然出现在行人的手中,这显然表明是 AI 生成的。这使得它无法与免版税素材剪辑相媲美。Sora 的生成可能就是这样。


不过,Dream Machine 很好地遵循了提示:黑色夹克、红色连衣裙、口红、太阳镜、反光街道、行人和霓虹灯都存在。所以,遵循细节做得很好!

淘金热


当将 Luma 的图像转视频结果与 OpenAI 的结果进行比较时,结果并不糟糕。但是,摄像机运动不像东京视频中那样流畅,突然停止,使场景变得刺眼。最糟糕的是视频结尾处角色的运动,看起来不自然且随机。此外,左侧建筑物的真实感随着每一帧而下降,而 Sora 的示例中没有出现这个问题。


与上一个片段类似,该片段缺乏稳定性和一致性,有太多伪影。Sora 还擅长通过低帧率和整体老式品质使片段看起来复古,这表明它可以根据提示风格化其输出,而 Dream Machine 在此处未能实现这一点。


在带有简短开放式提示的文本转视频示例中,Luma 的模型选择了与淘金热历史不同的场景。它看起来更符合那个时代的风格,使用了正确的颜色和灯光。然而,变形效果和不自然的运动破坏了整个剪辑,使其无法用于视频项目。

尘土中的 SUV


这段视频是我在 OpenAI 网站上最喜欢的。汽车移动非常自然,光线、阴影和动态效果都非常好。它与真实视频没有区别,非常适合内容创作者。相比之下,Dream Machine 的摄像机移动是正确的,但物体被不自然地挤压和扭曲。在视频的第二部分,视角变得严重扭曲,显然看起来像是人工智能生成的。


对于文本转视频的示例,结果实际上相当不错——这是我从 Luma 产品中获得的最佳结果之一。它不如第一个动态,但看起来相当自然。然而,它有一个不同的问题。提示很广泛,指定从后面看到 SUV,轮胎上沾满了灰尘。Dream Machine 对此的解释不同。


这凸显了人工智能内容生成器的一个关键方面:如果没有精确的快速解释,我们可能会浪费数小时来生成不符合我们的愿景或需求的变体。

博物馆


博物馆的例子是另一种野兽。好吧,实际上不是野兽——它更微妙、更平静、更不活跃。只是用稳定的相机简单地走动。OpenAI 的版本是准确的。它并不令人兴奋,但并不缺乏真实感。Luma 的版本呈现了不同的相机运动,但看起来也不错,没有其他剪辑中看到的扭曲。主要问题是原始图像中不属于的图片显得模糊且缺乏清晰度。总体而言,视频很好,经过一些调整,我们可以得到正确的结果。


第二个视频也没有明显的视觉缺陷。画廊看起来不错。我最大的问题是第一部分的镜头运动选择,不太逼真。有趣的是,Dream Machine 为一个提示生成了两个场景,中间有一个剪辑显示了博物馆的另一个房间。模型决定这样做真是太神奇了。第二部分的镜头运动更好,看起来更赏心悦目。

向后慢跑者


这个例子很有趣,因为在 Sora 的页面上,它被显示为模型的问题之一:慢跑者跑错了方向。没有跑步机是那样工作的,但在人工智能世界里,一切皆有可能。这台 Dream Machine 有机会大放异彩吗?图像转视频的效果实际上相当不错。


慢跑者仍然向后跑,就像输入图像中那样,但相机运动和慢跑者的行为几乎完美。有一些轻微的扭曲,并且相机视角随着时间的推移变得有点奇怪,但通过一些挑选,我们可以为我们的制作获得不错的结果。


仅使用提示生成的版本也很有趣。它非常动态,有点扭曲,但这可能适合某些作品,尤其是当需要抖动、素描般的美感时。一点也不差。最后,Luma 的模型越来越接近其未来的竞争对手。

意大利小狗


OpenAI 网站上的最后一个主要示例是一只斑点狗在一座色彩缤纷的意大利城市中。Sora 制作的原始视频并不完美。在较长的剪辑中,这只狗开始表现得有点奇怪,而且它的动画不像其他展示视频中那样自然。Luma 的最新 AI 如何处理这个问题?


一点也不好。也许是因为他们只拍了一次(而且生成器的速度非常有限),但我们看到的是一场故障和不切实际的图像盛宴。随着视频的进展,狗的纹理不断变化,建筑物看起来像是用橡皮泥做成的,最后又出现了一个像狗一样的怪物,让它看起来更像是萨尔瓦多达利的作品,而不是真正的视频。这绝对是迄今为止最糟糕的例子。


Dream Machine 自己的作品也好不到哪里去。它没有遵循提示,根本没有把斑点狗放进去。没有窗户让狗坐,建筑物看起来很卡通,整体建筑毫无意义。最糟糕的是骑着严重变形的自行车的骑手、开车冲进运河的变形生物,或者毫无理由地变成其他骑车人。这远远低于预期。

判决?

就目前公众可用的产品而言,Luma 的新 AI 确实令人印象深刻。它突破了界限,生成了非常漂亮的摄像机动作,并且通常可以生成非常逼真的人物和物体运动。当提供参考图像时,它似乎可以更好地工作,产生的效果比其当前的竞争对手更好。


但它真的能和 Sora 一样好吗?至少目前看来还差得远。Sora 的作品乍一看可能会被误认为是真正的视频。这次展示表明,Sora 可以与库存视频竞争,让电影制作人和内容创作者的生活更轻松。而 Dream Machine 则经常出现故障,并不总是准确遵循提示。


这是模型改进的又一步,但仍然不够可靠和稳定,无法广泛使用。


它是 Sora 真正的竞争对手吗?目前还不是。不过,我们还没有直接与 Sora 进行过交流,OpenAI 的展示可能是经过精心策划的。Sora 可能会犯与 Luma 模型类似的错误。在 Sora 公开发布之前,我们无法确定。


就我个人而言,我很高兴我们有了 Dream Machine。它让我们更接近完美的 AI 视频生成器。它在某些情况下很有用,并且可能会随着时间的推移而改进。我很感谢 Luma 发布这个工具,让我们有另一种方式享受视频片段的生成 AI。


另一方面,我希望 Sora 能够像展示中展示的那样工作。如果真是这样,那将是一次重大飞跃。我热切地等待它公开发布,这样我就可以自己比较结果了。