paint-brush
OpenAI의 Sora는 아직 문제가 있습니까?~에 의해@lukaszwronski
1,879 판독값
1,879 판독값

OpenAI의 Sora는 아직 문제가 있습니까?

~에 의해 Lukasz Wronski7m2024/06/17
Read on Terminal Reader

너무 오래; 읽다

Luma Dream Machine은 생성 AI 세계의 최신 센세이션입니다. Pika 및 Runway ML과 같은 경쟁사를 제치고 이미지에서 비디오를 생성하는 최고의 도구입니다. 하지만 신비한 소라와 비교하면 어떻습니까? Sora를 사용할 수 없기 때문에 OpenAI의 공개 데모와 Luma Dream 머신이 수행할 수 있는 작업을 비교해 보겠습니다.
featured image - OpenAI의 Sora는 아직 문제가 있습니까?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

생성 AI 세계의 최신 센세이션인 Luma Dream Machine에 대해 들어보셨나요? OpenAI의 소라의 최대 라이벌로 불리고 있습니다. 하지만 정말 그렇게 좋은가요?


Dream Machine은 모든 사람이 사용할 수 있지만 Sora는 그렇지 않기 때문에 비교가 까다롭습니다. 하지만 우리가 무엇을 알아낼 수 있는지 봅시다. 현재로서는 Dream Machine이 실제로 사용할 수 있기 때문에 선두를 달리고 있다는 사실을 부인하기 어렵습니다. Pika 및 Runway ML과 같은 경쟁사를 제치고 이미지에서 비디오를 생성하는 최고의 도구입니다. 하지만 신비한 소라와 비교하면 어떻습니까?

Sora를 사용할 수 없으므로 OpenAI의 공개 데모와 Luma Dream Machine이 수행할 수 있는 기능을 비교해 보겠습니다. 계획은 다음과 같습니다. OpenAI의 데모 비디오에서 첫 번째 프레임을 가져와 Luma의 Dream Machine에 동일한 프롬프트를 사용합니다. 이는 Dream Machine이 Sora와 동일한 물리, 움직임 및 공간을 얼마나 잘 복사할 수 있는지 보여줍니다. OpenAI의 데모가 선별적으로 선택되더라도 세부 사항을 비교하고 두 모델의 성능을 확인할 수 있습니다.


아래에는 몇 가지 비디오 비교를 모아봤습니다. 각 세트에는 세 가지 예가 있습니다. 첫 번째 비디오는 Sora 웹사이트의 OpenAI 데모에서 가져온 것입니다. 두 번째는 동일한 프롬프트와 Sora 데모의 첫 번째 프레임을 가이드로 사용하여 Dream Machine의 이미지-비디오 기능으로 만들어졌습니다. 세 번째는 Luma의 도구가 프롬프트에서만 작동하는 방식을 보여줍니다. Sora와 Dream Machine은 모두 텍스트-비디오를 사용하기 때문에 흥미롭습니다. 따라서 창의성과 메시지를 얼마나 잘 따르는지 비교할 수 있습니다.


따라서 더 이상 고민하지 말고 예제를 확인하고 어떤 도구가 가장 좋은지 살펴보겠습니다.

도쿄 워크


OpenAI의 데모를 Luma Dream Machine과 비교해 보겠습니다. 첫 번째 비교에서는 드림머신의 카메라 움직임이 인상적이며, 주인공의 행동도 부드럽고 자연스럽습니다. 그러나 클립 전반에 걸쳐 부자연스러운 인공물과 개체 및 사람의 일관성 없는 모습에 대한 문제가 있습니다. OpenAI의 영상과 달리 배경 군중은 영상이 진행됨에 따라 녹아서 모양이 바뀌는 것처럼 보입니다.


주인공의 얼굴도 부자연스럽게 변해 영상이 확실히 가짜처럼 보이는데, 소라에게는 이런 문제가 없습니다.


텍스트-비디오의 예에서 드림머신의 비디오는 나쁘지 않지만, 사물의 부자연스러운 변형이 눈에 띕니다. 예를 들어, 보행자의 손에 갑자기 우산이 나타나는 것은 AI 세대를 명확하게 나타냅니다. 이는 로열티 프리 스톡 클립에 대한 경쟁이 되지 않습니다. 아마도 소라의 세대가 그럴 수도 있을 것이다.


하지만 드림머신은 프롬프트를 잘 준수한다. 검은 재킷, 빨간 드레스, 립스틱, 선글라스, 반사되는 거리, 보행자, 네온 불빛이 모두 존재한다. 그럼 세부 사항을 잘 따라오셨나요?

골드 러쉬


Luma의 이미지-비디오 결과를 OpenAI의 결과와 비교해 보면 나쁘지 않습니다. 하지만 카메라의 움직임은 도쿄 영상만큼 부드럽지 않고 갑자기 멈춰 장면을 거칠게 만든다. 가장 나쁜 부분은 클립 끝 부분의 캐릭터 움직임이 부자연스럽고 무작위로 나타나는 것입니다. 또한 왼쪽 건물은 각 프레임마다 사실성이 저하되는데, 이는 Sora의 예에서는 볼 수 없는 문제입니다.


이전 클립과 유사하게, 아티팩트가 너무 많아 안정성과 일관성이 부족합니다. Sora는 또한 낮은 프레임 속도와 전반적인 구식 품질로 클립을 빈티지하게 보이게 만드는 데 탁월하며 Dream Machine이 여기서 달성하지 못한 프롬프트에 따라 출력을 스타일화할 수 있음을 시사합니다.


짧고 개방적인 프롬프트가 포함된 텍스트-비디오 예제에서 Luma의 모델은 골드러시 역사와는 다른 장면을 선택했습니다. 적절한 색상과 조명을 사용하여 시대에 맞게 스타일이 더욱 돋보이는 것 같습니다. 그러나 모핑 효과와 부자연스러운 움직임으로 인해 전체 클립이 손상되어 비디오 프로젝트에서 사용할 수 없게 됩니다.

먼지 속의 SUV


이 비디오는 OpenAI 웹사이트에서 제가 가장 좋아하는 비디오입니다. 자동차는 탁월한 조명, 그림자 및 역동성을 통해 매우 자연스럽게 움직입니다. 실제 영상과 구별이 불가능해 콘텐츠 제작자에게 딱 맞는 영상입니다. 이에 비해 드림머신의 카메라 움직임은 정확하지만, 물체가 부자연스럽게 찌그러지고 뭉개지는 현상이 발생합니다. 클립의 두 번째 부분에서는 시점이 심하게 왜곡되어 분명히 AI 세대처럼 보입니다.


텍스트-비디오 예제의 경우 결과는 실제로 매우 훌륭했습니다. Luma 제품에서 얻은 최고 중 하나입니다. 첫 번째 것보다 덜 역동적이지만 꽤 자연스러워 보입니다. 그러나 다른 문제로 어려움을 겪고 있습니다. 프롬프트는 광범위하여 SUV가 타이어에서 먼지가 나오는 뒤에서 보여야 한다고 지정했습니다. 드림머신은 그것을 다르게 해석했습니다.


이는 AI 콘텐츠 생성기의 주요 측면을 강조합니다. 정확한 즉각적인 해석이 없으면 우리의 비전이나 요구 사항에 맞지 않는 변형을 생성하는 데 시간을 낭비할 수 있습니다.

박물관


박물관의 예는 다른 종류의 짐승입니다. 글쎄, 실제로 짐승은 아닙니다. 더 미묘하고 차분하며 덜 역동적입니다. 꾸준한 카메라를 들고 간단한 산책을 해보세요. OpenAI 버전이 정확합니다. 흥미롭지는 않지만 현실감이 부족하지도 않습니다. Luma의 버전은 다른 카메라 움직임을 제공하지만 다른 클립에서 볼 수 있는 왜곡 없이 보기에도 좋습니다. 가장 큰 문제는 원본 이미지의 일부가 아닌 사진이 흐릿하게 보이고 선명도가 부족하다는 것입니다. 전반적으로 비디오는 괜찮으며 몇 가지 조정만 하면 적절한 결과를 얻을 수 있습니다.


두 번째 영상에도 눈에 띄는 시각적 결함은 없습니다. 갤러리 괜찮아 보이네요. 가장 큰 문제는 첫 번째 부분에서 카메라 움직임을 선택하는 것인데, 이는 그다지 현실적이지 않습니다. 흥미롭게도 Dream Machine은 하나의 프롬프트에 대해 두 개의 장면을 생성했는데, 중간에 박물관의 다른 방을 보여주는 컷이 있었습니다. 모델이 이런 일을 하기로 결정했다는 것은 정말 놀라운 일입니다. 두 번째 부분은 카메라 움직임이 좋아져 눈이 더 즐겁습니다.

뒤로 조거


이 예는 Sora의 페이지에서 모델의 문제 중 하나로 표시되기 때문에 흥미롭습니다. 조깅하는 사람이 잘못된 방향으로 달리고 있습니다. 어떤 런닝머신도 그렇게 작동하지 않지만 AI 세계에서는 무엇이든 가능합니다. 이것이 드림머신이 빛날 기회인가? 이미지-비디오 결과는 실제로 꽤 좋습니다.


조깅하는 사람은 입력 이미지처럼 여전히 뒤로 달리지만 카메라의 움직임과 조깅하는 사람의 동작은 거의 완벽합니다. 약간의 왜곡이 있고 시간이 지남에 따라 카메라 관점이 약간 이상해 지지만 약간의 체리 피킹을 통해 제작에 적합한 결과를 얻을 수 있습니다.


프롬프트만으로 생성된 버전도 흥미롭습니다. 매우 역동적이고 약간 왜곡되어 있지만 특히 흔들리고 스케치 같은 미학을 원하는 경우 특정 제작에 적합할 수 있습니다. 나쁘지 않아. 마지막으로 Luma의 모델은 미래의 경쟁자에 가까워지고 있습니다.

이탈리아 강아지


OpenAI 사이트의 마지막 주요 예는 다채로운 이탈리아 도시에 있는 달마시안을 보여줍니다. 소라로 만든 원본 영상은 완벽하지 않습니다. 긴 클립에서 개는 약간 이상하게 행동하기 시작하고 애니메이션은 다른 공개 비디오만큼 자연스럽지 않습니다. Luma의 최신 AI는 이를 어떻게 처리합니까?


전혀 좋지 않습니다. 어쩌면 테이크가 한 번뿐이었기 때문일 수도 있지만(그리고 생성기는 속도가 상당히 제한되어 있습니다), 우리가 보는 것은 결함과 비현실적인 이미지의 축제입니다. 영상이 진행될수록 개의 질감이 변하고, 건물들이 플레이도우로 만들어진 것처럼 보이고, 마지막에는 또 다른 개 같은 흉물이 등장해 실제 영상보다 살바도르 달리의 작품에 더 가까워 보인다. 이것은 확실히 지금까지 최악의 예입니다.


드림 머신의 자체 창작물은 더 좋지 않습니다. 달마시안을 전혀 포함하지 않아 프롬프트를 따르지 않았습니다. 개가 앉을 창문도 없고, 건물도 만화처럼 보이고, 전체적인 건축물도 무의미합니다. 가장 최악인 것은 심하게 왜곡된 자전거를 탄 자전거 타는 사람, 운하로 돌진하는 변형된 생명체, 아무 이유 없이 다른 자전거 타는 사람으로 변신하는 것입니다. 기대 이하로 떨어지네요.

평결?

현재 대중이 이용할 수 있는 Luma의 새로운 AI는 정말 인상적입니다. 경계를 넓혀 정말 멋진 카메라 모션을 생성하고 종종 사람과 사물의 매우 사실적인 움직임을 생성합니다. 참조 이미지를 제공하면 더 잘 작동하여 현재 경쟁 제품보다 더 나은 효과를 생성하는 것 같습니다.


하지만 소라만큼 좋은가요? 적어도 지금으로서는 그것과는 거리가 먼 것 같습니다. 소라의 창작물은 적어도 언뜻 보기에는 실제 영상으로 착각될 수 있습니다. 쇼케이스는 Sora가 스톡 비디오와 경쟁할 수 있고 영화 제작자와 콘텐츠 제작자의 삶을 더 쉽게 만들 수 있음을 시사합니다. 반면에 Dream Machine은 종종 결함을 일으키고 항상 프롬프트를 정확하게 따르지는 않습니다.


이는 모델 개선의 또 다른 단계이지만 여전히 광범위하게 사용할 수 있을 만큼 신뢰할 수 있고 안정적이지는 않습니다.


소라의 진정한 라이벌인가? 아직 아님. 그러나 우리는 Sora와 직접 상호 작용하지 않았으며 OpenAI의 쇼케이스는 신중하게 큐레이팅될 수 있습니다. Sora는 잠재적으로 Luma의 모델과 유사한 실수를 할 수 있습니다. Sora가 공개되기 전까지는 확신할 수 없습니다.


개인적으로 드림머신이 있어서 다행이에요. 완벽한 AI 비디오 생성기에 더 가까워졌습니다. 어떤 경우에는 유용하며 시간이 지나면서 개선될 가능성이 높습니다. 비디오 클립용 생성 AI를 즐길 수 있는 또 다른 방법을 제공하는 이 도구를 출시한 Luma에 감사드립니다.


반면 소라가 쇼케이스에서 보여준 대로 잘됐으면 좋겠다. 만약 그렇다면, 그것은 상당한 도약이 될 것입니다. 결과를 직접 비교할 수 있도록 공개적으로 공개되기를 간절히 기다리고 있습니다.