paint-brush
Сора OpenAI уже в беде?к@lukaszwronski
1,886 чтения
1,886 чтения

Сора OpenAI уже в беде?

к Lukasz Wronski7m2024/06/17
Read on Terminal Reader

Слишком долго; Читать

Luma Dream Machine — последняя сенсация в мире генеративного искусственного интеллекта. Это лучший инструмент для создания видео из изображений, превосходящий конкурентов, таких как Pika и Runway ML. Но как он соотносится с загадочной Сорой? Поскольку мы не можем использовать Sora, мы сравним общедоступные демо-версии OpenAI с возможностями машины Luma Dream.
featured image - Сора OpenAI уже в беде?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

Слышали ли вы о последней сенсации в мире генеративного искусственного интеллекта — машине мечты Luma? Его называют крупнейшим конкурентом Sora от OpenAI. Но так ли это хорошо?


Сравнивать их сложно, потому что Dream Machine доступна каждому, а Сора — нет. Но давайте посмотрим, что нам удастся узнать. Трудно отрицать, что сейчас Dream Machine лидирует, потому что мы действительно можем ее использовать. Это лучший инструмент для создания видео из изображений, превосходящий конкурентов, таких как Pika и Runway ML. Но как он соотносится с загадочной Сорой?

Поскольку мы не можем использовать Sora, мы сравним общедоступные демо-версии OpenAI с возможностями Luma Dream Machine. Вот план: мы возьмем первый кадр из демонстрационных видеороликов OpenAI и используем ту же подсказку с Dream Machine от Luma. Это покажет нам, насколько хорошо Dream Machine может копировать ту же физику, движение и пространство, что и Сора. Даже если демо-версии OpenAI будут тщательно отобраны, мы все равно сможем сравнить детали и посмотреть, как работают обе модели.


Ниже я собрал несколько видео-сравнений. В каждом наборе по три примера. Первое видео взято из демо-версии OpenAI на сайте Sora. Второй создан с помощью функции преобразования изображения в видео Dream Machine с использованием той же подсказки и первого кадра демонстрации Соры в качестве руководства. Третий показывает, как работает инструмент Luma, используя только подсказку. Это интересно, потому что и Сора, и Dream Machine используют преобразование текста в видео, поэтому мы можем сравнить их креативность и то, насколько хорошо они следуют подсказкам.


Итак, без лишних слов, давайте рассмотрим примеры и посмотрим, какой инструмент окажется лучшим.

Токийская прогулка


Давайте сравним демо-версию OpenAI с Luma Dream Machine. При первом сравнении Dream Machine демонстрирует впечатляющие движения камеры, а действия главного героя плавные и естественные. Однако на протяжении всего клипа возникают проблемы с неестественными артефактами и непоследовательным внешним видом объектов и людей. В отличие от видео OpenAI, толпа на заднем плане тает и меняет форму по мере продвижения видео.


Лицо главного героя также меняется неестественно, из-за чего видео выглядит явно фальшивым - проблемы, которой нет у Соры.


В примере с преобразованием текста в видео видео Dream Machine неплохое, но заметна неестественная трансформация объектов. Например, зонтик появляется в руке пешехода из ниоткуда, что ясно указывает на создание ИИ. Это делает его вне конкуренции среди стоковых клипов, не требующих лицензионных отчислений. То, чем, вероятно, могут быть поколения Соры.


Тем не менее, Dream Machine хорошо придерживается подсказки: присутствует черный пиджак, красное платье, помада, солнцезащитные очки, светоотражающая улица, пешеходы и неоновые огни. Итак, молодцы, что следите за деталями!

Золотая лихорадка


Если сравнивать результат преобразования изображения в видео Luma с результатами OpenAI, это не так уж и плохо. Однако движение камеры не такое плавное, как в видео из Токио, оно резко останавливается и делает сцену резкой. Хуже всего — движения персонажа в конце клипа, которые кажутся неестественными и случайными. Кроме того, реалистичность зданий слева ухудшается с каждым кадром, чего не было в примере Соры.


Как и в предыдущем клипе, здесь отсутствует стабильность и последовательность, слишком много артефактов. Сора также преуспевает в том, чтобы придать клипу винтажный вид с низкой частотой кадров и общим качеством старой школы, предполагая, что он может стилизовать свой результат в соответствии с подсказкой, чего Dream Machine здесь не удалось.


В примере с преобразованием текста в видео с короткой и открытой подсказкой модель Лумы выбрала другую сцену из истории золотой лихорадки. Кажется, что это больше соответствует эпохе, если использовать правильные цвета и освещение. Однако эффект морфинга и неестественное движение портят весь клип, делая его непригодным для использования в видеопроектах.

Внедорожник в пыли


Это видео — мое любимое на сайте OpenAI. Автомобиль движется очень естественно, с отличным освещением, тенями и динамикой. Его неотличимо от настоящего видео, что делает его идеальным для создателей контента. Напротив, движение камеры Dream Machine правильное, но объекты сдавливаются и искажаются неестественно. Во второй части клипа перспектива сильно искажается, явно напоминая поколение ИИ.


Для примера преобразования текста в видео результат на самом деле довольно хороший — один из лучших, которые мне удалось получить от продукта Luma. Он менее динамичен, чем первый, но выглядит довольно естественно. Однако он страдает от другой проблемы. Подсказка была обширной, в ней указывалось, что внедорожник должен быть виден сзади, а из шин поднимается пыль. Dream Machine интерпретировала это по-другому.


Это подчеркивает ключевой аспект генераторов контента с помощью ИИ: без точной оперативной интерпретации мы можем тратить часы на создание вариантов, которые не соответствуют нашему видению или потребностям.

Музей


Пример музея — это зверь другого рода. Ну, не совсем зверь — он более тонкий, спокойный и менее динамичный. Просто простая прогулка с неподвижной камерой. Версия OpenAI точна. Это не интересно, но и не лишено реализма. Версия Luma демонстрирует другое движение камеры, но тоже выглядит хорошо, без искажений, наблюдаемых в других клипах. Основная проблема заключается в том, что изображения, не являющиеся частью исходного изображения, выглядят размытыми и не имеют четкости. В целом видео хорошее, и с помощью нескольких настроек мы смогли получить правильный результат.


Во втором видео явных визуальных недостатков тоже нет. Галерея выглядит нормально. Моя самая большая проблема — это выбор движения камеры в первой части, который не очень реалистичен. Интересно, что Dream Machine создала две сцены для одной подсказки, с вырезом посередине, показывающим другую комнату в музее. Удивительно, что модель решила это сделать. Во второй части движение камеры лучше, что делает ее более приятной для глаз.

Бегун назад


Этот пример интересен тем, что на странице Соры он показан как одна из проблем модели: бегун бежит не в ту сторону. Ни одна беговая дорожка так не работает, но в мире искусственного интеллекта возможно все. Это шанс «Машины мечты» проявить себя? Результат преобразования изображения в видео на самом деле довольно хороший.


Бегун по-прежнему бежит назад, как на входном изображении, но движение камеры и поведение бегуна почти идеальны. Есть некоторые незначительные искажения, и перспектива камеры со временем становится немного странной, но, приложив немного усилий, мы могли бы получить достойный результат для наших работ.


Версия, созданная с помощью одной подсказки, также интересна. Он очень динамичен и немного искажен, но это может подойти некоторым постановкам, особенно если желательна шаткая, эскизная эстетика. Совсем неплохо. Наконец, модель Luma становится ближе к своему будущему конкуренту.

Итальянский щенок


В последнем основном примере на сайте OpenAI изображен далматинец в красочном итальянском городе. Оригинальное видео, снятое с участием Соры, не идеально. В более длинном ролике собака начинает вести себя немного странно, а ее анимация не такая естественная, как в других представленных видеороликах. Как с этим справляется новейший ИИ Luma?


Совсем нехорошо. Возможно, это потому, что у них был только один дубль (и генератор довольно ограничен по скорости), но то, что мы видим, — это фестиваль глюков и нереалистичных образов. Текстура собаки меняется по ходу видео, здания выглядят так, будто они сделаны из пластилина, а в конце появляется еще одна собачья мерзость, что делает ее больше похожей на работу Сальвадора Дали, чем на настоящее видео. Это определенно худший пример на данный момент.


Собственное творение Dream Machine ничуть не лучше. Он не выполнил подсказку и вообще не включил далматинца. Здесь нет окна, в котором могла бы сидеть собака, здания выглядят мультяшными, а общая архитектура бессмысленна. Хуже всего велосипедисты на сильно деформированных велосипедах, деформированные существа, въезжающие в канал или без всякой причины превращающиеся в других велосипедистов. Это намного ниже ожиданий.

Вердикт?

Учитывая то, что сейчас доступно публике, новый ИИ Лумы действительно впечатляет. Он раздвигает границы, создавая действительно красивое движение камеры и зачастую очень реалистичные движения людей и объектов. Кажется, он работает лучше, когда ему предоставляется эталонное изображение, создавая эффекты лучше, чем его нынешние конкуренты.


Но так ли он хорош, как Сора? Кажется, это далеко не так, по крайней мере, на данный момент. Творения Соры можно принять за настоящие видеоролики, по крайней мере, на первый взгляд. Витрина предполагает, что Sora может составить конкуренцию стоковым видео и облегчить жизнь кинематографистам и создателям контента. Dream Machine, с другой стороны, часто дает сбои и не всегда точно следует подсказкам.


Это еще один шаг вперед в улучшении модели, но он все еще недостаточно надежен и стабилен для широкого использования.


Это настоящий соперник Соры? Еще нет. Однако мы не взаимодействовали напрямую с Sora, и презентацию OpenAI можно тщательно курировать. Сора потенциально может допустить те же ошибки, что и модель Лумы. Пока Сора не станет общедоступной, мы не можем быть в этом уверены.


Лично я рад, что у нас есть Dream Machine. Это приближает нас к идеальному генератору видео с искусственным интеллектом. В некоторых случаях это полезно и, вероятно, со временем улучшится. Я ценю, что Luma выпустила этот инструмент, который дает нам еще один способ насладиться генеративным искусственным интеллектом для видеоклипов.


С другой стороны, я надеюсь, что Сора работает так, как показано в витрине. Если это произойдет, это будет существенным шагом вперед. Я с нетерпением жду, когда он станет общедоступным, чтобы я мог сам сравнить результаты.