paint-brush
NVIDIA 和特拉维夫大学的文本到图像模型调节方法经过@whatsai
735 讀數
735 讀數

NVIDIA 和特拉维夫大学的文本到图像模型调节方法

经过 Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

像 DALLE 或稳定扩散这样的文本到图像模型真的很酷,它允许我们通过简单的文本输入来生成精彩的图片。但是给他们一张你的照片,让他们把它变成一幅画,会不会更酷?想象一下,能够发送任何物体、人甚至你的猫的图片,并要求模型将其转换为另一种风格,比如将自己变成你喜欢的艺术风格的机器人或将其添加到新场景中。

Company Mentioned

Mention Thumbnail
featured image - NVIDIA 和特拉维夫大学的文本到图像模型调节方法
Louis Bouchard HackerNoon profile picture

像 DALLE 或稳定扩散这样的文本到图像模型真的很酷,它允许我们通过简单的文本输入来生成精彩的图片。但是给他们一张你的照片,让他们把它变成一幅画,会不会更酷?想象一下,能够发送任何物体、人甚至你的猫的图片,并要求模型将其转换为另一种风格,比如将自己变成你喜欢的艺术风格的机器人或将其添加到新场景中。

基本上,如果有一个 DALLE 版本我们可以用来对我们的照片进行 Photoshop 处理而不是随机生成,那该有多酷?拥有一个个性化的 DALLE,同时让生成控制变得更加简单,因为“一张图片值一千个单词”。这就像拥有一个与 TikTok 算法一样个性化和令人上瘾的 DALLE 模型。

嗯,这就是特拉维夫大学和 NVIDIA 的研究人员所做的工作。他们开发了一种方法来调节文本到图像的模型,就像我上周介绍的稳定扩散一样,使用一些图像通过您将随图像发送的单词来表示任何对象或概念。将输入图像的对象转换为您想要的任何对象!在视频中了解更多...

参考

►阅读全文: https ://www.louisbouchard.ai/imageworthoneword/
►论文:Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. 和 Cohen-Or, D.,2022 年。一个图像值得一个词:
使用文本反转个性化文本到图像的生成。 https://arxiv.org/pdf/2208.01618v1.pdf
►代码: https ://textual-inversion.github.io/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频记录

0:00

文本到图像的模型,如 dali 或 stable

0:02

扩散真的很酷,让我们

0:04

生成梦幻般的图片

0:07

简单的文本输入,但它会是偶数吗

0:09

给他们一张你的照片

0:11

请它把它变成一幅画

0:13

想象一下能够发送任何图片

0:15

对象的人,甚至你的猫,

0:18

要求模型将其转换为

0:20

另一种风格,比如把自己变成

0:22

一个半机械人变成你喜欢的艺术

0:24

样式甚至将其添加到新场景中

0:27

基本上拥有一个该有多酷

0:30

dali 的版本,我们可以用来 Photoshop

0:32

我们的照片而不是随机的

0:35

世代

0:36

在制作时拥有个性化的小车

0:39

控制起来要简单得多

0:41

几代人作为一个形象值得

0:44

千言万语就像拥有一个

0:46

dali模型同样个性化

0:49

和 tic tac 算法一样令人上瘾

0:52

好吧,这就是来自 tel 的研究人员

0:54

阿维夫大学和英伟达致力于

0:57

他们开发了一种方法

0:58

调节文本到图像的模型,例如

1:01

我上周报道的稳定扩散

1:03

用几张图片来代表任何

1:05

对象或概念通过你的话

1:08

将发送您的图像转换

1:11

您输入图像的对象

1:13

不管你想要什么当然结果

1:15

仍然需要工作,但这只是

1:17

第一篇处理如此惊人的论文

1:19

可以彻底改变设计的任务

1:22

行业作为出色的 youtuber

1:24

同事会说再想象两个

1:26

文件下线所以我们怎么能拿

1:29

一些物体的照片和

1:31

在文本之后生成新图像

1:33

条件输入以添加样式或

1:35

转换细节来回答这个问题

1:38

复杂的问题让我们看看

1:40

reynold gal 和他的团队想出了什么

1:42

输入图像被编码成

1:44

他们称之为荒谬的词,你可以

1:47

然后在您的文本生成中使用

1:50

因此图像的纸张名称值得

1:52

一个词,但他们如何得到这种

1:55

单词,它是什么

1:57

他们从三到五张图片开始

2:00

他们还使用一个特定的对象

2:02

在此预训练文本到图像模型

2:04

如果他们使用潜扩散模型

2:07

我一周前还没有报道过

2:09

接受任何类型的输入,如图像或

2:12

文本并生成新图像

2:15

他们你可以看到它作为一个冷却器和开放

2:18

如果你还没有看过我的,来源熟食店

2:20

视频但你应该暂停这个

2:23

了解这个模型并回来

2:25

在这里你会喜欢这个视频并学习

2:27

关于最热门的架构

2:29

时刻让你有你的输入图像和

2:32

生成图像的基本模型

2:34

条件和输入,如文本或

2:37

其他图像,但你做什么用

2:39

一个物体的三到五个图像

2:42

以及如何控制模型的

2:43

结果如此精确,以至于您的对象

2:46

出现在几代人中 这就是全部

2:48

在您的培训过程中完成

2:51

第二个模型文本编码器使用您的

2:54

预训练和固定的图像生成器

2:56

在这种情况下模拟潜扩散

2:59

已经可以拍照和

3:00

重建你想教你的

3:02

文本编码器模式以匹配荒谬

3:05

字到您的编码图像或其他

3:08

你的陈述取自的话

3:11

你的五张图片,这样你就可以喂饱你的

3:13

图像到您的图像生成器网络

3:16

并反向训练您的文本编码器

3:19

找出什么假词或某些

3:22

这个词最能代表你的所有

3:24

编码图像基本上找出如何

3:27

3:29

与生成图像的空间相同

3:32

我在上一个视频中描述的过程

3:34

发生

3:36

然后从中提取一个假词

3:38

用这种方式指导后代

3:41

可以将您的概念注入任何未来

3:44

几代人,再加上几句话

3:46

进一步调节一代

3:49

使用相同的预训练文本到图像

3:51

模型,所以你将只是训练一个

3:54

小模型来了解您的

3:56

图像位于潜在空间中

3:58

将它们转换为假词以用于

4:00

他们的常规图像生成模型你

4:03

甚至不必触摸图像

4:05

一代模型,这是一个相当大的

4:07

考虑到它们有多贵,交易

4:09

训练,瞧,这就是你的方法

4:12

教一个相似的模型生成图像

4:14

您喜欢的对象的变体或

4:17

执行强大的风格转移

4:19

当然这只是一个概述

4:21

这种新方法解决了一个非常非常

4:24

有趣的任务,我邀请你

4:26

阅读下面链接的他们的论文

4:28

更深入地了解方法和

4:30

挑战 这是一项非常复杂的任务

4:33

还有很多限制

4:35

就像理解所需要的时间

4:37

这样一个假词中的概念是

4:39

大约两个小时还没有

4:42

能够完全理解

4:44

概念,但离那里很近

4:47

也有很多风险在有这样的

4:49

我们需要的产品可访问

4:51

考虑想象一下能够嵌入

4:54

特定人的概念和

4:56

产生任何涉及该人的东西

4:58

几秒钟后,这很可怕,而且

5:01

这种技术就在身边

5:03

角落

5:04

我很想听听你的想法

5:06

评论部分或讨论这个

5:09

不和谐服务器

5:10

感谢您观看视频,我

5:12

下周再见

5:14

惊人的纸

5:22

[音乐]