像 DALLE 或稳定扩散这样的文本到图像模型真的很酷,它允许我们通过简单的文本输入来生成精彩的图片。但是给他们一张你的照片,让他们把它变成一幅画,会不会更酷?想象一下,能够发送任何物体、人甚至你的猫的图片,并要求模型将其转换为另一种风格,比如将自己变成你喜欢的艺术风格的机器人或将其添加到新场景中。
基本上,如果有一个 DALLE 版本我们可以用来对我们的照片进行 Photoshop 处理而不是随机生成,那该有多酷?拥有一个个性化的 DALLE,同时让生成控制变得更加简单,因为“一张图片值一千个单词”。这就像拥有一个与 TikTok 算法一样个性化和令人上瘾的 DALLE 模型。
嗯,这就是特拉维夫大学和 NVIDIA 的研究人员所做的工作。他们开发了一种方法来调节文本到图像的模型,就像我上周介绍的稳定扩散一样,使用一些图像通过您将随图像发送的单词来表示任何对象或概念。将输入图像的对象转换为您想要的任何对象!在视频中了解更多...
►阅读全文: https ://www.louisbouchard.ai/imageworthoneword/
►论文:Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. 和 Cohen-Or, D.,2022 年。一个图像值得一个词:
使用文本反转个性化文本到图像的生成。 https://arxiv.org/pdf/2208.01618v1.pdf
►代码: https ://textual-inversion.github.io/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:00
文本到图像的模型,如 dali 或 stable
0:02
扩散真的很酷,让我们
0:04
生成梦幻般的图片
0:07
简单的文本输入,但它会是偶数吗
0:09
给他们一张你的照片
0:11
请它把它变成一幅画
0:13
想象一下能够发送任何图片
0:15
对象的人,甚至你的猫,
0:18
要求模型将其转换为
0:20
另一种风格,比如把自己变成
0:22
一个半机械人变成你喜欢的艺术
0:24
样式甚至将其添加到新场景中
0:27
基本上拥有一个该有多酷
0:30
dali 的版本,我们可以用来 Photoshop
0:32
我们的照片而不是随机的
0:35
世代
0:36
在制作时拥有个性化的小车
0:39
控制起来要简单得多
0:41
几代人作为一个形象值得
0:44
千言万语就像拥有一个
0:46
dali模型同样个性化
0:49
和 tic tac 算法一样令人上瘾
0:52
好吧,这就是来自 tel 的研究人员
0:54
阿维夫大学和英伟达致力于
0:57
他们开发了一种方法
0:58
调节文本到图像的模型,例如
1:01
我上周报道的稳定扩散
1:03
用几张图片来代表任何
1:05
对象或概念通过你的话
1:08
将发送您的图像转换
1:11
您输入图像的对象
1:13
不管你想要什么当然结果
1:15
仍然需要工作,但这只是
1:17
第一篇处理如此惊人的论文
1:19
可以彻底改变设计的任务
1:22
行业作为出色的 youtuber
1:24
同事会说再想象两个
1:26
文件下线所以我们怎么能拿
1:29
一些物体的照片和
1:31
在文本之后生成新图像
1:33
条件输入以添加样式或
1:35
转换细节来回答这个问题
1:38
复杂的问题让我们看看
1:40
reynold gal 和他的团队想出了什么
1:42
输入图像被编码成
1:44
他们称之为荒谬的词,你可以
1:47
然后在您的文本生成中使用
1:50
因此图像的纸张名称值得
1:52
一个词,但他们如何得到这种
1:55
单词,它是什么
1:57
他们从三到五张图片开始
2:00
他们还使用一个特定的对象
2:02
在此预训练文本到图像模型
2:04
如果他们使用潜扩散模型
2:07
我一周前还没有报道过
2:09
接受任何类型的输入,如图像或
2:12
文本并生成新图像
2:15
他们你可以看到它作为一个冷却器和开放
2:18
如果你还没有看过我的,来源熟食店
2:20
视频但你应该暂停这个
2:23
了解这个模型并回来
2:25
在这里你会喜欢这个视频并学习
2:27
关于最热门的架构
2:29
时刻让你有你的输入图像和
2:32
生成图像的基本模型
2:34
条件和输入,如文本或
2:37
其他图像,但你做什么用
2:39
一个物体的三到五个图像
2:42
以及如何控制模型的
2:43
结果如此精确,以至于您的对象
2:46
出现在几代人中 这就是全部
2:48
在您的培训过程中完成
2:51
第二个模型文本编码器使用您的
2:54
预训练和固定的图像生成器
2:56
在这种情况下模拟潜扩散
2:59
已经可以拍照和
3:00
重建你想教你的
3:02
文本编码器模式以匹配荒谬
3:05
字到您的编码图像或其他
3:08
你的陈述取自的话
3:11
你的五张图片,这样你就可以喂饱你的
3:13
图像到您的图像生成器网络
3:16
并反向训练您的文本编码器
3:19
找出什么假词或某些
3:22
这个词最能代表你的所有
3:24
编码图像基本上找出如何
3:27
在
3:29
与生成图像的空间相同
3:32
我在上一个视频中描述的过程
3:34
发生
3:36
然后从中提取一个假词
3:38
用这种方式指导后代
3:41
可以将您的概念注入任何未来
3:44
几代人,再加上几句话
3:46
进一步调节一代
3:49
使用相同的预训练文本到图像
3:51
模型,所以你将只是训练一个
3:54
小模型来了解您的
3:56
图像位于潜在空间中
3:58
将它们转换为假词以用于
4:00
他们的常规图像生成模型你
4:03
甚至不必触摸图像
4:05
一代模型,这是一个相当大的
4:07
考虑到它们有多贵,交易
4:09
训练,瞧,这就是你的方法
4:12
教一个相似的模型生成图像
4:14
您喜欢的对象的变体或
4:17
执行强大的风格转移
4:19
当然这只是一个概述
4:21
这种新方法解决了一个非常非常
4:24
有趣的任务,我邀请你
4:26
阅读下面链接的他们的论文
4:28
更深入地了解方法和
4:30
挑战 这是一项非常复杂的任务
4:33
还有很多限制
4:35
就像理解所需要的时间
4:37
这样一个假词中的概念是
4:39
大约两个小时还没有
4:42
能够完全理解
4:44
概念,但离那里很近
4:47
也有很多风险在有这样的
4:49
我们需要的产品可访问
4:51
考虑想象一下能够嵌入
4:54
特定人的概念和
4:56
产生任何涉及该人的东西
4:58
几秒钟后,这很可怕,而且
5:01
这种技术就在身边
5:03
角落
5:04
我很想听听你的想法
5:06
评论部分或讨论这个
5:09
不和谐服务器
5:10
感谢您观看视频,我
5:12
下周再见
5:14
惊人的纸
5:22
[音乐]