数据在我们的领域中至关重要,我们的模型非常需要数据。这些大型模型,无论是用于 GPT 的语言模型还是用于 Dalle 的图像模型,都需要相同的东西:太多的数据。
你拥有的数据越多,它就越好。因此,您需要扩展这些模型,尤其是对于实际应用程序。
更大的模型只有在数据质量高的情况下才能使用更大的数据集来改进。
输入不代表现实世界的图像将毫无用处,甚至会降低模型的泛化能力。这就是以数据为中心的人工智能发挥作用的地方......
在视频中了解更多信息:
►阅读全文: https ://www.louisbouchard.ai/data-centric-ai/
►以数据为中心的人工智能: https ://snorkel.ai/data-centric-ai
►弱监管: https ://snorkel.ai/weak-supervision/
►程序化标签: https ://snorkel.ai/programmatic-labeling/
► 以数据为中心的 AI 资源精选列表: https ://github.com/hazyresearch/data-centric-ai
►了解更多关于浮潜的信息: https ://snorkel.ai/company/
►从以模型为中心到以数据为中心的 AI - Andrew Ng: ://youtu.be/06-AZXmwHjo
►软件2.0: https ://hazyresearch.stanford.edu/blog/2020-02-28-software2
►论文 1:Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. 和 Ré, C.,
2016. 数据编程:快速创建大型训练集。预付款
在神经信息处理系统中,29。
►论文 2:Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. 和
Ré, C.,2017 年 11 月。 Snorkel:使用弱的快速训练数据创建
监督。在 VLDB 捐赠基金会议记录中。国际的
超大型数据库会议(第 11 卷,第 3 期,第 269 页)。美国国立卫生研究院公共
使用权。
►论文 3:Ré, C. (2018)。软件 2.0 和 Snorkel:超越手工标签
数据。第 24 届 ACM SIGKDD 国际会议论文集
知识发现和数据挖掘。
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
视频记录
0:00
是什么让 gpt3 和德里强大的是
0:03
完全相同的东西 data 是
0:06
在我们的领域中至关重要,我们的模型是
0:08
这些大型模型非常需要数据
0:11
gpt 或图像的语言模型
0:13
德里的模型都需要相同的
0:15
事物
0:16
不幸的是,数据太多了
0:19
你拥有的数据越好所以你
0:21
尤其需要扩大这些模型
0:24
对于现实世界的应用更大
0:26
模型可以使用更大的数据集
0:28
仅当数据高时才改进
0:30
质量喂养图像不
0:32
代表现实世界不会
0:34
使用甚至恶化模型的能力
0:37
概括地说,这是以数据为中心的地方
0:39
人工智能也开始发挥作用以数据为中心的人工智能
0:43
所谓的软件2.0只是一个
0:46
说我们优化我们的花哨的方式
0:48
最大化模型的数据
0:50
表演而不是以模型为中心
0:52
您将在其中调整模型的
0:54
当然是固定数据集上的参数
0:57
两者都需要做到最好
0:59
结果可能,但数据是迄今为止
1:02
在这个视频中更大的播放器
1:04
与 snorkel 合作,我将介绍
1:06
什么是以数据为中心的人工智能并回顾一些
1:09
您将在该领域取得重大进展
1:11
快速了解数据为何如此
1:13
在机器学习中很重要
1:15
snorkel 的任务引用自
1:17
他们在团队下方链接的博客文章将
1:19
经常花时间编写新模型
1:21
而不是理解他们的问题
1:23
及其在数据中更深入的表达
1:26
写一个新模型很漂亮
1:28
躲避混乱的避难所
1:30
了解真正的问题和这个
1:33
这就是这个视频的目的之一
1:36
以数据为中心的人工智能的目标是
1:38
将我们数据中的知识编码成
1:40
通过最大化数据的模型
1:42
质量和模型的性能就是一切
1:45
2016 年开始在斯坦福大学发表论文
1:48
称为数据编程创造大
1:51
训练集快速引入
1:54
标记训练数据集的范式
1:56
以编程方式而不是手动
1:58
就人工智能而言,这是很久以前的事了
2:01
你最了解的研究时代
2:04
日期使用的方法有监督
2:05
学习模型训练的过程
2:08
关于数据和标签,并学会
2:10
给定数据时重现标签
2:13
例如你会喂一个模型很多
2:15
鸭子和猫的图像
2:17
相应的标签并要求模型
2:20
找出图片中的内容然后使用
2:23
反向传播训练模型
2:25
基于如果你是它的成功程度
2:27
不熟悉反向传播我
2:29
邀请您暂停视频观看
2:31
我的一分钟解释并返回
2:33
你离开的地方,因为数据集是
2:35
它变得越来越大
2:37
越来越难以管理它们
2:39
并删除有害数据以允许
2:41
模型只关注您的相关数据
2:44
不想训练你的模型来检测
2:46
一只猫,当它是一只臭鼬时,它可能会结束
2:48
当我提到数据时,请记住
2:51
它可以是任何类型的数据表格
2:53
图像文本视频等现在你可以
2:57
轻松下载任何任务的模态
2:59
转向数据改进和
3:01
优化是必然的电机
3:03
可用性 近期数据的规模
3:05
集和数据相关的 CDS 模型
3:08
这就是为什么这样的范式
3:10
标记训练数据集
3:12
以编程方式变得必不可少
3:14
现在主要问题在于拥有
3:17
我们的数据标签很容易拥有
3:19
成千上万的猫和狗的图像,但
3:22
很难知道哪些图像
3:24
挖了一个,哪些图像有一只猫
3:26
甚至更难得到他们的确切信息
3:28
图像中用于分割的位置
3:31
例如任务
3:32
第一篇论文介绍了一个数据
3:34
用户所在的编程框架
3:36
机器学习工程师或数据科学家
3:38
将弱监督策略表示为
3:41
使用生成标记函数
3:43
标记数据子集的模型
3:46
并发现数据编程可能是
3:48
非专家创建的更简单方法
3:51
训练时的机器学习模型
3:53
简而言之,数据有限或不可用
3:56
他们展示了如何在没有
3:58
很多额外的工作,同时保持
4:00
建模相同的改进结果是
4:03
一个现在明显但必不可少的步骤
4:05
石头,真的很有趣
4:07
该领域的基础论文和价值
4:09
读
4:10
我们在这里介绍的第二篇论文称为
4:12
浮潜快速训练数据创建
4:15
本文在监督薄弱的情况下
4:17
一年后也从
4:19
斯坦福大学提供灵活的
4:22
接口层写标签
4:24
基于经验的功能 继续
4:27
关于训练数据的想法
4:28
越来越大,越来越难
4:30
标签导致模型中的瓶颈
4:33
他们介绍浮潜的表演
4:36
实现前一个的系统
4:37
端到端系统中的纸张系统
4:40
允许知识专家的人
4:42
最容易理解数据
4:44
定义标签函数
4:46
自动标记数据而不是
4:48
做手工注释建立模型
4:51
快 2.8 倍,同时也
4:54
提高预测性能
4:56
平均为 45.5% 所以再次
5:00
书写标签用户或知识
5:03
专家编写标签功能这些
5:05
函数只是提供洞察力
5:07
要寻找的模式模型或
5:10
专家用来分类的任何东西
5:12
帮助模型遵循的数据
5:14
相同的过程,然后系统应用
5:17
新写的标签函数
5:19
我们未标记的数据并学习
5:21
生成模型来组合输出
5:24
标签变成概率标签
5:26
然后用于训练我们的最终深度
5:29
神经网络 snorkel 通过
5:32
本身促进了整个过程
5:35
首次
5:36
我们的最后一篇论文也来自斯坦福
5:39
又一年后推出软件
5:42
2.0 这一页纸又是一次
5:45
同深推进
5:47
学习以数据为中心的方法
5:49
标记函数以产生训练
5:51
大型未标记数据集的标签和
5:54
训练我们的最终模型
5:56
对于巨大的互联网特别有用
5:59
抓取的数据集,如
6:01
谷歌应用程序,例如谷歌广告
6:03
gmail youtube等解决缺乏
6:06
手工标记的数据当然这只是
6:09
进展概述和
6:10
以数据为中心的方向 ai 和 i
6:13
强烈邀请您阅读
6:14
在下面的描述信息
6:16
全面了解以数据为中心的人工智能
6:19
它来自哪里,在哪里
6:21
标题我还要感谢 snorkel
6:24
赞助这个视频,我邀请你
6:26
查看他们的网站了解更多信息
6:28
如果您还没有听说过的信息
6:30
在你还没有使用之前浮潜
6:32
他们在许多产品中的方法,例如
6:35
youtube 谷歌广告 gmail 和其他大
6:37
应用
6:39
感谢您观看视频,直到
6:41
结束
[音乐]