GPT-3とDalleを強力にしているのは、まったく同じもの、つまりデータです。
私たちの分野ではデータが非常に重要であり、私たちのモデルは非常に大量のデータを必要とします。これらの大規模なモデル (GPT の言語モデルまたは Dalle の画像モデル) はすべて同じことを必要とします。データが多すぎます。
データが多ければ多いほど、より良いものになります。そのため、特に実際のアプリケーションでは、これらのモデルをスケールアップする必要があります。
より大きなモデルは、データが高品質である場合にのみ、より大きなデータセットを使用して改善できます。
現実世界を表していないフィード画像は役に立たず、モデルの一般化能力をさらに悪化させます。ここで、データ中心の AI の出番です...
ビデオで詳細をご覧ください:
►記事全文を読む: https://www.louisbouchard.ai/data-centric-ai/
►データ中心の AI: https://snorkel.ai/data-centric-ai
►弱い監督: https://snorkel.ai/weak-supervision/
►プログラマティック ラベリング: https://snorkel.ai/programmatic-labeling/
►データ中心の AI に関するリソースの精選されたリスト: https://github.com/hazyresearch/data-centric-ai
►シュノーケルの詳細: https ://snorkel.ai/company/
►モデル中心からデータ中心の AI へ - Andrew Ng:
►ソフトウェア 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►論文 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. and Ré, C.,
2016. データ プログラミング: 大規模なトレーニング セットの迅速な作成。進歩
神経情報処理システム、29。
►論文 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S.
レ、C.、2017年11月。 Snorkel: 弱いトレーニング データの迅速な作成
監督。 VLDB基金の議事録。国際的
Conference on Very Large Databases (Vol. 11、No. 3、p. 269)。 NIH パブリック
アクセス。
►論文 3: Ré, C. (2018).ソフトウェア 2.0 とシュノーケル: 手書きラベルを超えて
データ。第 24 回 ACM SIGKDD 国際会議の議事録
知識の発見とデータ マイニング。
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/
ビデオトランスクリプト
0:00
gpt3 とデリーを強力にしているのは
0:03
まったく同じもの data data は
0:06
私たちの分野では非常に重要であり、私たちのモデルは
0:08
非常に大量のデータを必要とするこれらの大規模モデル
0:11
gpt またはイメージの言語モデルのいずれか
0:13
デリーのモデルはすべて同じものを必要とします
0:15
もの
0:16
残念ながらデータが多すぎる
0:19
あなたが持っているデータはより良いものです。
0:21
特にこれらのモデルをスケールアップする必要があります
0:24
実世界のアプリケーション用に
0:26
モデルはより大きなデータセットを使用して
0:28
データが高い場合にのみ改善
0:30
ない高品質の給餌画像
0:32
現実の世界を表す
0:34
モデルの能力を使用し、さらに悪化させる
0:37
これを一般化すると、データ中心の場所です
0:39
AIの登場 データ中心のAIも
0:43
ソフトウェア 2.0 と呼ばれる
0:46
最適化するという派手な言い方
0:48
モデルの
0:50
モデル中心ではなくパフォーマンス
0:52
モデルの
0:54
もちろん、固定データセットのパラメーター
0:57
最高の結果を得るには、両方を行う必要があります
0:59
結果は可能ですが、データははるかに
1:02
このビデオの大きなプレーヤー
1:04
私がカバーするシュノーケルとのパートナーシップ
1:06
データ中心の AI とは何か、いくつか復習する
1:09
あなたがする分野での大きな進歩
1:11
なぜデータがそうであるかをすぐに理解する
1:13
機械学習で重要なのは
1:15
から引用するシュノーケルの使命
1:17
チームの下にリンクされているブログ投稿は、
1:19
多くの場合、新しいモデルの作成に時間を費やします
1:21
彼らの問題を理解する代わりに
1:23
とそのデータ表現をより深く
1:26
新しいモデルを書くのは美しい
1:28
混乱から身を隠すための避難所
1:30
本当の問題とこれを理解する
1:33
このビデオが目指しているのは、
1:36
データ中心の AI の目標は
1:38
データからの知識をエンコードする
1:40
データの最大化によるモデル
1:42
品質とモデルのパフォーマンスがすべて
1:45
2016 年にスタンフォード大学で論文を書き始めました
1:48
データプログラミングと呼ばれる大規模な作成
1:51
トレーニング セットをすばやく導入する
1:54
トレーニング データ セットのラベル付けのパラダイム
1:56
手動ではなくプログラムで
1:58
これは、AI に関してははるか昔のことでした。
2:01
あなたが最もよく知っているように年齢を研究してください
2:04
現在までのアプローチ
2:05
モデルがトレーニングするプロセスを学習する
2:08
データとラベルについて学び、
2:10
データが与えられたときにラベルを再現する
2:13
たとえば、モデルに多くのフィードを与えます
2:15
アヒルと猫の画像
2:17
それぞれのラベルを付けて、モデルに
2:20
写真に写っているものを見つけて使用する
2:23
モデルをトレーニングする逆伝播
2:25
あなたがいる場合、それがどれだけうまくいくかに基づいて
2:27
バックプロパゲーションに慣れていない私
2:29
ビデオを一時停止して見るように誘う
2:31
私の1分間の説明とリターン
2:33
データセットとして中断した場所
2:35
どんどん大きくなって
2:37
それらをキュレートすることはますます困難になっています
2:39
有害なデータを削除して、
2:41
関連するデータのみに焦点を当てるモデル
2:44
検出するようにモデルをトレーニングしたくない
2:46
猫はスカンクで終わる可能性があります
2:48
データを参照するときの注意事項
2:51
あらゆる種類のデータ表形式にすることができます
2:53
画像・テキスト・動画などができるようになりました
2:57
あらゆるタスクのモーダルを簡単にダウンロード
2:59
データ改善へのシフトと
3:01
最適化は避けられないモーター
3:03
可用性 最近のデータの規模
3:05
セットとデータ依存 cd モデル
3:08
なぜそのようなパラダイムがあるのか
3:10
トレーニング データ セットのラベル付け
3:12
プログラム的に不可欠になる
3:14
今、主な問題は
3:17
簡単に取得できるデータのラベル
3:19
何千もの猫と犬の画像ですが、
3:22
どの画像か分かりにくい
3:24
掘り出し物があり、どの画像に猫がいますか
3:26
正確な値を取得するのはさらに困難です
3:28
セグメンテーションのための画像内の位置
3:31
たとえばタスク
3:32
最初の論文はデータを紹介します
3:34
ユーザーが
3:36
ML エンジニアまたはデータ サイエンティストのいずれか
3:38
弱い監督戦略を次のように表現します
3:41
ジェネレーティブを使用した関数のラベル付け
3:43
データのサブセットにラベルを付けるモデル
3:46
データプログラミングは
3:48
専門家でなくても簡単に作成できる方法
3:51
トレーニング時の機械学習モデル
3:53
データが制限されているか、要するに利用できない
3:56
なしでデータを改善する方法を示しています。
3:58
を維持しながら多くの追加作業
4:00
同じモデルを使用すると、結果が改善されます。
4:03
今では明らかだが本質的な足踏み
4:05
石は本当に面白いです
4:07
この分野の基礎論文と価値
4:09
読んだ
4:10
ここで取り上げる 2 番目の論文は
4:12
シュノーケルの迅速なトレーニング データの作成
4:15
監督が弱いこの論文
4:17
からも1年後に出版された
4:19
スタンフォード大学は柔軟な
4:22
ラベリングを書くインターフェース層
4:24
経験に基づく機能継続
4:27
トレーニングデータは
4:28
ますます大きくなりにくくなる
4:30
モデルのボトルネックを引き起こすラベル
4:33
シュノーケルを紹介するパフォーマンス
4:36
前を実装するシステム
4:37
エンド ツー エンド システムでのペーパー システム
4:40
許可された知識の専門家
4:42
データを最もよく理解し、簡単に
4:44
ラベリング関数を定義して
4:46
の代わりにデータに自動的にラベルを付ける
4:48
ハンド アノテーションの構築モデルの作成
4:51
2.8倍高速化
4:54
予測性能を
4:56
平均 45.5% なので、代わりにもう一度
5:00
ユーザーまたは知識にラベルを書く
5:03
専門家は、これらのラベル付け関数を作成します
5:05
関数は単に洞察を与えるだけです
5:07
探すパターンのモデルまたは
5:10
専門家が分類するために使用するものすべて
5:12
モデルが従うのを助けるデータ
5:14
同じプロセスが適用されます。
5:17
新しく書かれたラベリング機能
5:19
ラベル付けされていないデータを学習し、
5:21
出力を結合する生成モデル
5:24
確率的ラベルへのラベル
5:26
その後、最終的なディープをトレーニングするために使用されます
5:29
ニューラル ネットワーク シュノーケルは、これらすべてを次の方法で行います。
5:32
それ自体がこのプロセス全体を促進します
5:35
初めて
5:36
私たちの最後の論文もスタンフォードから
5:39
さらに1年後にソフトウェアを導入
5:42
2.0 この 1 ページの紙は再び
5:45
同じ深さで前進する
5:47
を使用したデータ中心のアプローチの学習
5:49
トレーニングを生成するための関数のラベル付け
5:51
大規模なラベルなしデータセットのラベルと
5:54
最終的なモデルをトレーニングします。
5:56
巨大なインターネットに特に便利
5:59
で使用されているようなスクレイピングされたデータセット
6:01
Google 広告などの Google アプリケーション
6:03
gmail youtube etc 不足に取り組む
6:06
手でラベル付けされたデータはもちろん、これは単なる
6:09
進捗状況の概要と
6:10
データ中心のAIとiの方向性
6:13
を強くお勧めします
6:14
以下の説明の情報
6:16
データ中心の AI の全体像を把握する
6:19
それはどこから来て、どこにあるのか
6:21
見出し私もシュノーケルに感謝したい
6:24
このビデオのスポンサーになり、あなたを招待します
6:26
詳細については、彼らのウェブサイトをチェックしてください
6:28
聞いたことがない場合の情報
6:30
まだ使用する前にシュノーケル
6:32
次のような多くの製品での彼らのアプローチ
6:35
YouTube Google 広告 Gmail などの大きな
6:37
アプリケーション
6:39
まで動画を見てくれてありがとう
6:41
終わり
[音楽]