paint-brush
データ中心の AI とは?@whatsai
925 測定値
925 測定値

データ中心の AI とは?

Louis Bouchard6m2022/07/09
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

私たちの分野ではデータが非常に重要であり、私たちのモデルは非常に大量のデータを必要とします。現実世界を表していない画像をフィードしても役に立たず、モデルの一般化能力が低下します。ここで、データ中心の AI の出番です... ビデオで詳細をご覧ください: データが多ければ多いほど、より良いものになります。したがって、特に実世界のアプリケーション、特に実世界の適用のために、これらのモデルをスケールアップする必要があります。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - データ中心の AI とは?
Louis Bouchard HackerNoon profile picture

GPT-3Dalleを強力にしているのは、まったく同じもの、つまりデータです。

私たちの分野ではデータが非常に重要であり、私たちのモデルは非常に大量のデータを必要とします。これらの大規模なモデル (GPT の言語モデルまたは Dalle の画像モデル) はすべて同じことを必要とします。データが多すぎます。

データが多ければ多いほど、より良いものになります。そのため、特に実際のアプリケーションでは、これらのモデルをスケールアップする必要があります。

より大きなモデルは、データが高品質である場合にのみ、より大きなデータセットを使用して改善できます。

現実世界を表していないフィード画像は役に立たず、モデルの一般化能力をさらに悪化させます。ここで、データ中心の AI の出番です...

ビデオで詳細をご覧ください:

参考文献

►記事全文を読む: https://www.louisbouchard.ai/data-centric-ai/
►データ中心の AI: https://snorkel.ai/data-centric-ai
►弱い監督: https://snorkel.ai/weak-supervision/
►プログラマティック ラベリング: https://snorkel.ai/programmatic-labeling/
►データ中心の AI に関するリソースの精選されたリスト: https://github.com/hazyresearch/data-centric-ai
►シュノーケルの詳細: https ://snorkel.ai/company/
►モデル中心からデータ中心の AI へ - Andrew Ng:
►ソフトウェア 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►論文 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. and Ré, C.,
2016. データ プログラミング: 大規模なトレーニング セットの迅速な作成。進歩
神経情報処理システム、29。
►論文 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S.
レ、C.、2017年11月。 Snorkel: 弱いトレーニング データの迅速な作成
監督。 VLDB基金の議事録。国際的
Conference on Very Large Databases (Vol. 11、No. 3、p. 269)。 NIH パブリック
アクセス。
►論文 3: Ré, C. (2018).ソフトウェア 2.0 とシュノーケル: 手書きラベルを超えて
データ。第 24 回 ACM SIGKDD 国際会議の議事録
知識の発見とデータ マイニング。
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

gpt3 とデリーを強力にしているのは

0:03

まったく同じもの data data は

0:06

私たちの分野では非常に重要であり、私たちのモデルは

0:08

非常に大量のデータを必要とするこれらの大規模モデル

0:11

gpt またはイメージの言語モデルのいずれか

0:13

デリーのモデルはすべて同じものを必要とします

0:15

もの

0:16

残念ながらデータが多すぎる

0:19

あなたが持っているデータはより良いものです。

0:21

特にこれらのモデルをスケールアップする必要があります

0:24

実世界のアプリケーション用に

0:26

モデルはより大きなデータセットを使用して

0:28

データが高い場合にのみ改善

0:30

ない高品質の給餌画像

0:32

現実の世界を表す

0:34

モデルの能力を使用し、さらに悪化させる

0:37

これを一般化すると、データ中心の場所です

0:39

AIの登場 データ中心のAIも

0:43

ソフトウェア 2.0 と呼ばれる

0:46

最適化するという派手な言い方

0:48

モデルの

0:50

モデル中心ではなくパフォーマンス

0:52

モデルの

0:54

もちろん、固定データセットのパラメーター

0:57

最高の結果を得るには、両方を行う必要があります

0:59

結果は可能ですが、データははるかに

1:02

このビデオの大きなプレーヤー

1:04

私がカバーするシュノーケルとのパートナーシップ

1:06

データ中心の AI とは何か、いくつか復習する

1:09

あなたがする分野での大きな進歩

1:11

なぜデータがそうであるかをすぐに理解する

1:13

機械学習で重要なのは

1:15

から引用するシュノーケルの使命

1:17

チームの下にリンクされているブログ投稿は、

1:19

多くの場合、新しいモデルの作成に時間を費やします

1:21

彼らの問題を理解する代わりに

1:23

とそのデータ表現をより深く

1:26

新しいモデルを書くのは美しい

1:28

混乱から身を隠すための避難所

1:30

本当の問題とこれを理解する

1:33

このビデオが目指しているのは、

1:36

データ中心の AI の目標は

1:38

データからの知識をエンコードする

1:40

データの最大化によるモデル

1:42

品質とモデルのパフォーマンスがすべて

1:45

2016 年にスタンフォード大学で論文を書き始めました

1:48

データプログラミングと呼ばれる大規模な作成

1:51

トレーニング セットをすばやく導入する

1:54

トレーニング データ セットのラベル付けのパラダイム

1:56

手動ではなくプログラムで

1:58

これは、AI に関してははるか昔のことでした。

2:01

あなたが最もよく知っているように年齢を研究してください

2:04

現在までのアプローチ

2:05

モデルがトレーニングするプロセスを学習する

2:08

データとラベルについて学び、

2:10

データが与えられたときにラベルを再現する

2:13

たとえば、モデルに多くのフィードを与えます

2:15

アヒルと猫の画像

2:17

それぞれのラベルを付けて、モデルに

2:20

写真に写っているものを見つけて使用する

2:23

モデルをトレーニングする逆伝播

2:25

あなたがいる場合、それがどれだけうまくいくかに基づいて

2:27

バックプロパゲーションに慣れていない私

2:29

ビデオを一時停止して見るように誘う

2:31

私の1分間の説明とリターン

2:33

データセットとして中断した場所

2:35

どんどん大きくなって

2:37

それらをキュレートすることはますます困難になっています

2:39

有害なデータを削除して、

2:41

関連するデータのみに焦点を当てるモデル

2:44

検出するようにモデルをトレーニングしたくない

2:46

猫はスカンクで終わる可能性があります

2:48

データを参照するときの注意事項

2:51

あらゆる種類のデータ表形式にすることができます

2:53

画像・テキスト・動画などができるようになりました

2:57

あらゆるタスクのモーダルを簡単にダウンロード

2:59

データ改善へのシフトと

3:01

最適化は避けられないモーター

3:03

可用性 最近のデータの規模

3:05

セットとデータ依存 cd モデル

3:08

なぜそのようなパラダイムがあるのか

3:10

トレーニング データ セットのラベル付け

3:12

プログラム的に不可欠になる

3:14

今、主な問題は

3:17

簡単に取得できるデータのラベル

3:19

何千もの猫と犬の画像ですが、

3:22

どの画像か分かりにくい

3:24

掘り出し物があり、どの画像に猫がいますか

3:26

正確な値を取得するのはさらに困難です

3:28

セグメンテーションのための画像内の位置

3:31

たとえばタスク

3:32

最初の論文はデータを紹介します

3:34

ユーザーが

3:36

ML エンジニアまたはデータ サイエンティストのいずれか

3:38

弱い監督戦略を次のように表現します

3:41

ジェネレーティブを使用した関数のラベル付け

3:43

データのサブセットにラベルを付けるモデル

3:46

データプログラミングは

3:48

専門家でなくても簡単に作成できる方法

3:51

トレーニング時の機械学習モデル

3:53

データが制限されているか、要するに利用できない

3:56

なしでデータを改善する方法を示しています。

3:58

を維持しながら多くの追加作業

4:00

同じモデルを使用すると、結果が改善されます。

4:03

今では明らかだが本質的な足踏み

4:05

石は本当に面白いです

4:07

この分野の基礎論文と価値

4:09

読んだ

4:10

ここで取り上げる 2 番目の論文は

4:12

シュノーケルの迅速なトレーニング データの作成

4:15

監督が弱いこの論文

4:17

からも1年後に出版された

4:19

スタンフォード大学は柔軟な

4:22

ラベリングを書くインターフェース層

4:24

経験に基づく機能継続

4:27

トレーニングデータは

4:28

ますます大きくなりにくくなる

4:30

モデルのボトルネックを引き起こすラベル

4:33

シュノーケルを紹介するパフォーマンス

4:36

前を実装するシステム

4:37

エンド ツー エンド システムでのペーパー システム

4:40

許可された知識の専門家

4:42

データを最もよく理解し、簡単に

4:44

ラベリング関数を定義して

4:46

の代わりにデータに自動的にラベルを付ける

4:48

ハンド アノテーションの構築モデルの作成

4:51

2.8倍高速化

4:54

予測性能を

4:56

平均 45.5% なので、代わりにもう一度

5:00

ユーザーまたは知識にラベルを書く

5:03

専門家は、これらのラベル付け関数を作成します

5:05

関数は単に洞察を与えるだけです

5:07

探すパターンのモデルまたは

5:10

専門家が分類するために使用するものすべて

5:12

モデルが従うのを助けるデータ

5:14

同じプロセスが適用されます。

5:17

新しく書かれたラベリング機能

5:19

ラベル付けされていないデータを学習し、

5:21

出力を結合する生成モデル

5:24

確率的ラベルへのラベル

5:26

その後、最終的なディープをトレーニングするために使用されます

5:29

ニューラル ネットワーク シュノーケルは、これらすべてを次の方法で行います。

5:32

それ自体がこのプロセス全体を促進します

5:35

初めて

5:36

私たちの最後の論文もスタンフォードから

5:39

さらに1年後にソフトウェアを導入

5:42

2.0 この 1 ページの紙は再び

5:45

同じ深さで前進する

5:47

を使用したデータ中心のアプローチの学習

5:49

トレーニングを生成するための関数のラベル付け

5:51

大規模なラベルなしデータセットのラベルと

5:54

最終的なモデルをトレーニングします。

5:56

巨大なインターネットに特に便利

5:59

で使用されているようなスクレイピングされたデータセット

6:01

Google 広告などの Google アプリケーション

6:03

gmail youtube etc 不足に取り組む

6:06

手でラベル付けされたデータはもちろん、これは単なる

6:09

進捗状況の概要と

6:10

データ中心のAIとiの方向性

6:13

を強くお勧めします

6:14

以下の説明の情報

6:16

データ中心の AI の全体像を把握する

6:19

それはどこから来て、どこにあるのか

6:21

見出し私もシュノーケルに感謝したい

6:24

このビデオのスポンサーになり、あなたを招待します

6:26

詳細については、彼らのウェブサイトをチェックしてください

6:28

聞いたことがない場合の情報

6:30

まだ使用する前にシュノーケル

6:32

次のような多くの製品での彼らのアプローチ

6:35

YouTube Google 広告 Gmail などの大きな

6:37

アプリケーション

6:39

まで動画を見てくれてありがとう

6:41

終わり

[音楽]