paint-brush
Galactica は 1200 億のパラメーターでトレーニングされた AI モデルです@whatsai
2,622 測定値
2,622 測定値

Galactica は 1200 億のパラメーターでトレーニングされた AI モデルです

Louis Bouchard6m2022/11/26
Read on Terminal Reader

長すぎる; 読むには

MetaAI と Papers with Code は、1,200 億のパラメータを備えた科学的知識に基づいてトレーニングされた、ゲームチェンジャーであるオープンソースの大規模言語モデルである Galactica のリリースを発表しました。このモデルは、ホワイトペーパー、レビュー、ウィキペディアのページ、およびコードを作成できます。引用する方法と方程式を書く方法を知っています。これは、AI と科学にとって大きな問題です。 11 月 17 日に、Galactica は目の前のタスクを理解できず、多くの場合間違っていたため、シャットダウンされました。それでも、モデルは研究者が利用できるので、オープンソースにしておくことが重要だと思います。
featured image - Galactica は 1200 億のパラメーターでトレーニングされた AI モデルです
Louis Bouchard HackerNoon profile picture

11 月 15 日、MetaAI と Papers with Code は、1200 億のパラメーターを備えた科学的知識に基づいてトレーニングされた、ゲームチェンジャーであるオープンソースの大規模言語モデルである Galactica のリリースを発表しました。

私の友人の 1 人がTwitter で共有したように、モデルはホワイトペーパー、レビュー、ウィキペディアのページ、およびコードを作成できます。引用する方法と方程式を書く方法を知っています。これは、AI と科学にとって大きな問題です。

11 月 17 日、ギャラクティカは閉鎖されました。

なんで?なぜなら、すべての深層学習モデルと同様に、目の前のタスクを理解せず、多くの場合間違っていたからです。特に、モデルが間違っている可能性があり、盲目的に信頼しないという警告を追加する場合は、これは問題になりません。ウィキペディアを誰も信用していなかったように、これを高校のプロジェクトで参考にすることはできませんでした。問題は、ギャラクティカが間違っていたり偏っていたりしたが、正しく権威あるように聞こえたということです。

それでも、モデルは研究者が利用できるので、オープンソースにしておくことが重要だと思います。

私の友人の別の一人が共有したように、新しいモデルをめぐるすべてのドラマは少し過剰に思えます.もちろん、現在オンラインで入手できる他のモデルと同様に、このモデルは完璧ではありません。その限界をテストし、それに取り組み、改善するためにオンラインで必要です。この種の出版物を学生と見なし、閉鎖やキャンセルを恐れることなく、間違いや改善を許容する必要があります。

とにかく、私たちはそれについて議論するためにここにいるわけではありません。うまくいけば、すぐにオンラインに戻るでしょう

私たちはここで、Galactica とは何か、または Galactica が何であったか、また論文、レビュー、コードなどの執筆をどのように達成できるかを確認するためにここにいます…

ビデオで詳細をご覧ください

参考文献

►記事全文を読む: https://www.louisbouchard.ai/galactica/
►Taylor et al., 2022: Galactica, https://galactica.org/
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

11月15日 メタリーと論文

0:03

のリリースを発表したコード付き

0:04

galatica ゲームチェンジャーのオープンソース

0:07

でトレーニングされた大規模な言語モデル

0:09

1200億の科学知識

0:12

友人の 1 人が共有したパラメータ

0:14

Twitterでモデルは白を書くことができます

0:16

論文レビュー ウィキペディアのページとコード

0:19

引用する方法と書く方法を知っている

0:22

方程式それは本当に大きなものです

0:24

11 月 17 日の AI と科学の取引

0:28

ギャラクティカが閉鎖された理由

0:31

すべての深層学習モデルでそうではありませんでした

0:34

目の前のタスクを理解し、

0:36

多くの場合、これは間違っています。

0:39

特に警告を追加した場合の問題

0:41

モデルが間違っている可能性があると言って、そうしないでください

0:43

誰のように盲目的に信頼する

0:45

信頼できるウィキペディア

0:48

高校のプロジェクトの参照

0:50

問題はギャラクティカが間違っていたということでした

0:52

偏見はあるが、正しくて説得力があるように聞こえる

0:55

まだモデルは利用可能です

0:57

研究者と私はそれが重要だと信じています

0:59

別のものとしてビットオープンソースを維持する

1:02

私の友達はすべてのドラマを共有しました

1:04

この新しいモデルは少し過剰に思えます

1:06

もちろん、モデルは完璧ではありません

1:08

現在利用可能なその他すべて

1:10

オンラインでテストするためにオンラインで必要です

1:13

制限に取り組み、改善します

1:16

これらの種類の捏造を見る必要があります

1:18

学生として、間違いを許容し、

1:21

なることを恐れずに改善する

1:22

とにかくシャットダウンまたはキャンセルされていません

1:26

ここで議論するために

1:28

すぐにオンラインに戻ります

1:30

ギャラクティカとは何か、ギャラクティカはどうだったか

1:33

論文のレビューを書くことができた

1:35

コード数学など、基本的にはギャラクティカ

1:39

サイズの大きな言語モデルです

1:41

gpt3に匹敵するが、に特化

1:44

科学的知識、より正確にはそれ

1:46

大規模でキュレーションされた

1:48

を含む科学知識のコーパス

1:50

4,800 万冊以上の論文 教科書と

1:54

数百万の化合物と講義ノート

1:56

タンパク質科学のウェブサイト

1:58

百科事典などをハイライト表示

2:00

データは高品質で非常に優れていました

2:03

大きなものの1つである厳選された

2:05

gpt3との違いだから理論的には

2:08

ギャラクティカにはほとんどすべてが含まれています

2:10

人類の科学的知識が想像する

2:12

素晴らしい思い出と時間を持つ

2:15

何百万もの研究を読む

2:18

ほとんどの場合、これはギャラクティカです。

2:21

記憶力があまりよくないようです

2:23

結局のところ、それはすべてを混ぜ合わせます

2:25

ほとんどの情報を想定できますが

2:27

トレーニングデータセットに存在していた

2:29

すべてのデバイスを考慮しても正確

2:31

ギャラクティカはきれいなままです

2:34

強力で、ほとんどすべてを凌駕します

2:36

科学関連の他のアプローチ

2:39

それだけでは不十分なタスク

2:41

私たちはまだ自信を持っていることができます

2:44

それがどのように機能するかを理解する価値がある

2:46

特に戻ってくるから

2:48

すぐにさらに強力になります

2:51

言及されたギャラクティカは大きな言語です

2:53

gpt3 または Bloom に類似したモデル

2:55

彼らが言うように特別に訓練された

2:58

科学を整理することもたくさんあります

3:01

このモデルで進行中のエンジニアリング

3:03

その中で非常に多くの汎用性を可能にします

3:05

特殊な入力と出力

3:07

引用またはタンパク質のトークン化

3:09

詳細を学ぶことができるシーケンス

3:11

彼らの論文は彼らの下にリンクされています

3:13

トークン化の取り組みは、はるかに

3:15

この作品の最大の貢献

3:17

トークン化とは基本的に、

3:20

モデルは言葉ではなくデータを見る

3:23

私たちが理解できる数学や形

3:26

実際に埋め込みに関するビデオを共有し、

3:28

今週後半にトークン化するので、もしそうなら

3:30

面白そうですね、お楽しみに

3:33

購読してお見逃しなく

3:35

この奇妙なトークン化と

3:37

前処理手順 Galactica とは

3:39

そしてそれは取った後に何をしますか

3:42

単語またはさまざまな科学的インプットと

3:44

モデルの準備

3:46

トークナイゼーション 驚くことではありません ギャラクティカは

3:50

さらに別のトランスフォーマーベース

3:52

いくつかの gpt3 のようなアーキテクチャ

3:55

トークン化を含むバリエーション

3:57

違うから絶対に誘う

3:59

私またはいくつかの多くのビデオの1つに

4:02

私の友人のカバーを作った

4:04

私が得られないような変圧器アーキテクチャ

4:06

彼らが再びどのように働くかについて

4:09

ギャラクティカとの大きな違い

4:11

他の大規模な言語モデルは、

4:13

これは、事前トレーニングを意味するプロンプトを呼び出します

4:16

抽出されたプロンプトが含まれること

4:18

トレーニングデータセットから

4:21

に示されているデータ自体

4:23

モデルの一般性を最大化する

4:25

一部のタスクのパフォーマンスを向上させながら

4:28

興味深いものであり、それはほとんどそれです

4:31

アーキテクチャは非常に似ていると言いました

4:33

あなたがすでに知っていること、そしてほとんどの場合

4:35

トレーニングと前処理のスキームはさまざまです

4:37

これは、モデルがそうではないことを示しています

4:39

私たちがどのように説教するか以外のすべて

4:41

データは実際に重要でさえあるかもしれません

4:43

もっと見ることができます

4:45

gpt3とGalacticaの違い

4:48

悪い科学を持つ同じ学生

4:49

教師対良い教師

4:52

同じ機能とリソース

4:55

教師はよりアクセスしやすくなり、

4:57

もちろんこれは彼にとって理解できる

4:59

は論文の概要にすぎませんでした。

5:02

読むことを強くお勧めします

5:04

複数に関する詳細のトン

5:06

彼らが実装したエンジニアリングのトリック

5:08

結果分析の詳細とともに

5:11

を使用して取り組むすべてのタスク

5:13

モデルとそれが入力をどのように理解したか

5:15

データとその予測 その限界

5:18

バイアスなどを楽しんでいただければ幸いです

5:21

このビデオ、また来週お会いしましょう

5:23

別の素晴らしい紙と特別な

埋め込みとは何かを説明するビデオ