paint-brush
AIの今後: Anthropic CEOのビジョンを解釈する@learning2survive
新しい歴史

AIの今後: Anthropic CEOのビジョンを解釈する

Vitalii Chukhlantcev6m2024/11/21
Read on Terminal Reader

長すぎる; 読むには

Lex Fridman と Anthropic AI のリーダーによるポッドキャストでは、AI 開発に関する重要な洞察が強調されました。 スケーリング効果: まだ停滞していませんが、どの側面をスケーリングするかを理解することに焦点が移っています。合成データ生成とガードレール付きデータは有望です。 AI の安全性: モデルの進歩と並行して開発中。リスクは ASL レベルに分類され、ASL-3 (不正行為者を有効化) は来年に予定されています。 AGI タイムライン: ドメイン依存の進歩と業界固有の採用率で、2027 年までに実現する可能性があります。 メカニズムの解釈可能性: モデルの動作を理解して制御する重要性が高まっています。 予測には以下が含まれます。 2025: 高度な AI 自己トレーニングにより、特定のタスクで人間を上回る。安全対策にもかかわらず AI の誤用が増加。特にコーディングにおいて、より自律的な AI アプリケーション。 2030: 一般化された AI 自己改善。特定のドメインで人間よりも賢い具現化された AI。業界全体での AI の広範な統合。AI の支援による潜在的な科学的ブレークスルー。 この記事は、AI 開発の急速なペースと、その将来的な影響に関する不確実性を強調しています。
featured image - AIの今後: Anthropic CEOのビジョンを解釈する
Vitalii Chukhlantcev HackerNoon profile picture
0-item

最近、Lex Fridman は、Anthropic AI の Dario Amodei、Amanda Askell、Chris Olah との 5 時間のポッドキャストをリリースしました。


AI 開発のビジョンに関するかなり長い記事「Machines of Loving Grace」を発表した後、 Dario はそれをさらに拡張し、同様にそれが Lex との会話の主な焦点となり、他の Anthropic メンバーもそのトピックを拡張しました。


Anthropic' CEO article with the vision for AI

私ほどオタクではない人のために、この一流の AI チームが共有した重要なアイデアをまとめておくといいと思いました。今秋の Claude 3.5 Sonnet (New) のリリース以来、Anthropic の LLM における進歩は、openAI が o1 プレビュー モデルで達成したものと同等であることは明らかです。彼らはこの AI レースのリーダーの 1 つであり、このトピックに関する優れた権威を持っています。


Anthropic チームの発言を繰り返すこととは別に、私は、2 つの重要なタイムラインとして、1 年後と 5 年後の各ポイントが実用的な AI アプリケーションの将来にどのような意味を持つかについても空想したいと思います。私の予測は間違っていると予想していますが (単に要因が多すぎるため)、時間的に「実際の将来」に私たちが登場したときにこのテキストを見て、それを実行するのは楽しい頭の体操だと思います。



  1. スケールアップ効果がいつ頭打ちになるかは分からないが、まだそうではない

    私にとっての重要なポイントの 1 つは、スケーリング仮説の道を進み続けることの将来的な影響についての彼の見解でした (より高性能な計算で、より多くの、より良いデータを投入すると、それに応じてモデルがよりスマートになるという考え)。ダリオは、古い手法をすべて使用してデータを追加するだけでは、AI を大幅に強化するのにそれほど効果的ではないかもしれないと示唆しているようです。現在、AI ラボの主な焦点は、どの部分をスケーリングするかを理解することです。


    彼の見解では、有望な方法のいくつかは、合成データ生成(複雑なタスクの試行錯誤トレーニングにAlphaGoアプローチを適用する)またはガードレール付きデータの追加、つまり特定のドメインに対する良い回答と悪い回答の例をモデルに提供して、モデルが一般的なルールを理解し、それをより適切に適用できるようにすることです。


    • 2025年- AlphaGo AIの自己トレーニングアプローチがより一般的になり、モデルはほぼ即時のフィードバックループ(おそらく取引)を備えた追加の複雑な演習で人間の能力を超えるようになる。

    • 2030 年- AlphaGo の自己トレーニング アプローチは、十分な時間をかけてタスクを練習すれば、難しい実践的なタスクで自己改善できるようなモデルに一般化される可能性があります。


      2. AIの安全性へのアプローチはモデル開発とともに発展する


    The current state of the art models (o1 & claude 3.5 sonnet) are ASL-2

自律性と誤用が最大のリスクをもたらします。

ダリオ氏は、チームが新しいモデルをトレーニングするたびに両方のリスクをテストし、リリース前に予防策を講じていると主張しています。


ASL-1 (チェスボットのような) - リスクはありません

ASL-2 (現在の AI モデル) - 単純に Google で検索できるもの以上のリスクのある情報は提供しません。

ASL-3 (犯罪者の能力を高めることができる) - これらのシステムを介したサイバー、核、生物兵器の有効化は、モデルをリリースする前に大幅に弱体化される必要があります。

ASL-4+ (ASL-3 よりもスマート + 自律) - これらがどのように制御されるかはまだ明らかではありませんが、トレーニング後にそのようなモデルの兆候がある場合にのみリスクが軽減されます。


  • 2025年- ダリオは来年にASL-3がリリースされると予想しています。リリース前にすべてのバグ(新しい詐欺やソフトウェアウイルス)を捕捉することは不可能なので、ガードレールがあっても人間によるシステムの悪用は起こると思います。

  • 2030年-テスラ オプティマス ロボットなど、AI の多様で有能なロボット アプリケーション。AI は具現化され、特定の領域では平均的な人間よりもはるかに賢くなります。このような複雑なシステムの悪用を完全に防ぐことは難しいかもしれません。特に、犯罪者のために日常的なタスクを実行する場合は困難です。


    3. AGI(ダリオの言葉を借りれば「強力なAI 」)は2027年までに登場するかもしれない


    彼は何度も、AI がどれだけ賢くなるかは領域に依存し、AI 開発の障害は絶えず解消されつつあるようだと繰り返し述べています。論理的には、人間が生成したコンテンツを正しく使用することで、人間の思考能力は最終的に AI によって再現されるはずです。チェスをプレイするコンピューターと AlphaGo の類推から、特定のタスクでは AI が人間の能力を上回ることは明らかであり、この領域がより文書化され、堅牢であればあるほど、パフォーマンスは高くなるはずです。したがって、最終的な AGI の最悪のシナリオは、トレーニングを最も進めることができた特定の分野で優れた能力を持つ、人間レベルの推論 AI です。


    同様に、AI の実際の適用は、特定の業界が AI 開発者からどれだけ離れているかによって異なります。明らかに、AI 開発者にとっては、農業環境でそれらのモデルを有効活用するよりも、コードの作成に役立つ新しいモデルをテストして適応させる方が簡単です。この論理によれば、IT/コーディング、科学、大都市のビジネス、そしてその後に経済の他の部分がこの順序で AI の影響を感じるはずです。


    • 2025 年- 特にコーディングの分野で、より優れた自律的な AI アプリケーションが登場し、非技術系の製品マネージャーがコーダーの助けを借りずにコードベースのプロジェクトを実行できるようになります。

    • 2030 年- すべての企業が何らかの方法で AI を業務に取り入れ、最先端のモデルが生物学、物理学、数学などの分野で数多くの科学的発見に貢献するでしょう。


    1. 一貫したモデル開発にはメカニズムの解釈可能性がより重要になる


    モデルは急速に発展していますが、ブラックボックスのままであり、なぜうまく機能するのか、なぜうまく機能しないのかは不明です。

    多くの場合、これは、そのようなモデルを変更またはスケーリングすると、幻覚、予測できないアクション、または新たな動作につながることを意味します。理想的には、開発者は事前にこれらを理解して、制御されたモデルの改善を行いたいと考えています。


    「内部対立」フィーチャの近くにあるフィーチャのマップ。バランスのトレードオフ、恋愛上の葛藤、対立する忠誠心、ジレンマに関連するクラスターが含まれます。


    Anthropic は、モデル Claude の「心」の中で実際に何が起きているのかを説明することに力を注いでいます。このアプローチは、理論的には、Claude が特定の答えを吐き出す理由と、さまざまなトレーニング方法がこのニューラル ネットワーク内で生成されるパターンの変化にどのように役立つかを説明するはずです。何よりも、探索するのは単純に楽しいです。


    • 2025 - 新しい視覚化と詳細を備えた、クロード モデルのより包括的な記述的解釈 (この情報が Anthropic の競争上の優位性にとってどの程度機密性が高いかによって、公開されるかどうかが決まります)。


    • 2030 年- Anthropic のアプローチが成功すれば、すべての主要な AI ラボが AI システムの内部マップ (解釈済み) を生成している可能性があります。ただし、このアプローチがモデル開発に実質的な影響を与えず、説明的すぎることが判明した場合、2030 年には誰もメカニズムの解釈可能性について覚えていないでしょう...


結論

予測がどうであれ、AI の次の段階を観察するのは楽しいでしょう。そして、5 年以内に実際に革命が起こらなかったとしても、最終的に月額 300 ドルの OpenAI サブスクリプションをキャンセルすることに決めた今、この記事を読み返すのは少なくとも気分がすっきりするでしょう。