最近、Lex Fridman は、Anthropic AI の Dario Amodei、Amanda Askell、Chris Olah との 5 時間のポッドキャストをリリースしました。
AI 開発のビジョンに関するかなり長い記事「Machines of Loving Grace」を発表した後、 Dario はそれをさらに拡張し、同様にそれが Lex との会話の主な焦点となり、他の Anthropic メンバーもそのトピックを拡張しました。
私ほどオタクではない人のために、この一流の AI チームが共有した重要なアイデアをまとめておくといいと思いました。今秋の Claude 3.5 Sonnet (New) のリリース以来、Anthropic の LLM における進歩は、openAI が o1 プレビュー モデルで達成したものと同等であることは明らかです。彼らはこの AI レースのリーダーの 1 つであり、このトピックに関する優れた権威を持っています。
Anthropic チームの発言を繰り返すこととは別に、私は、2 つの重要なタイムラインとして、1 年後と 5 年後の各ポイントが実用的な AI アプリケーションの将来にどのような意味を持つかについても空想したいと思います。私の予測は間違っていると予想していますが (単に要因が多すぎるため)、時間的に「実際の将来」に私たちが登場したときにこのテキストを見て、それを実行するのは楽しい頭の体操だと思います。
スケールアップ効果がいつ頭打ちになるかは分からないが、まだそうではない
私にとっての重要なポイントの 1 つは、スケーリング仮説の道を進み続けることの将来的な影響についての彼の見解でした (より高性能な計算で、より多くの、より良いデータを投入すると、それに応じてモデルがよりスマートになるという考え)。ダリオは、古い手法をすべて使用してデータを追加するだけでは、AI を大幅に強化するのにそれほど効果的ではないかもしれないと示唆しているようです。現在、AI ラボの主な焦点は、どの部分をスケーリングするかを理解することです。
彼の見解では、有望な方法のいくつかは、合成データ生成(複雑なタスクの試行錯誤トレーニングにAlphaGoアプローチを適用する)またはガードレール付きデータの追加、つまり特定のドメインに対する良い回答と悪い回答の例をモデルに提供して、モデルが一般的なルールを理解し、それをより適切に適用できるようにすることです。
2025年- AlphaGo AIの自己トレーニングアプローチがより一般的になり、モデルはほぼ即時のフィードバックループ(おそらく取引)を備えた追加の複雑な演習で人間の能力を超えるようになる。
2030 年- AlphaGo の自己トレーニング アプローチは、十分な時間をかけてタスクを練習すれば、難しい実践的なタスクで自己改善できるようなモデルに一般化される可能性があります。
2. AIの安全性へのアプローチはモデル開発とともに発展する
自律性と誤用が最大のリスクをもたらします。
ダリオ氏は、チームが新しいモデルをトレーニングするたびに両方のリスクをテストし、リリース前に予防策を講じていると主張しています。
ASL-1 (チェスボットのような) - リスクはありません
ASL-2 (現在の AI モデル) - 単純に Google で検索できるもの以上のリスクのある情報は提供しません。
ASL-3 (犯罪者の能力を高めることができる) - これらのシステムを介したサイバー、核、生物兵器の有効化は、モデルをリリースする前に大幅に弱体化される必要があります。
ASL-4+ (ASL-3 よりもスマート + 自律) - これらがどのように制御されるかはまだ明らかではありませんが、トレーニング後にそのようなモデルの兆候がある場合にのみリスクが軽減されます。
2025年- ダリオは来年にASL-3がリリースされると予想しています。リリース前にすべてのバグ(新しい詐欺やソフトウェアウイルス)を捕捉することは不可能なので、ガードレールがあっても人間によるシステムの悪用は起こると思います。
2030年-テスラ オプティマス ロボットなど、AI の多様で有能なロボット アプリケーション。AI は具現化され、特定の領域では平均的な人間よりもはるかに賢くなります。このような複雑なシステムの悪用を完全に防ぐことは難しいかもしれません。特に、犯罪者のために日常的なタスクを実行する場合は困難です。
3. AGI(ダリオの言葉を借りれば「強力なAI 」)は2027年までに登場するかもしれない
彼は何度も、AI がどれだけ賢くなるかは領域に依存し、AI 開発の障害は絶えず解消されつつあるようだと繰り返し述べています。論理的には、人間が生成したコンテンツを正しく使用することで、人間の思考能力は最終的に AI によって再現されるはずです。チェスをプレイするコンピューターと AlphaGo の類推から、特定のタスクでは AI が人間の能力を上回ることは明らかであり、この領域がより文書化され、堅牢であればあるほど、パフォーマンスは高くなるはずです。したがって、最終的な AGI の最悪のシナリオは、トレーニングを最も進めることができた特定の分野で優れた能力を持つ、人間レベルの推論 AI です。
同様に、AI の実際の適用は、特定の業界が AI 開発者からどれだけ離れているかによって異なります。明らかに、AI 開発者にとっては、農業環境でそれらのモデルを有効活用するよりも、コードの作成に役立つ新しいモデルをテストして適応させる方が簡単です。この論理によれば、IT/コーディング、科学、大都市のビジネス、そしてその後に経済の他の部分がこの順序で AI の影響を感じるはずです。
2025 年- 特にコーディングの分野で、より優れた自律的な AI アプリケーションが登場し、非技術系の製品マネージャーがコーダーの助けを借りずにコードベースのプロジェクトを実行できるようになります。
2030 年- すべての企業が何らかの方法で AI を業務に取り入れ、最先端のモデルが生物学、物理学、数学などの分野で数多くの科学的発見に貢献するでしょう。
モデルは急速に発展していますが、ブラックボックスのままであり、なぜうまく機能するのか、なぜうまく機能しないのかは不明です。
多くの場合、これは、そのようなモデルを変更またはスケーリングすると、幻覚、予測できないアクション、または新たな動作につながることを意味します。理想的には、開発者は事前にこれらを理解して、制御されたモデルの改善を行いたいと考えています。
Anthropic は、モデル Claude の「心」の中で実際に何が起きているのかを説明することに力を注いでいます。このアプローチは、理論的には、Claude が特定の答えを吐き出す理由と、さまざまなトレーニング方法がこのニューラル ネットワーク内で生成されるパターンの変化にどのように役立つかを説明するはずです。何よりも、探索するのは単純に楽しいです。
予測がどうであれ、AI の次の段階を観察するのは楽しいでしょう。そして、5 年以内に実際に革命が起こらなかったとしても、最終的に月額 300 ドルの OpenAI サブスクリプションをキャンセルすることに決めた今、この記事を読み返すのは少なくとも気分がすっきりするでしょう。