プラスチックのインフルエンサー。AI ファンボーイ。段ボールの専門家。これらすべての用語は、AI を取り巻く「誇大宣伝」の波を表すために現代の語彙に加わっています。私は長い間、GenAI シーンにおける突飛で壮大な主張のいくつかに懐疑的でした。
1/ プログラマーは消える
2/ AGIは2024年に登場予定
3/ すべての仕事が自動化される
4/ ロボットは意識を持つようになる(スカイネット)
過激な意見に踏み込むこともなく、根拠のない誇張ばかりしている(Redditには340万人の会員がいるフォーラムがある)
私は特に、クールなことを実行できるコンピューター アルゴリズムに感情や空想を投影することに困惑しています。コンパニオン アプリで私を見つけることはできません。AI 意識に関するこの Skynet の認識に賛同する多くの優秀な人々は、正気を失う危険にさらされていると思います。
私の最近のブログは、主流の、そしていくぶん空想的な AI の世界観とは矛盾しています 👇
これらの API が行っているのは、音声をテキストに変換し、それを言語モデルで処理し、再び音声に変換することだけです。表面的には洗練されているように見えるかもしれませんが、その裏ではロボットの音声で基本的なテキストを生成するだけです。個々のシステムは包括的で、十分に成熟していますが、これらすべてを私たちのことわざにある豚に接着すると、音声インタラクションのニュアンスを実際に理解できなくなります。
豚のように見え、豚のように鳴き、豚のように歩くなら、それは豚です。たとえ口紅を塗っていたとしても。
競争相手がますますアルゴリズムと、その無関心で未熟なマスターになっているため、卓越性への障壁はかつてないほど低くなっています。
ロボットが真の専門知識に到達することは決してありません。クラウドソーシングできる本物の専門家のデータセットが十分に存在することは決してないからです。そしてクラウドソーシングは最良の結果ではなく平均的な結果を採用します。ロボットは考えません。繰り返すのです。
機能を抽象化できるツールやフレームワークを提供する際の問題は、一連の仮定が伴うことです。ハンマーを購入するとき、私はそれが機能すると想定します。高圧洗浄機を購入するときも、それが機能すると想定します。
問題は、フレームワークを使用するとき、それが機能すると想定してしまうことです。しかし、基盤となるテクノロジーの成熟度を考えると、これは文字通り不可能です。エージェント フレームワークは、採用を増やすどころか、高度に制御されたデモと、一般的なユーザー (数百万人います…) の手によって実際に機能することのない限定されたユース ケースの上に幻想を売りつけています。
この序文は要点を述べるためのものです。
私が軽々しく言っているわけではないと信じてください。
Google が Gemini 2.0 フラッシュで行ったことは、まさにすべてを変えました。すべてです。
そして誰もそれを予想していませんでした。
両親のお気に入りの話の一つに、私が5歳のとき、地元のキリスト降誕劇に出演した話があります。木役に配役され、年長で能力のある子供たちがイエス・キリストの誕生の解釈を演じている間、私の役割は静かに舞台を飾ることでした。
私はこの小さな役に特に満足していませんでした。
舞台から引きずり降ろされるまでの10~15分間、私はキャストたちについて舞台を歩き回り、彼らのセリフを盗み、劇の独自の解釈を大声で叫びました。
完璧なタイミングで口を挟み、また別のタイミングでパフォーマンスを披露。それは破壊の最高峰であり、観衆の笑い声や涙目が私をさらに駆り立てた。それは容赦ない破壊だった。
演技は茶番劇となり、観客は笑い転げ、俳優たちは困惑し混乱した。
その笑いは私を励まし、最高潮に達しました。
この劇はパントマイムに翻案され、役目は完了した。今日に至るまで、この物語は夕食会で新しい家族や若い家族に語られる物語として残っている。
もちろん、この特別な劇は Open AI のクリスマス 12 日間であり、Google が彼らの注目を集めただけでなく、物語を主導し、脚光を奪い、OpenAI のクリスマスのお祝いを冬の悪夢に変えたのです。
私は(ほとんどの合理的な人々と同様に)、健全な程度の懐疑心を持って OpenAI の 12 日間のクリスマスに注目し、わずかに改善された LLM モデルへの電話通話と途方もなく高価で遅い API 呼び出しのデモを見て、私の冷笑的な世界観が正当化されたと確信しました。
すると何かが起こった。
それは舞台裏で、完璧なタイミングで起こりました。地震のようにその影響は起こり、誰もがそれを感じ、あらゆる製品に現れるでしょう。
Google は AI に関して失敗したと私は思っていました。私たち全員がそう思っていました。実用的な用途では、まったく無関係でした。品質は低く、機能は限られていました。
結局、彼らは仕事を放棄したわけではなく、仕事中に眠っていたわけでもなかったのです。彼らは単に、ベータ版のリリース、ほとんど機能しない API、スケールの問題と格闘する競争相手 (今や比較すると子供のような存在) を放っておきながら、GenAI を本番環境で効果的に使用するために必要なツールをひっそりと構築していたのです。
1 週間前までは、有効な Google API キーすら持っていませんでした。
今週は、すべてのサービスを移行する作業を行っています。
軽率に思われるかもしれませんが、説明させてください。
現在、AI の世界には、科学者とビルダーという 2 つの異なる派閥が存在します。
先駆者や科学者は、AGI と新しい使用例を模索しています。これは、がん治療への新しいアプローチや量子物理学における学術的ブレークスルーの模索など、重要な作業です。これは理論的なものである場合もあれば、特にロボット工学の分野では、実用的な使用例の芽生えとなる場合もあります。
これらの人々は、AGI を追求し、GenAI を現在の LLM よりも飛躍的に実用性を高める、よりハイブリッドな形態の知能に適応させることに興味を持っています。これには数年かかるかもしれませんし、数世代かかるかもしれません (おそらく!)。
私は断固として、そして恥ずかしげもなく第二の派閥に属します。私たちは建設者です。
GenAI はすでに素晴らしいことを実現しています。1、2 年前には不可能だったことです。今すぐにでも機能するものを作りたいのです。
現在の技術と仕事は、利用可能な LLM と API を操作し、どのようなユースケースを実装できるかを確認することです。
ビルダーにはツールが必要です。私のスタックは、利用可能なすべての API とモデルの有用性をテストするために費やした数え切れないほどの時間から生まれました。
1/ クロード 3.5 コーディングのためのソネット (コード)
2/ 構造化データ推論のための OpenAI API (エージェント)
3/ 安価で即時の推論を実現する Groq / Fireworks AI API (個別呼び出し)
4/ ローカル/デバイス上のLlama(エッジコンピューティング)
今後 3 ~ 5 年間は、ほとんどの問題は解決されるだろうと考えていました。
将来的には、OpenAI モデルをより安価な代替モデルに置き換えることもできますが、私の規模では推論コストはそれほど問題ではありません。正直なところ、上記にリストされていない GenAI モデルにはまったく興味がなく、Gemini Flash v2.0 にも注目していませんでした。
今は注意を払っています。
2025 年はエージェントの年になることは誰もが知っています。ソーシャル メディアはそれを伝え続けます。
私は誇大宣伝が嫌いですが、根本的な真実は、AI システムが基本的に「ある程度確実に」私たちに代わって行動できるようになっているということです。したがって、2025 年には、このパラダイムを使用する人気ソフトウェアが多数リリースされると言っても過言ではありません。
典型的なエージェントフローは次のようになります。
私たちは指示 (フライトを予約する、母に電話する、朝食を作る) を受け取り、それがプロンプトによって解釈されます。プロンプトは通常 API 経由で実行されるため、OpenAI や Groq、Fireworks AI API がこれにあたります。そのプロンプトはツール (Skyscanner、Web 検索) を呼び出し、ツールは結果を取得し、開発者が設定したコードを呼び出して「何か」を実行します。この「何か」の結果は別のプロンプトに返され、アクションを実行するまでサイクルが続きます (nJumps)。やったー。
あまりきれいなアーキテクチャには見えませんね。
これらの API 呼び出しのいずれかが失敗したり、予期しない結果が返されたりすると、チェーン全体が壊れてしまいます。この問題を抽象化するために多数の Python フレームワークが登場しましたが、解決することはできません。ツールは改善され、実行時のエラーを確認したり、構造化データを検証したり、信頼性に近づいたチェーンを構築したりできるようになりました。これが Agent 2025 の話題の理由です。
しかし、上記のアーキテクチャは依然として複雑で信頼性に欠けています。それにもかかわらず、これは Agentic フローで GenAI の可能性を最大限に引き出す唯一の方法でもあります。
2024 年 12 月、Google は上記のエージェント モデルを、普及する前に時代遅れにしました。
主な理由は次のとおりです。
1/ ネイティブ検索
2/ 統合オーケストレーション
3/ マルチモーダル(これは効果的です)
https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool
Gemini API ドキュメントを読んでください。これは提案や空想ではなく、実際に機能し、数ミリ秒で結果を提供できる API であることに留意してください。
Google の統合検索は信頼性が高く、動作も高速です。Perplexity などのライバルはテキスト ベースの AI 検索エンジンを持っており、より広い分野で独自の地位を築いていますが、コアとなる価値提案が現在 Gemini Flash v2.0 の「機能」として統合されていることに注意してください。
Perplexity AI の目的と存在理由は、他の分野でも大きな有用性を持ち、同じ品質と速度の結果を実現できる実際の AI モデル内で想定されています。
ここで重要なのは、Google が独自の検索 API を所有しているという事実です。Google には、推論モデルを提供する同じ API にバンドルされた「ネイティブ ツール」があり、API 呼び出しにテキストを追加するだけでインターネットを検索できます。ああ、でも OpenAI でもそれができるのでは、とおっしゃる方もいらっしゃるのではないでしょうか。
OpenAI は競争できません。彼らの検索はネイティブではない (または成熟していない) ため、これは重要です。それは明らかです。彼らは「Realtime API」を持っていますが、それほどうまく機能せず、Google の Gemini Flash v2.0 実装よりも明らかに遅く、バグが多いです。リアルタイムでは、他のどの領域よりもレイテンシがすべてです。結果はそれに遠く及びません。
Google は文字通り、モデルが応答している間に検索リクエストを実行し、ユーザーが応答を読む前に回答を提供するインフラストラクチャを備えています。この小さな詳細が、インタラクション エクスペリエンスを「豚に口紅」から「本物の取引」に変える重要な数ミリ秒をカバーしています。
Google の統合検索は機能し、非常に高速に動作します。
AI の世界では、誰も堀を持っていないという話がよく聞かれます。
さて、Google はクリスマスの喜びで巨大な堀を埋め、跳ね橋を上げました。
価格、スピード、品質…2つ選んでください。うーん…
Google は 3 つの点で勝っています。
メリークリスマス、OpenAI。
しかし、それだけではありません。Google は、エージェント フローの面で状況を変えました。インターネットで「AI ツール」を検索すると、基本的に同じことを行っているフレームワーク、コード リポジトリ、プロジェクトが山ほど見つかります。
インターネットで検索して確認してください。
Scapeのウェブサイト; チェック
マークダウンに変換してチェックします。
コードを実行して確認します。
プライベートデータを取得してチェックします。
これらのツールはすべて、検索、取得、コード実行を自動化します。 https://python.langchain.com/docs/integrations/tools/
問題は、Google がこれを自社の API に統合し、上記のすべてを処理できる単一のエンドポイントを実現したことです。これで、問題は実質的に解決されました。
多数のユースケースで複雑なエージェントフローを使用する必要はなくなりました。
OpenAI の以下の図は、エージェントの関数呼び出しがどのように機能するかを示しています。
これまでは、GenAI API の外部に実行環境がありました。
Google は、その機能のほとんどを、開発者が使用できるコア API に組み込みました。
たとえば、Llama 3.3 を使用してインターネットを検索する場合は、次のようにツール呼び出しを行うことができます。
Gemini Flash v2.0 でも同じフローです:
前のポイントに戻りますが、スピード、品質、コスト…
Google は 3 つすべてを選択しただけです。
ほぼすべてのツールは、検索、取得(マークダウンに変換してプロンプトに挿入)、および任意のコード実行のバリエーションであり、プライベート データが散りばめられています。データ(ほぼ間違いなく近々登場します…)を除いて、これらは現在、中心的な懸念事項であり、多くの Agentic システムがリリースされる前に時代遅れになっています。
Google データ ソースへのネイティブ プラグインも間もなく提供されるでしょう (論理的な次のステップ)。その時点では、少数の大規模で非常に複雑な AI システムを除き、基本的に現在のフレームワークとプロセスはすべて、単一の API 呼び出しでより良く、より速く、より安価に実現できるものを複雑に実装したものに過ぎません。
アーキテクチャの観点から見ると、これは連鎖した複雑なフローを構築する代わりに、単一のシンプルなモデルを改良できるという点で重要です。すべてがずっとシンプルになりました。
さようなら、Python フレームワーク。(連絡を取らないでください)。
現時点で必要なことをすべて実行できないとしても、限界は決まっており、「ツール」が中心的な関心事となり、プロバイダーによって API に統合されます。もはや独自のエージェントを DIY する必要はなく、信頼性が高く、拡張可能で、高速な API を利用できます。
私と同じように、あなたもオーディオ/ビデオの使用に関するマルチモーダルな「デモ」統合に少しうんざりしているかもしれません。オーディオ ストリーミングを試してみてとても興奮したのを覚えています (私は何年も WebRTC で開発しており、過去には e コマース ビデオ ストリーミング ツールを設立しました)。
可能性は明らかですが、全体的に何かがおかしい気がします。たとえば、OpenAI プレイグラウンドに行って、リアルタイム API を試してみてください。可能性はありますが、ユーザーにとって楽しい体験には程遠いです。ほとんどのユーザー (私は 100 人以上のユーザーと話をしてきました) は、単に「機能する」体験を求めています。これらのミリ秒や自然なイントネーションは細部ではなく、製品の本質そのものです。
Gemini Flash v2.0 は、私が初めて Claude を使ってコーディングを始めたときに感じた「すごい」という瞬間を与えてくれた最初のモデルです。それは、初めて ChatGPT に懐疑的に質問し、「機械」が人間のような応答を返したときと同じ感覚です。
遅延、一時停止、音声のイントネーション。Google はそれを完璧にこなしました。これは明らかに AI システムですが、それが問題だったわけではありません。問題は常に一時停止、中断、モデルが人間と対話する方法でした。
機械が知識を持ち、対話でき、私が必要とする作業を実行できると仮定すれば、私は機械と話すことを気にしません。このような体験を提供できるモデルを実際に見たのは今回が初めてですが、その影響は計り知れません。
オーディオやビデオのインタラクションに興味があり、モデルに少し懐疑的であれば、Gemini Flash v2.0 を試してみてください。Google は明らかに、遅延とコストの問題を解決するために時間、労力、リソースを投入しています。私が試した他の AI モデルはどれもこれに匹敵するものはありません。
そして安いです…
そして拡張性もあります…
何年も前に初めて ChatGPT に LinkedIn の投稿を依頼したときと同じくらい興奮しています。私の人生と GenAI への関わりのこの段階では、それは特に簡単なことではありません。
この瞬間がこんなに早く来るとは思っていませんでした。
今では、リアルタイムでやり取りできる、安価で高速、かつ高性能なモデルが現実のものとなっています。
文字通り、人生で初めてコンピューターに話しかけ、コンピューターが私のことを理解し、応答し、私に代わって行動してくれると感じました。これは複雑なエージェントではなく、単一の API 呼び出しです。
これは、多くの人がまだ気づいていないとしても、AI の世界に響き渡る技術的成果です。
自然なインターフェースとインタラクションに加えて、このモデルはインターネットをネイティブに検索し、コードを実行して、文章を形成するのにかかる時間内に応答を返すことができます。
Generative AIのUXという夢がありました。
2024年12月にそれが現実になりました。
では失礼します。何かを作りに行きます。