AI の非決定性、幻覚、そして...猫？

長い間、IT スペシャリストは世間の心配をすることなく働いていました。ソフトウェアの開発、構築、展開をスムーズに行っていました。その後、孤立の時代が到来し、彼らは突然退屈してしまいました (もちろん、これは実際の出来事を冗談めかして解釈したものです)。IT 担当者は、自宅にいる間に仕事を処理できるもの、つまり、定型的な質問に答え、クールなアバターを生成し、膨大な量のデータを数分で分析できるものを作りたいと考えました。彼らは素晴らしい場所への旅行を夢見ていました。そして、ご想像のとおり、AI に革命を起こしたのです。

AI は現在、機能し、答えを提供し、生活を向上させています。AI は優れたアシスタントですが、適切な状況で使用した場合のみ、真に効果を発揮します。

画像や動画の生成から株式市場の予測や暗号通貨の分析まで、AI の応用は急速に進歩しています。しかし、 AI は私たちが求めていない情報を提供したり、明らかに誤った回答をしたりすることもあります。その行動は、飼い猫の行動とよく似ています。静かに座っているのに突然襲い掛かってくる猫です。

私たちの猫も AI も、予測不可能なことを楽しんでいます。

同じ食べ物（またはデータ）を与えても、時には食べ、時には無視します。
応答するように訓練しますが、呼びかけてもたまにしか反応しません。
猫が大きくて野生的であればあるほど、あるいは AI モデルが大きくなればなるほど、その行動を予測することが難しくなります。
朝は猫は落ち着いているかもしれませんが、夕方になると活発になります（動的データと同様）。
猫は友好的かもしれませんが（決定論的）、警告なしに引っかくこともあります（確率論的）。

決定論と確率論が何を意味するのか疑問に思うかもしれません。調べてみましょう。

決定論と確率論

決定論的システムは、同じ入力が与えられると常に同じ結果を生成します。DevOpsエンジニアであれば、べき等性について考えてみてください。現実世界の例としては、ボウルに入れた餌を毎回同じ量食べる猫が挙げられます。これが決定論です。しかし、猫が匂いを嗅いで半分しか食べないと、もはや決定論的ではありません。

確率過程にはランダム性の要素が含まれます。つまり、同じ入力でも結果が異なる場合があります。たとえば、機械学習モデルでは、データセット全体ではなくランダムなデータチャンクを選択してモデルをトレーニングする確率的勾配降下法 (SGD)などの確率的アルゴリズムがよく使用されます。

これらの定義では、AI が幻覚を起こしたり、無秩序な動作をしたりする理由を完全には説明できません。次のような他の要因も関係しています。

決定論
確率性
丸め誤差と浮動小数点演算
マルチスレッドと並列計算
継続的にデータを更新する
混沌と「バタフライ効果」

もう少し詳しく見てみると、AI モデルの予測不可能な動作に影響を与える他のメカニズムがわかります。

ニューラルネットワークの概要

皆さんが使用している AI がさまざまなニューラルネットワークアルゴリズムに依存していることは、おそらくご存知でしょう。ニューラルネットワークの種類は次のとおりです。

完全接続ニューラルネットワーク (FCNN):各ニューロンが次の層のすべてのニューロンに接続する従来のアーキテクチャ。

畳み込みニューラルネットワーク (CNN):これらのネットワークは、エッジ、テクスチャ、形状などの画像の特徴を強調する畳み込みまたはフィルターを使用します。

リカレントニューラルネットワーク (RNN ): これらのネットワークには、以前のステップを記憶する (つまり、シーケンスを記憶する) フィードバックループがあります。

長短期記憶 (LSTM):重要なデータを選択的に忘れたり記憶したりするメカニズムを備えた RNN の拡張バージョン。

トランスフォーマー: テキスト処理のための最も強力なクラス。マルチヘッドアテンションを使用して、コンテキスト全体を同時に考慮することができます。

生成的敵対的ネットワーク (GAN): 2 つのネットワークで構成され、1 つはデータを生成し、もう 1 つはその品質を評価します。これらのネットワークが競争することで、より良い結果が得られます。

オートエンコーダ: 情報を圧縮 (エンコード) してから再構築 (デコード) するように設計されたネットワーク。

グラフニューラルネットワーク (GNN):通常のデータではなくグラフ (ノードとエッジ) を扱います。

最も一般的なモデルである ChatGPT がなぜ幻覚を起こすことが多いのかを理解するには、これらすべてのコンテキストが必要です。

AI幻覚はどうやって起こるのか

ChatGPT は、 2017 年の論文「Attention Is All You Need」で初めて導入されたTransformerアーキテクチャで動作します。これは、テキスト処理に革命をもたらしたメカニズムそのものです。Transformer は自己注意メカニズムで動作し、古いリカレントニューラルネットワーク (LSTM および GRU) のように最も近い単語だけでなく、グローバルコンテキストを考慮することができます。このモデルは GPT (Generative Pre-Trained Transformer) シリーズに属しており、次のことを意味します。

事前トレーニング済み:最初は膨大な量のテキスト (書籍、記事、Web サイト、コード) でトレーニングされました。
生成的:そのタスクは、事実を分類または抽出するだけでなく、テキストを生成することです。

ChatGPT の回答は、厳格なルールではなく確率過程から生まれます。テキストを記憶したり再現したりするのではなく、確率モデルを使用して応答を生成します。

確率的プロセスとしての単語予測

ChatGPT が応答する際、正しい単語を 1 つ選択するのではなく、確率分布を計算します。

P(wi|w1, w2, ..., wi-1)、ただし:

「wi」—文中の次の単語

w1、w2、...、wi-1 — 前の単語

P(wi|w1, ..., wi-1) — 「wi」が次の単語となる確率

たとえば、「今日は何曜日ですか？」と質問すると、ChatGPT は異なる確率を持つ可能性があります。

「月曜日」 — P=0.7
「水曜日」 — P=0.2
「42」 — P=0.0001

ほとんどの場合、最も確率の高い単語が選択されますが、生成温度 (ランダム性を制御するパラメーター) により、コンテキストに基づいて可能性の低いオプションが選択されることもあります。

文脈の影響と情報の忘却

ChatGPT は限られたコンテキストウィンドウで動作します。つまり、最後の NN トークンのみを「記憶」します。GPT-4 の場合、コンテキストウィンドウは約 128k トークン (約 300 ページのテキスト) です。重要な情報がこのコンテキスト外にある場合、次のことが起こる可能性があります。

詳細を忘れる（コンテキストクリッピング効果）
メイクアップ情報（確率過程）

ただし、ChatGPT は、確実かどうかを尋ねられた後に回答を修正することがよくあります。ただし、ChatGPT は、確実かどうかを尋ねられた場合に回答を修正することがよくあります。

AI は時々自己修正しますが、それはなぜでしょうか?

ChatGPT に「本当にそうでしょうか?」と尋ねると、疑問が存在する新しいコンテキストを使用して回答が再分析されます。その結果は次のようになります。

回答の確率を再計算しています。
より妥当なオプションが存在する場合はそれを選択します。

このプロセスはベイズ確率によって説明できます。

P(A|B) = P(B|A)P(A) / P(B)、ただし、

P(A|B) — フォローアップの質問 B を考慮した場合に、回答 A が正しい確率。
P(B|A) — ChatGPTが最初に正しかったかどうかを尋ねた確率。
P(A) — ChatGPTの回答の初期確率。
P(B) — 質問する全体的な確率。

情報が多すぎて頭がオーバーヒートしていませんか? AI も大量の情報に圧倒されてしまうことを想像してみてください。

過剰適合とノイズの多いデータによるエラー

ChatGPT のトレーニングには、次のようなノイズや矛盾した情報を含む大量のテキストデータが流入します。

地球は丸いと主張する情報源もあれば、平らだと主張する情報源もあります。

AI は、さまざまな確率で表示される情報のうち、どの情報が真実であるかを常に判断できるわけではありません。

これらはモデルの幻覚の例であり、ChatGPT の重みが厳密なロジックではなく確率的な単語の関連付けに基づいてトレーニングされるために発生します。

結論

このことから学べることは次のとおりです。ChatGPT は次のような理由で幻覚を起こします。

決定論的ではなく確率論的に予測します。
メモリが限られています (コンテキストウィンドウ)。
質問された場合は確率を再計算します。
ノイズや矛盾を含むトレーニングデータがあります。

とても簡単です。疲れなかったことを願っています。疲れたとしても、それは良い兆候です。なぜなら、それは批判的に考えていることを意味し、AI を扱うときにまさにそうすべきだからです。

AI の非決定性、幻覚、そして...猫？

長すぎる; 読むには

決定論と確率論

ニューラルネットワークの概要