AI は、かなり長い間、技術愛好家や業界の専門家の注目を集めてきました。この記事では、AI の進化について詳しく調べ、AI がもたらす問題と、今後出現する新たなトレンドを明らかにします。
AI テクノロジーの急激な成長を目の当たりにすると、その潜在的メリットを最大化するために、その機能を包括的に理解することがますます重要になります。この複雑な領域を掘り下げて、ELEKS のデータ サイエンス オフィスの責任者である Volodymyr Getmanskyi 氏が、このトレンドのトピックに関する洞察と専門知識を共有します。
まず、生成 AI は AI 分野の一部です。AI は主に人間のタスクの自動化や最適化に重点を置いていますが、生成 AI はさまざまなオブジェクトの作成に重点を置いています。会話型または意思決定エージェントの構築、インテリジェントな自動化、画像認識と処理、翻訳などの一般的な AI タスクは、GenAI で強化できます。テキストやレポート、画像やデザイン、音声や音楽などを生成できます。
その結果、生成 AI を日常のタスクやワークフローに統合することが、ますますシームレスかつ効果的になりました。どのタイプのデータ生成が最も人気があるのか疑問に思う人もいるかもしれません。しかし、答えは簡単ではありません。
マルチモーダル モデルでは、多様な入力に基づいて異なるタイプのデータを生成できます。したがって、使用統計があったとしても、生成されるデータの中で最も人気のあるタイプを特定するのは困難です。ただし、現在のビジネス ニーズに基づくと、大規模言語モデルが最も人気があります。
これらのモデルは、テキスト情報と数値情報の両方を処理でき、質問への回答、テキスト変換 (翻訳、スペルチェック、エンリッチメント)、レポートの生成などのタスクに使用できます。この機能は、あまり一般的ではない画像やビデオの生成とは異なり、さまざまな業界の企業の運用活動の重要な部分を占めています。
大規模言語モデル (LLM) は巨大なトランスフォーマーであり、ディープラーニング モデルの一種、簡単に言えば特定のニューラル ネットワークです。一般的に、LLM には 80 億から 700 億のパラメーターがあり、膨大な量のデータでトレーニングされます。たとえば、最大のデータセットの 1 つである Crawl には、過去 10 年間の Web ページと情報が含まれており、そのデータ量は数十ペタバイトに上ります。
全体像を把握するために、タイタニック号の沈没事故で生き残った乗客を記述した約 900 個のサンプルで構成されるタイタニック データセットのサイズは 1 MB 未満であり、生存確率を効率的に予測できるモデルには約 25 ~ 100 個のパラメーターが含まれる可能性があります。
LLM にも長い歴史があり、突然現れたわけではありません。たとえば、ELEKS データ サイエンス部門は 2019 年に応答生成に GPT-2 を使用しましたが、最初の GPT (生成的事前トレーニング済みトランスフォーマー) モデルは 2018 年にリリースされました。ただし、テキスト生成モデルが初めて登場したのはそのときではありませんでした。2017 年にトランスフォーマー時代が始まる前には、テキスト生成などのタスクはさまざまなアプローチを使用して対処されていました。たとえば、次のようになります。
2013 年には、word2vec のような効率的なベクトル単語埋め込みが提案され、さらに前世紀には、1964 年の Eliza チャットボットのような確率的およびパターンベースの生成の例がありました。つまり、自然言語生成 (NLG) のタスクと試みは長年にわたって存在してきたことがわかります。
ChatGPT、GPT、Gemini、Copilot、Claude などの現在の LLM ユーザーのほとんどは、OpenAI がパブリック アクセスを提案して宣伝した InstructGPT の最初のリリース後ほど結果が期待できなかったため、これに気付いていない可能性があります。2022 年 11 月の ChatGPT の最初のリリースに続いて、ソーシャル メディアで何百万もの言及を受けました。
現在、AIコミュニティはAIのリスクとコンプライアンスの必要性について意見が分かれており、AI規制と安全管理を主張する人もいれば、反対する人もいます。批評家の一人であるMeta(Facebook)AIのチーフであるヤン・ルカン氏は、そのようなAIエージェントは犬ほどの知能さえ持っていないと述べています。
Meta AI グループ (旧 Facebook AI Research) は、Detectron、Llama、SegmentAnything、ELF など、無料で公開されている AI モデルの開発者の 1 つであり、これらのモデルは、商業的な制限はあるものの、自由にダウンロードして使用できます。オープン アクセスは、世界中の AI コミュニティから確実に好意的に受け入れられています。
これらのシステムはまだ非常に限られています。純粋にテキスト、膨大な量のテキストに基づいてトレーニングされているため、現実世界の根底にある現実をまったく理解していません。
— Meta のチーフ AI サイエンティスト、ヤン・ルカン氏
当局者らも規制に関する懸念を表明している。例えば、フランスのエマニュエル・マクロン大統領は、人工知能の開発に取り組むために制定された画期的なEU法は、米国、英国、中国のライバル企業に比べて、欧州のテクノロジー企業に悪影響を及ぼす恐れがあると警告した。
一方、AI規制を支持する人々もいる。テスラのCEO、イーロン・マスク氏によると、AIは文明の未来にとって最大のリスクの1つだという。これは非公開/有償のAI代表者の場合も同じだが、この場合、このような立場の本当の刺激は市場競争、つまり競合するAIモデルの普及を制限することである。
2023年、EU議会は、欧州連合内でのAI技術の使用を規定する初の包括的な規則であるAI法を可決しました。この法律は、責任ある倫理的なAIの開発と実装の先例となります。
EU AI法が取り組む主な問題:
モデルの準備、使用、その他の非表示アクティビティに関連する問題や懸念事項は数多くあります。たとえば、モデルのトレーニングに使用されるデータは、そのような目的のために承認されていない個人データで構成されています。グローバルプロバイダーは、非公開モードでのモデルのトレーニングに使用できるプライベート通信(電子メール)やその他のプライベートアセット(写真、ビデオ)に焦点を当てたサービスを提供しています。
最近、テキストクエリに基づいてビデオを生成する非公開の OpenAI サービスである SORA トレーニングでのプライベート ビデオの使用に関して OpenAI の CTO に質問がありましたが、明確な回答が得られませんでした。
もう 1 つの問題は、データのラベル付けとフィルタリングに関連している可能性があります。関与する専門家の個人的特徴、スキル、固定観念、知識は不明であり、これによりデータに望ましくない発言やコンテンツが取り込まれる可能性があります。また、倫理的な問題もありました。世界的な GenAI プロバイダーの一部がケニアのラベル付け担当者を関与させ、低賃金で雇っているという情報がありました。
モデルバイアスや、モデルが一見完璧に見える間違った、あるいは部分的に間違った答えを出す、いわゆるモデル幻覚も問題です。最近、ELEKS データ サイエンス チームは、モデルにいくつかのデータを示し、モデルがそのデータに基づいて要約したり答えを出したりする、お客様の検索拡張生成 (RAG) ソリューションの改善に取り組んでいました。
その過程で、私たちのチームは、多くの最新のオンライン モデル (大規模だが有料) またはオフライン モデル (小規模で公開) が企業名と番号を混同していることに気付きました。
数社の財務諸表と監査情報を含むデータがあり、会社 A の収益を表示するよう要求されました。しかし、会社 A の収益はデータで直接提供されておらず、計算する必要がありました。LLM Arena ベンチマークのリーダーを含むほとんどのモデルは、会社 B に属する間違った収益レベルを応答しました。このエラーは、「Ltd」、「Service」など、会社名の文字の組み合わせが部分的に類似しているために発生しました。
ここでは、プロンプト学習も役に立ちませんでした。「自信がない場合や情報が不足している場合は、わからないと答えてください」などの文言を追加しても、問題は解決しませんでした。
もう 1 つは数値表現に関するものです。LLM は数値をトークンとして認識します。たとえば、バイトペア エンコーディング アプローチでは、0.33333 は「0.3」や「3333」としてエンコードされる可能性があるため、追加のアダプターなしでは複雑な数値変換を処理するのは困難です。
最近、元米陸軍大将のポール・M・ナカソネ氏がOpenAIの取締役に任命されたが、これはさまざまな反応を引き起こしている。一方では、サイバーセキュリティとインテリジェンスにおけるナカソネ氏の豊富な経験は、AIの研究開発に取り組む企業にとって極めて重要な、サイバー攻撃に対する強力な防御戦略を実行する可能性が高い重要な資産とみなされている。
一方、中曽根氏の軍事・諜報関係の経歴(国家安全保障局(NSA)および米サイバー軍の元長官)による任命が、政府による監視や介入の強化につながる可能性を懸念する声もある。
懸念されるのは、中曽根氏が政府機関による OpenAI のデータやサービスへのより広範なアクセスを容易にする可能性があることだ。そのため、この任命がサービス、データ、政府機関によるリクエストの利用、そしてサービス自体の制限の両方に影響を及ぼすのではないかと懸念する人もいる。
最後に、生成されたコードの脆弱性、矛盾した提案、不適切な使用(試験に合格したり、爆弾の作成方法の指示を受けたりすること)など、その他の懸念事項もあります。
まず、LLM の使用が必要かどうか、またそれが一般的な基礎モデルであるべきかどうかを判断することが重要です。場合によっては、目的と分解されたタスクはそれほど複雑ではなく、スペルミス、パターンベースの生成、解析/情報検索などのより単純なオフライン モデルで解決できます。さらに、一般的なモデルは、LLM 統合の目的とは関係のない質問に答えることができます。
同社が追加のアダプタ(プリプロセッサとポストプロセッサ)なしでオンライン LLM 統合(GPT、Gemini など)を推奨し、予期しない動作に遭遇した例があります。たとえば、ユーザーがカーディーラーのチャットボットに、ナビエ・ストークス流体方程式を解く Python スクリプトを作成するように依頼したところ、チャットボットは「もちろんです。やります」と答えました。
次に、どの LLM を使用するかという問題が出てきます。パブリックでオフラインか、有料でオフラインかです。決定は、タスクの複雑さとコンピューティングの可能性によって異なります。オンラインおよび有料モデルはサイズが大きく、パフォーマンスも優れていますが、オフラインおよびパブリック モデルはホスティングに多額の費用がかかり、多くの場合、少なくとも 40 GB の VRAM が必要です。オンライン モデルを使用する場合は、プロバイダーと共有する機密データを厳密に管理することが不可欠です。
通常、このような場合、クエリを大幅に変更せずに財務の詳細や個人的な契約などの個人情報や機密情報を削除してコンテキストを維持し、必要に応じて企業の規模やおおよその所在地などの情報を残すことができる前処理モジュールを構築します。
モデルのバイアスを減らして幻覚を避けるための最初のステップは、適切なデータまたはコンテキストを選択するか、候補をランク付けすることです (例: RAG)。場合によっては、ベクトル表現や、コサイン類似度などの類似度メトリックが効果的でないことがあります。これは、「no」という単語の存在や名前のわずかな違い (例: Oracle と Orache) などの小さな変化が、大きな影響を与える可能性があるためです。
後処理に関しては、信頼性が低い場合に「わからない」と応答するようにモデルに指示し、モデルの応答の精度をチェックする検証アダプターを開発することができます。
LLM の分野には数多くの研究分野があり、毎週新しい科学論文が発表されています。これらの論文は、トランスフォーマー/LLM の最適化、堅牢性、効率性 (モデルのサイズやパラメータ数を大幅に増やさずに一般化する方法など)、一般的な最適化手法 (蒸留など)、入力 (コンテキスト) の長さを増やす方法など、さまざまなトピックをカバーしています。
さまざまな方向性の中で、最近の注目すべきものとしては、トークンの混合、専門家の混合、深さの混合、思考のスケルトン、RoPE、思考の連鎖プロンプトなどがあります。それぞれが何を意味するのか簡単に説明しましょう。
Mixture-of-experts (MoEs) は、別のトランスフォーマー アーキテクチャです。通常、このアーキテクチャには、異なる知識を表す複数 (Mixtral では 8 つ) または多数の高密度/平坦化されたレイヤーで構成される動的レイヤーがあります。このアーキテクチャには、スイッチまたはルーティング メソッドが含まれます。たとえば、どのトークンをどのエキスパートが処理するかを選択できるゲーティング機能により、トークンまたはトークン グループあたりのレイヤー (「エキスパート」) の数が 1 つのエキスパート (スイッチ レイヤー) に削減されます。
これにより、効率的なモデルスケーリングが可能になり、入力部分に異なるサブモデル (エキスパート) を使用することでパフォーマンスが向上し、1 つの一般的なさらに大きなレイヤーを使用するよりも効果的になります。
トークンの混合は前述の専門家の混合と関連しており、特定の専門家に対するトークンをその重要度 (ソフトマックス活性化) によってグループ化します。
Mixture-of-depth技術は、特にルーティングの点で、前述の MoE にも関連しています。コンピューティング グラフ (コンピューティング バジェット) を減らし、アテンション メカニズムで使用される上位トークンに制限することを目的としています。特定のシーケンスで重要度が低いと判断されたトークン (句読点など) はスキップされます。これにより、トークンの参加が動的になりますが、トークンの k (上位 k トークン) 数は静的であるため、コンピューティング バジェット (または選択した k) に応じてサイズを減らすことができます。
思考のスケルトンはLLM スケーリングに効果的であり、並列化可能なポイントで構成される主要なスケルトン要求に基づいて、完了 (モデル応答) の部分を並列に生成できます。
他にも課題はあります。たとえば、入力サイズです。ユーザーは多くの場合、パラメータの数を変えずに、LLM に大量の情報 (場合によっては書籍全体) を提供したいと考えています。ここでは、ALiBi (Attention Layer with Linear Biases)とRoPE (Rotary Position Embedding) という2 つの既知の方法を紹介します。これらは、動的な位置エンコーディングとスケーリング係数を使用して入力埋め込みを外挿 (場合によっては補間) できるため、ユーザーはトレーニングに使用されたコンテキストの長さと比較してコンテキストの長さを増やすことができます。
連鎖思考プロンプトは、少数ショットプロンプト (ユーザーがコンテキスト内で LLM の監督を行う) の例であり、質問を複数のステップに分解することを目的としています。主に、ロジックを何らかの計算計画に分割できる場合など、推論問題に適用されます。元の論文の例: 「ロジャーは 5 個のテニス ボールを持っています。彼はさらに 2 缶のテニス ボールを購入します。各缶には 3 個のテニス ボールが入っています。現在、彼はいくつのテニス ボールを持っていますか? 思考計画: ロジャーは 5 個のボールから始めました。3 個のテニス ボールが入った 2 缶は 6 個のテニス ボールです。5 + 6 = 11。答えは 11 です。」
それ以外にも多くの方向性があり、毎週、それらに関する重要な新しい論文がいくつか発表されます。データ サイエンティストにとって、これらすべての課題と成果を追跡することは、時にはさらなる問題となります。
また、多くのトレンドもあります。要約すると、AI 規制が強化され、さまざまなソリューションが制限され、最終的に利用可能なモデルの一般化またはフィールド カバレッジが制限される可能性があります。その他のトレンドは、主に既存のアプローチの改善に関するもので、たとえば、必要なパラメーター数とメモリの削減 (量子化や 1 ビット LLM など、各パラメーターが 3 値 (-1、0、1 の値を取ることができる)) などです。
したがって、オフライン LLM または Diffusion Transformers (DiT - 最新の Diffusion モデルと Visual Transformers の後継 (主に画像生成タスク用)) が携帯電話でも実行されることが期待できます (現在では、Microsoft の Phi-2 モデルなど、最新の Snapdragon ベースの Android デバイスで生成速度が 1 秒あたり約 3 ~ 10 トークンである例がいくつかあります)。
また、より高度なパーソナライゼーション(以前のユーザー エクスペリエンスとフィードバックをすべて使用して、より適切な結果を提供する)やデジタル ツインまでもが実現されます。アシスタント/モデルのカスタマイズとマーケットプレイス、すべてに対応する 1 つのモデル(マルチモーダル ディレクション)、セキュリティ(個人データの処理やエンコードなどを行うためのより効率的なメカニズム)など、現在利用可能な他の多くの機能も改善されます。
ビジネスで AI の可能性を解き放つ準備はできていますか? ELEKS の専門家にお問い合わせください。