さて、ChatGPT がリリースされてから 1 年以上が経過しました。この転換点の前に、研究コミュニティと業界のリーダーはすでに、特にコンピューター ビジョンの分野で生成 AI に積極的に取り組んでおり、一連の安定した普及に関する発見と応用が行われていました。簡単に要約すると、2022 年は安定した普及の年、2023 年は大規模言語モデル (LLM) の年と考えることができます。
2023 年の初めは LLM の優位性を示し、ChatGPT が広範な導入とイノベーションの先頭に立っていました。今年は、LLM がさまざまな分野に浸透し、理論研究と実際の産業応用の間のギャップを効果的に埋めることができました。 2023 年の LLM の状況を形作った主要なマイルストーンとトレンドを探ってみましょう。また、それらが私たちのテクノロジーとの関わり方にどのような変革をもたらしたのかについても洞察してみましょう。
オープンソース LLM の年
2023 年は、オープンソースの大規模言語モデル (LLM) にとって注目に値する年となりました。最も重要なリリースは Meta の LLaMa シリーズで、その後の頻繁なリリースの前例となり、毎月、毎週、時には毎日新しいモデルが登場しました。 Meta、EleutherAI、MosaicML、TIIUAE、StabilityAI などの主要企業は、公開データセットでトレーニングされたさまざまなモデルを導入し、AI コミュニティ内の多様なニーズに応えています。これらのモデルの大部分はデコーダのみのトランスフォーマーであり、ChatGPT によって確立された傾向を継続しています。今年発売された注目のモデルをいくつかご紹介します。
LLaMa by Meta: LLaMa ファミリーにはさまざまなサイズのモデルがあり、最大のモデルは 650 億のパラメーターを誇り、1 兆 4000 億のトークンでトレーニングされています。特に、小規模なモデル、特に 1 兆のトークンでトレーニングされた 130 億のパラメーターを持つモデルは、より多くのデータでトレーニング期間を延長することで優れたパフォーマンスを示し、一部のベンチマークでは大規模なモデルを上回りました。 13B LLaMa モデルは、ほとんどのベンチマークで GPT-3 を上回り、最大のモデルはリリース時に新しい最先端のパフォーマンス ベンチマークを打ち立てました。Eleuther AI による Pythia: Pythia は、154 の部分的にトレーニングされたチェックポイントを備えた 16 のモデルのスイートで構成されており、オープンにアクセスでき、透過的にトレーニングされた LLM に関する管理された科学的研究を促進するように設計されています。このシリーズは、LLM をトレーニングするための詳細な論文と包括的なコードベースを提供することで、研究者を大いに支援します。MosaicML による MPT そしてTIIUAE の Falcon シリーズ: どちらも、1T から 1.5T トークンまでの多様なデータ ソースでトレーニングされ、7B および 30B パラメーターを備えたバージョンを生成しました。特に、今年の後半に、TIIUAE はこれまで最大のオープンソース モデルである 180B モデルをリリースしました。ミストラル 、ファイ そしてシャチ :これらのモデルは、限られたハードウェアと予算の制約に適した、より小型で効率的なモデルのトレーニングに焦点を当てた、2023 年の別のトレンドを浮き彫りにし、AI モデル開発におけるアクセシビリティと実用性への大きな移行を示しています。
小型で効率的なモデル
2023 年には、小型で効率的なモデルが数多くリリースされることになります。この傾向の主な理由は、ほとんどの研究グループにとって大規模モデルのトレーニングにかかるコストが法外に高いことです。さらに、大規模なモデルは、トレーニングと展開のコストが高くつき、メモリと計算能力も大量に必要となるため、多くの実世界のアプリケーションには適さないことがよくあります。したがって、小型で効率的なモデルが今年の主なトレンドの 1 つとして浮上しました。前述したように、ミストラル シリーズとオルカ シリーズはこの傾向の中心人物です。 Mistral は、ほとんどのベンチマークで大型モデルを上回る 7B モデルでコミュニティを驚かせましたが、Phi シリーズはさらに小型でパラメータが 1.3B ~ 2.7B しかありませんが、それでも印象的なパフォーマンスを実現します。
もう一つの革新的なアプローチは、
小規模で効率的なモデルの成功は、データの品質と迅速な注意のコツに大きく依存します。ミストラルはトレーニング データの詳細を明らかにしていませんが、効果的なモデルをトレーニングするにはデータの品質が重要であることがさまざまな研究やモデルで示されています。今年最も注目すべき発見の一つは、
低ランク適応チューニング
さて、話しましょう
LoRA は基本的に、事前トレーニングされたモデルの重みを凍結し、トレーニング可能な層 (ランク分解行列) を注入します。これらの行列はコンパクトでありながら、モデルの動作に必要な適応を近似できるため、元のモデルの知識の完全性を維持しながら効率的な微調整が可能になります。 LoRA の最も頻繁に使用される亜種の 1 つは次のとおりです。
専門家の混合
の
昨年リリースされた最も注目すべき MoE モデルの 1 つは、
言語から一般基礎モデルまで
LLM は汎用基盤モデルに進化しており、その機能は言語処理を超えて拡張されています。この移行は、テキストだけでなくコード、ビジュアル コンテンツ、オーディオなどを理解して生成できるモデルへの移行を意味します。昨年、次のようなモデルが導入されました。
ツールを装備したエージェント
LLM とさまざまなツールやプラットフォームの統合により、AI がよりアクセスしやすく、日常的に使用できるようになります。これらのツールを備えたエージェントは、コーディング支援からクリエイティブライティングに至るまで、特定のタスクに合わせて調整されており、AI は多くのプロフェッショナルなワークフローに不可欠な要素となっています。この開発は、LLM の推論能力と行動能力によって可能になりました。このタイプの機能は、多くの場合、関数呼び出しと呼ばれます。
OpenAI は依然として業界の状況を支配している
OpenAI は引き続き業界を支配し、研究と応用の面でリーダーシップを維持しています。 GPT-4と新しい
結論
2023 年は、大規模言語モデル (LLM) の分野で大きな成長と革新の時期を迎えました。オープンソース モデルによる AI の民主化から、より効率的で特化したシステムの開発に至るまで、これらの進歩は単なる技術的な偉業ではなく、AI をよりアクセスしやすく、さまざまな領域に適用できるようにするための一歩でもあります。将来を見据えると、これらのテクノロジーが産業を変革し、人間の能力を向上させる可能性は、引き続き刺激的な見通しです。 2024 年には、Meta が LLaMA-3 をトレーニングする計画を発表し、それをオープンソース化する計画があるなど、さらに注目に値するマイルストーンが期待されています。業界の状況では、Google のような巨大企業や Anthropic のような新興企業が OpenAI を超えることができるかどうかにも強い関心が寄せられています。
その他の記事については、私の個人ブログにアクセスして購読してください。