メモリを消耗せずに AI モデルを高速化する方法

本研究では、単一コンテキストのバッチサンプリングコンテキストでの言語モデル推論用に開発された手法である、分岐注意を紹介します。このアプローチの目的は、高バッチサイズと長いコンテキスト長のレイテンシの重要な要因である冗長メモリ IO コストを削減することです。分岐注意は、増分デコード中の注意メカニズムを 2 つの異なる GEMM 操作に分割し、プレフィルからの KV キャッシュとデコードプロセスに重点を置くことでこれを実現します。この方法は、正確な計算を保証し、標準的な注意メカニズムの通常の計算負荷 (FLOP) を維持しながら、メモリ IO を削減します。分岐注意は、KV キャッシュのメモリ IO が削減されることで知られるマルチクエリ注意メカニズムとも互換性があり、バッチサイズとコンテキスト長をさらに大きくすることができます。結果として得られる効率によってレイテンシが短縮され、リアルタイムアプリケーションへの適合性が向上します。たとえば、レイテンシを大幅に増やすことなく超並列の回答生成が可能になり、再ランク付けなどの後処理技術と統合した場合のパフォーマンスが向上します。

1. はじめに

大規模言語モデル (LLM) の出現により、機械学習の新しい時代が到来し、幅広いタスクで目覚ましいパフォーマンスを発揮しています (Brown ら、2020 年、OpenAI、2023 年、Chowdhery ら、2022 年、Touvron ら、2023 年、Chen ら、2021 年、Hoffmann ら、2022 年、Li ら、2022 年、Microsoft、Amazon、2022 年、Nijkamp ら、2023 年)。これらの大規模モデルは優れた機能を備えているものの、実際のアプリケーションに導入するには、特に推論の遅延と効率の点で大きな課題があります。これらの側面を強化することは、予測を生成するために必要な計算リソースに直接影響し、さまざまな業界でこれらの高度なモデルの実用的な実装を可能にするため、非常に重要です。

特に要求の厳しい推論シナリオは、単一コンテキストのバッチサンプリングです。このシナリオでは、単一のコンテキストから複数の補完を生成することが目標です。このタスクは、複数の推奨事項を提供するコード編集 IDE ツールなどの多数のアプリケーションや、最適なパフォーマンスを得るために多くの世代間でのランキングが必要な場合 (平均ログ確率、多数決などのランキングメトリックを使用) など、多くのアプリケーションでよく発生します。このようなサンプリングシナリオの増分デコードは、メモリ IO を大量に消費するため、バッチやコンテキストの長さが長い場合にレイテンシのボトルネックになります。

本研究では、トランスフォーマー推論におけるメモリIOの課題に対処するために、(1)マルチクエリとそのトレードオフの調査、(2)コンテキスト認識型分岐注意と呼ばれる新しい手法という2つの互換性のある戦略を調査します。

私たちの調査は、パフォーマンスとレイテンシのトレードオフのために、マルチクエリ (Shazeer、2019) と確立されたマルチヘッドアテンションメカニズム (Vaswani ら、2017) を含む一般化マルチクエリアテンション (Ainslie ら、2023) の分析から始まります。私たちの調査結果は、一般化マルチクエリ [1] のグループ数 g の固定値に対して、モデルサイズの増加とともにパフォーマンスがスムーズにスケーリングされることを示しています。g を下げると、検証損失とモデルサイズのスケーリングカーブが上方にシフトします。キャッシュ圧縮、モデルサイズ、検証損失の間に一貫した関係があるため、推論効率とモデルサイズのトレードオフが可能です。つまり、高効率が求められるユースケースではより高い圧縮を選択しながら、より大きなモデルサイズで補うことでマルチヘッドアテンションのパフォーマンスに一致させることができます。

次に、コンテキスト認識型分岐アテンションを紹介します。これは、増分デコード中に、一般化マルチクエリファミリ内のアテンションをコンテキストとデコードコンポーネントに分岐する手法です。このような分岐には、元のアテンションと比較して同じ数の FLOP が含まれ、同じ結果が得られますが、メモリ IO コストが大幅に削減され、バッチとコンテキストの長さが長いシナリオでのレイテンシも大幅に削減されます。このアプローチにより、追加のレイテンシコストをあまりかけずに複数のリアルタイム補完を生成したり、バッチサイズを大幅に大きくしてランキングパフォーマンスを改善したりできます。たとえば、コンテキスト長が 2k の CodeGen 16B マルチヘッドモデル (Nijkamp 他、2022) の場合、分岐注意を使用するとバッチサイズを 128 に増やすことができますが、分岐注意を使用しない場合はバッチサイズが 5 にしかならず、pass@k (Chen 他、2021) が 59.0% から 84.6% に増加し、平均 log-p による pass@top3 が 55.2% から 58.1% に増加します。

この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。

[1] アテンショングループgの値が小さいほど、g = 1のマルチクエリの場合と同様にキー値テンソルの圧縮率が高くなり、g = h（クエリアテンションヘッドの数）のマルチヘッドの場合と比較してKVキャッシュが減少するため推論効率とレイテンシが向上します。

メモリを消耗せずに AI モデルを高速化する方法

長すぎる; 読むには

リンク一覧

抽象的な

1. はじめに

About Author

ラベル

この記事は...

Categories

Trending Topics

メモリを消耗せずに AI モデルを高速化する方法

長すぎる; 読むには

リンク一覧

抽象的な

1. はじめに

About Author

ラベル

この記事は...

関連ストーリー

Categories

Trending Topics