著者:
(1) IBM Research、Vijay Ekambaram、
(2) アリンダム・ジャティ、IBM Research。
(3)ナム・H・グエン、IBMリサーチ
(4)IBMリサーチのパンカジ・ダヤマ氏
(5)チャンドラ・レディ、IBMリサーチ
(6)ウェスリー・M・ギフォード、IBMリサーチ
(7)ジャヤント・カラグナナム、IBMリサーチ
編集者注: これは、優れた精度を実現する小型で高速な AI モデルの開発を詳述した研究の 5 部構成の第 1 部です。続きは以下をご覧ください。
3 TTMワークフローと3.1 事前トレーニングワークフロー
ゼロ/少数ショット学習用の大規模な事前トレーニング済みモデルは、言語および視覚領域では優れていますが、公開されている事前トレーニング データの多様性と不足のため、多変量時系列 (TS) では課題に直面します。その結果、TS 予測にトークン適応を備えた事前トレーニング済みの大規模言語モデル (LLM) を利用することが最近急増しています。これらのアプローチは、クロスドメイン転移学習を採用しており、驚くほど印象的な結果をもたらします。ただし、これらのモデルは通常、非常に低速で大規模 (約 10 億のパラメーター) であり、クロスチャネル相関を考慮していません。この問題に対処するために、軽量の TSMixer アーキテクチャに基づく非常に小さなモデルである Tiny Time Mixers (TTM) を紹介します。TTM は、予測のための効果的な転移学習機能を備えた、公開されている TS データセットでのみトレーニングされた、高速で小さな一般的な事前トレーニング済みモデル (≤100 万パラメーター) の開発に初めて成功したものです。時間解像度が異なる複数のデータセットでの事前トレーニングの複雑さに対処するために、適応パッチ、ダウンサンプリングによるデータセットの拡張、解像度プレフィックスのチューニングなど、いくつかの新しい機能強化を導入しました。さらに、マルチレベルモデリング戦略を採用して、チャネル相関を効果的にモデル化し、微調整中に外生信号を注入します。これは、既存のベンチマークに欠けている重要な機能です。TTM は、少数/ゼロショット予測において、一般的なベンチマークよりも大幅な精度向上 (12~38%) を示しています。また、LLM-TS 方法と比較して、学習可能なパラメーターが 14 分の 1 に削減され、合計パラメーターが 106 分の 1 に減り、微調整 (65 分の 1) と推論時間 (54 分の 1) が大幅に短縮されるため、計算の必要性が大幅に削減されます。実際、TTM のゼロショットは、多くの一般的なベンチマークで少数ショットの結果を上回ることが多く、私たちのアプローチの有効性を浮き彫りにしています。モデルとソースコードは、https://huggingface.co/ibm/TTM で入手できます。
多変量時系列(TS)予測では、複数の関連する時系列の将来の値を、それらの履歴データに基づいて予測します。この分野は大きく進歩しており、天気、交通、小売、エネルギーなどの分野に統計的および機械学習(ML)手法を適用しています[Hyndman and Athanasopoulos、2021]。一般に、各時系列は変数またはチャネルを表します[1]。特定のアプリケーションでは、制御可能な外部要因と制御不可能な外部要因として分類される予測不可能な変数が、予測する変数に影響を与えます。これらの予測不可能な変数を外生変数、予測を必要とする変数をターゲット変数と呼びます。
関連研究:多変量予測における最近の進歩は、PatchTST [Nie et al., 2023]、Autoformer [Wu et al., 2021]、Informer [Zhou et al., 2021]、FEDFormer [Zhou et al., 2022]などのモデルに代表されるトランスフォーマーベース [Vaswani et al., 2017] のアプローチの出現によって特徴づけられています。これらのモデルは、従来の統計手法や ML 手法に比べて顕著な改善を示しています。さらに、MLPMixer [Tolstikhin et al., 2021] に基づくアーキテクチャ、たとえば TSMixer [Ekambaram et al., 2023] は、効率的なトランスフォーマーの代替として登場しており、同等のトランスフォーマーと比較して、精度を犠牲にすることなく、計算とメモリの要件が 2 ~ 3 倍削減されています。しかし、これらの高度なアプローチのいずれも、NLP やビジョン タスクでよく見られるのと同様に、学習を目に見えないターゲット TS データセットに正常に転送できる一般的な事前トレーニング済みモデルを作成する能力を実証していません。これは、アプリケーション間でデータセットが多様であることと、事前トレーニング用の TS データの公開が限られているため、TS ドメインでは非常に困難です。マスク モデリングと対照学習手法を使用した自己教師あり事前トレーニング TS アプローチが既に存在し、SimMTM [Dong et al., 2023] や TF-C [Zhang et al., 2022] など、データセットのプロパティに基づいて慎重に選択された 2 つのデータセット間の転送学習を提供します。ただし、データセット間での普遍的な転送学習機能を提供することはできません。その結果、TS 予測をクロスドメイン転送学習タスクとして扱い、事前トレーニング済みの大規模言語モデル (LLM) を TS 予測に採用する傾向が最近高まっています。これらの普遍的なクロストランスファーアプローチ、特にLLMTime [Gruver et al., 2023]やGPT4TS [Zhou et al., 2023]などの最近の研究は、少数/ゼロショット予測アプローチで有望な結果をもたらします。これらのモデルは、時系列ドメインに適応するための適切なトークン化戦略を使用して、GPT-2/3またはLLAMA-2からブートストラップされます。
しかし、これらの LLM ベースの TS アプローチは、多変量予測のコンテキストでチャネル相関と外生的サポートを明示的に処理しません。さらに、数十億のパラメーターを持つこれらの大規模なモデルは、かなりの計算リソースと実行時間を必要とします。したがって、この論文では、TS データのみを使用して、事前トレーニング済みモデルをゼロから構築することに焦点を当てています。テラバイト単位の公開事前トレーニングデータが豊富にある言語とは異なり、時系列データは比較的少なく、非常に多様で、公開が限られています。その希少性により、時系列データのみで「大規模な」モデルを事前トレーニングすると、過剰適合が発生します。これにより、次のような疑問が生じます。限られた公開の多様な TS データセットでのみ事前トレーニングされた小規模なモデルは、ゼロ/少数ショットの予測精度を向上させることができますか? 驚くべきことに、答えはイエスです。これに向けて、我々は、転移学習による効果的なゼロ/少数ショットの多変量TS予測のために多様なTSコーパスで排他的にトレーニングされた、軽量TSMixerアーキテクチャに基づく大幅に小さいモデル(≤1Mパラメータ)であるマルチレベルTiny Time Mixers(TTM)を提案します。
特に、TTMは、モナッシュデータリポジトリ[2] [Godahewa et al., 2021] からの複数の公開データセット(約2億4,400万サンプル)を使用して事前トレーニングされています。データセットは、異なるドメイン、時間解像度[3](1秒から1日まで)、長さ、チャネル数などの特性の点でかなりの多様性を示していることに注意してください。このような異種データセットの事前トレーニングは、TSMixerまたは既存の最先端(SOTA)モデルでは直接処理できません。したがって、TTMはTSMixerアーキテクチャに次の機能強化を提案しています:(i)異なるデータセットに対するパッチ長のさまざまな適合性を考慮したレイヤー間の適応パッチング、(ii)異なる解像度にわたるカバレッジとサンプルを増やすためのダウンサンプリングによるデータセット拡張、(iii)解像度情報を最初のパッチに明示的に埋め込み、解像度条件付きモデリングを容易にする解像度プレフィックスチューニング。これは、履歴長が短いシナリオで特に有益です。さらに、私たちのアプローチは、TTMが最初にチャネルに依存しない方法で事前トレーニングされ、その後微調整中にチャネルミキシングをシームレスに統合して、ターゲットデータ固有のチャネル相関と外因性注入をモデル化するマルチレベルモデリングを活用します。
以下に、この論文の主な貢献を概説します。
• 大規模な事前トレーニング済みモデルが普及し、かなりの計算時間とトレーニング時間 (数週間単位) を必要とする中、私たちの研究は、わずか数時間 (4~8 時間、6 つの A100 GPU) で、パブリック TS データセットのみでトレーニングされた高速で小さな事前トレーニング済みモデル(≤100 万パラメータ) を構築する有効性を示す初めての研究です。TTM は、ゼロ/少数ショット予測のための多様で目に見えないターゲット データセットへの転移学習を成功裏に実証し、時系列で一般的なデータ不足の問題に対処します。
• 異種のマルチ解像度データセットの事前トレーニングは、TSMixer や他の SOTA モデルでは効果的に処理できません。そのため、適応パッチ、ダウンサンプリングによるデータ拡張、(オプションの) 堅牢な事前トレーニングのための解像度プレフィックスのチューニングなど、さまざまなアーキテクチャとトレーニングの強化を提案します。
• TTM は、チャネル相関を明示的にモデル化するためにマルチレベル モデリング戦略を採用し、外生信号を組み込みます。これは、LLM ベースの TS アプローチには欠けている重要な機能です。
• 11 のデータセットで広範囲に評価した結果、TTM は一般的なベンチマークに比べて大幅な精度向上を示しました (少数/ゼロショット予測で 12 ~ 38%)。また、LLM-TS 方式と比較して計算要件が大幅に削減され、学習可能なパラメータが 14 分の 1 に、合計パラメータが 106 分の 1 に削減され、微調整 (65 分の 1)、推論時間 (54 分の 1)、メモリ使用量 (27 分の 1) が大幅に削減されました。 • TTM のゼロショットの結果は、多くの SOTA アプローチの少数ショットの結果を上回ることが多く、このアプローチの有効性が強調されています。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。
[1] 「チャネル」とは、多変量データ内の個々の時系列を指します(つまり、多変量TSはマルチチャネル信号です)。
[2] https://forecastingdata.org/からアクセス可能
[3] 解像度とは、入力時系列のサンプリングレートを指します(例:1時間ごと、10分ごと、15分ごとなど)。