Auteurs:
(1) Vijay Ekambaram, Recherche IBM ;
(2) Arindam Jati, Recherche IBM ;
(3) Nam H. Nguyen, IBM Research;
(4) Pankaj Dayama, IBM Research;
(5) Chandra Reddy, IBM Research;
(6) Wesley M. Gifford, IBM Research;
(7) Jayant Kalagnanam, IBM Recherche.
Note de l'éditeur : il s'agit de la première partie d'une étude sur cinq détaillant le développement d'un modèle d'IA minuscule et rapide offrant une excellente précision. Lisez la suite ci-dessous.
3 workflows TTM et 3.1 workflows de pré-formation
5 Conclusions et travaux futurs, et références
Les grands modèles pré-entraînés pour l'apprentissage à zéro/petit nombre de coups excellent dans les domaines du langage et de la vision, mais rencontrent des difficultés dans les séries temporelles multivariées (TS) en raison de la nature diverse et de la rareté des données de pré-formation disponibles au public. Par conséquent, il y a eu une augmentation récente de l'utilisation de grands modèles de langage pré-entraînés (LLM) avec des adaptations de jetons pour la prévision des TS. Ces approches utilisent l'apprentissage par transfert inter-domaines et donnent des résultats étonnamment impressionnants. Cependant, ces modèles sont généralement très lents et volumineux (environ un milliard de paramètres) et ne prennent pas en compte les corrélations entre canaux. Pour résoudre ce problème, nous présentons Tiny Time Mixers (TTM), un modèle significativement petit basé sur l'architecture légère TSMixer. TTM marque le premier succès dans le développement de modèles généraux pré-entraînés rapides et minuscules (≤1M paramètres), formés exclusivement sur des ensembles de données TS publics, avec des capacités d'apprentissage par transfert efficaces pour la prévision. Pour faire face à la complexité de la pré-formation sur plusieurs ensembles de données avec des résolutions temporelles variées, nous introduisons plusieurs améliorations innovantes telles que le patching adaptatif, l'augmentation de l'ensemble de données via le sous-échantillonnage et le réglage du préfixe de résolution. De plus, nous utilisons une stratégie de modélisation à plusieurs niveaux pour modéliser efficacement les corrélations de canaux et infuser des signaux exogènes lors du réglage fin, une capacité cruciale qui manque dans les benchmarks existants. TTM montre des gains de précision significatifs (12-38 %) par rapport aux benchmarks populaires dans les prévisions à quelques/zéro coups. Il réduit également considérablement les besoins de calcul par rapport aux méthodes LLM-TS, avec une réduction de 14X des paramètres pouvant être appris, 106X moins de paramètres totaux et des réductions substantielles du réglage fin (65X) et du temps d'inférence (54X). En fait, le zero-shot de TTM surpasse souvent les résultats à quelques coups dans de nombreux benchmarks populaires, soulignant l'efficacité de notre approche. Les modèles et le code source sont disponibles sur https://huggingface.co/ibm/TTM
La prévision de séries chronologiques multivariées (TS) consiste à prédire les valeurs futures de plusieurs séries chronologiques interdépendantes en fonction de leurs données historiques. Ce domaine a considérablement progressé, en appliquant des méthodes statistiques et d'apprentissage automatique (ML) [Hyndman et Athanasopoulos, 2021] dans des domaines tels que la météo, le trafic, la vente au détail et l'énergie. En général, chaque série chronologique représente une variable ou un canal[1]. Dans certaines applications, des variables non prévisionnelles, classées comme facteurs externes contrôlables et incontrôlables, ont un impact sur les variables à prévoir. Nous appelons ces variables non prévisionnelles des variables exogènes et les variables nécessitant une prévision des variables cibles.
Français : Travaux connexes : Les avancées récentes dans la prévision multivariée ont été marquées par l'avènement des approches basées sur les transformateurs [Vaswani et al., 2017], illustrées par des modèles comme PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Zhou et al., 2021] et FEDFormer [Zhou et al., 2022]. Ces modèles ont démontré des améliorations notables par rapport aux méthodes statistiques et ML traditionnelles. De plus, les architectures basées sur MLPMixer [Tolstikhin et al., 2021], telles que TSMixer [Ekambaram et al., 2023], sont apparues comme des alternatives efficaces aux transformateurs, avec des besoins de calcul et de mémoire 2 à 3 fois inférieurs sans compromis sur la précision par rapport à leurs homologues transformateurs. Cependant, aucune de ces approches avancées n'a démontré avec succès la capacité de créer des modèles pré-entraînés généraux capables de transférer avec succès l'apprentissage vers un ensemble de données TS cible invisible, d'une manière similaire à celle observée couramment dans les tâches de PNL et de vision. Cela est très difficile dans le domaine TS en raison de la nature diversifiée des ensembles de données entre les applications et de la disponibilité publique limitée des données TS pour la pré-formation. Il existe des approches TS de pré-formation auto-supervisées utilisant la modélisation masquée et des techniques d'apprentissage contrastif telles que SimMTM [Dong et al., 2023] et TF-C [Zhang et al., 2022] qui offrent un apprentissage par transfert entre deux ensembles de données lorsqu'ils sont soigneusement sélectionnés en fonction des propriétés de l'ensemble de données. Cependant, ils ne parviennent pas à fournir des capacités d'apprentissage par transfert universelles entre les ensembles de données. Par conséquent, il existe une tendance croissante récente à utiliser des modèles de langage volumineux (LLM) pré-entraînés pour la prévision TS, en la traitant comme une tâche d'apprentissage par transfert inter-domaines. Ces approches de transfert croisé universelles, en particulier les travaux récents tels que LLMTime [Gruver et al., 2023] et GPT4TS [Zhou et al., 2023], donnent des résultats prometteurs dans les approches de prévision à quelques/zéro coups. Ces modèles sont amorcés à partir de GPT-2/3 ou LLAMA-2 avec des stratégies de tokenisation adaptées pour s'adapter aux domaines des séries temporelles.
Cependant, ces approches TS basées sur LLM ne gèrent pas explicitement les corrélations de canaux et le support exogène dans le contexte de la prévision multivariée. De plus, ces grands modèles, avec des milliards de paramètres, nécessitent des ressources de calcul et un temps d'exécution importants. Par conséquent, dans cet article, nous nous concentrons sur la création de modèles pré-entraînés à partir de zéro en utilisant uniquement des données TS. Contrairement au langage, qui dispose de données de pré-entraînement publiques abondantes en téraoctets, les données de séries chronologiques sont relativement rares, très diverses et limitées au public. Leur rareté conduit à un surapprentissage lors du pré-entraînement de « grands » modèles uniquement sur des données de séries chronologiques. Cela soulève une question : des modèles plus petits pré-entraînés uniquement sur des ensembles de données TS publics diversifiés et limités peuvent-ils donner une meilleure précision de prévision à zéro ou à quelques coups ? Étonnamment, la réponse est oui ! Pour cela, nous proposons des Multi-level Tiny Time Mixers (TTM), un modèle nettement plus petit (≤1M paramètres) basé sur l'architecture légère TSMixer, exclusivement formé sur divers corpus TS pour une prévision TS multivariée efficace à zéro/peu de coups via l'apprentissage par transfert.
Français En particulier, TTM est pré-entraîné à l'aide de plusieurs ensembles de données publics (∼ 244 millions d'échantillons) provenant du référentiel de données Monash[2] [Godahewa et al., 2021]). Notez que les ensembles de données présentent une diversité considérable en termes de caractéristiques, telles que les différents domaines, la résolution temporelle[3] (allant de la seconde à la journée), les longueurs et le nombre de canaux. Le pré-entraînement sur de tels ensembles de données hétérogènes ne peut pas être géré directement par TSMixer ou les modèles de pointe (SOTA) existants. Par conséquent, TTM propose les améliorations suivantes à l'architecture TSMixer : (i) Patching adaptatif sur plusieurs couches, en tenant compte de l'adéquation variable des longueurs de patch pour différents ensembles de données, (ii) Augmentation de l'ensemble de données via le sous-échantillonnage pour augmenter la couverture et les échantillons sur différentes résolutions, (iii) Réglage du préfixe de résolution pour intégrer explicitement les informations de résolution dans le premier patch, facilitant la modélisation conditionnée par la résolution, particulièrement bénéfique dans les scénarios avec des longueurs d'historique courtes. De plus, notre approche s'appuie sur une modélisation multi-niveaux, où les TTM sont d'abord pré-entraînés de manière indépendante du canal, puis intègrent de manière transparente le mixage des canaux lors du réglage fin pour modéliser les corrélations de canaux spécifiques aux données cibles et l'infusion exogène.
Ci-dessous, nous décrivons les principales contributions du document :
• Dans un contexte de prévalence de modèles pré-entraînés volumineux exigeant un temps de calcul et d'entraînement important (en semaines), notre travail est le premier à démontrer l'efficacité de la création de modèles pré-entraînés rapides et de petite taille (≤ 1 M de paramètres) exclusivement formés sur des ensembles de données TS publics en quelques heures seulement (4 à 8 heures, 6 GPU A100). TTM démontre avec succès l'apprentissage par transfert vers divers ensembles de données cibles invisibles pour des prévisions à zéro/peu de coups, répondant aux problèmes de rareté des données qui prévalent dans les séries chronologiques.
• La préformation sur des ensembles de données multi-résolution hétérogènes ne peut pas être gérée efficacement par TSMixer ou d'autres modèles SOTA. Par conséquent, nous proposons diverses améliorations architecturales et de formation , telles que le patching adaptatif, l'augmentation des données via le sous-échantillonnage et (en option) le réglage du préfixe de résolution pour une préformation robuste.
• TTM utilise une stratégie de modélisation multi-niveaux pour modéliser explicitement les corrélations de canaux et intègre des signaux exogènes – une capacité cruciale qui manque dans les approches TS basées sur les LLM.
• Avec une évaluation approfondie sur 11 ensembles de données, TTM montre des gains de précision significatifs par rapport aux références populaires (12 à 38 % dans les prévisions à quelques prises/zéro prises). Il réduit également considérablement les besoins de calcul par rapport aux méthodes LLM-TS, avec une réduction de 14X des paramètres pouvant être appris, 106X de moins de paramètres au total et des réductions substantielles du réglage fin (65X), du temps d'inférence (54X) et de l'utilisation de la mémoire (27X). • Les résultats à zéro prise de TTM surpassent souvent les résultats à quelques prises de nombreuses approches SOTA, soulignant l'efficacité de notre approche.
Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.
[1] « Canal » fait référence à la série temporelle individuelle dans les données multivariées (c'est-à-dire qu'un TS multivarié est un signal multicanal).
[2] Accessible sur https://forecastingdata.org/
[3] La résolution fait référence au taux d'échantillonnage de la série temporelle d'entrée (par exemple, horaire, 10 minutes, 15 minutes, etc.)