D'accord, cela fait plus d'un an depuis la sortie de ChatGPT. Avant ce tournant, la communauté des chercheurs et les leaders de l’industrie travaillaient déjà activement sur l’IA générative, en particulier dans le domaine de la vision par ordinateur, avec une série de résultats et d’applications à diffusion stable. Pour résumer brièvement, 2022 pourrait être considérée comme l’année de la diffusion stable, et 2023 comme l’année des grands modèles linguistiques (LLM).
Le début de 2023 a marqué la domination des LLM, avec ChatGPT menant la charge en matière d'adoption et d'innovation généralisées. Cette année, les LLM sont devenus omniprésents dans divers secteurs, comblant efficacement le fossé entre la recherche théorique et les applications pratiques de l'industrie. Explorons les étapes et tendances clés qui ont façonné le paysage LLM en 2023, et voyons également comment ils ont révolutionné notre interaction avec la technologie.
Année de LLM Open Source
En 2023, nous avons assisté à une année remarquable pour les grands modèles de langage (LLM) open source. La version la plus importante a été la série LLaMa de Meta, créant un précédent pour des sorties fréquentes par la suite, avec de nouveaux modèles émergeant chaque mois, semaine et parfois quotidiennement. Des acteurs clés tels que Meta, EleutherAI, MosaicML, TIIUAE et StabilityAI ont introduit une variété de modèles formés sur des ensembles de données publics, répondant aux divers besoins de la communauté de l'IA. La majorité de ces modèles étaient des transformateurs à décodeur uniquement, poursuivant la tendance établie par ChatGPT. Voici quelques-uns des modèles les plus remarquables sortis cette année :
LLaMa par Meta : La famille LLaMa comprend des modèles de différentes tailles, le plus grand modèle comportant 65 milliards de paramètres, formés sur 1,4 billion de jetons. Notamment, les modèles plus petits, en particulier celui comportant 13 milliards de paramètres, formés sur 1 000 milliards de jetons, ont démontré des performances supérieures en tirant parti de périodes de formation prolongées sur davantage de données, surpassant même les modèles plus grands dans certains benchmarks. Le modèle 13B LLaMa a surpassé le GPT-3 dans la plupart des tests, et le plus grand modèle a établi de nouveaux tests de performance de pointe dès sa sortie.Pythie par Eleuther AI : Pythia comprend une suite de 16 modèles avec 154 points de contrôle partiellement formés, conçus pour faciliter la recherche scientifique contrôlée sur des LLM ouvertement accessibles et formés de manière transparente. Cette série aide grandement les chercheurs en fournissant des articles détaillés et une base de code complète pour la formation des LLM.MPT par MosaicML etSérie Falcon par TIIUAE : Tous deux ont été formés sur une gamme variée de sources de données, allant des jetons 1T à 1,5T, et ont produit des versions avec des paramètres 7B et 30B. Notamment, plus tard dans l'année, TIIUAE a publié un modèle 180B, le plus grand modèle open source à ce jour.Mistral ,Phi etOrque : Ces modèles mettent en évidence une autre tendance en 2023, axée sur la formation de modèles plus petits et plus efficaces, adaptés à des contraintes matérielles et budgétaires limitées, marquant un changement significatif vers l'accessibilité et la praticité dans le développement de modèles d'IA.
Modèle petit et efficace
En 2023, on a également assisté à la sortie de nombreux modèles petits et efficaces. La principale raison de cette tendance est le coût prohibitif de la formation de grands modèles pour la plupart des groupes de recherche. De plus, les grands modèles sont souvent inadaptés à de nombreuses applications du monde réel en raison de leurs coûts élevés de formation et de déploiement, ainsi que de leurs besoins importants en matière de mémoire et de puissance de calcul. C’est pourquoi les modèles petits et efficaces sont devenus l’une des principales tendances de l’année. Comme mentionné précédemment, les séries Mistral et Orca ont été des acteurs clés de cette tendance. Mistral a surpris la communauté avec un modèle 7B qui a surpassé ses homologues plus grands dans la plupart des benchmarks, tandis que la série Phi est encore plus petite, avec seulement 1,3B à 2,7B de paramètres, mais elle offre des performances impressionnantes.
Une autre approche innovante est
Le succès de modèles petits et efficaces dépend en grande partie de la qualité des données et de la rapidité des astuces. Bien que Mistral n'ait pas divulgué les détails de ses données de formation, diverses recherches et modèles ont montré que la qualité des données est cruciale pour former des modèles efficaces. L'une des découvertes les plus remarquables de cette année est
Réglage de l'adaptation de bas rang
Ok, parlons-en
LoRA consiste essentiellement à geler les poids de modèle pré-entraînés et à injecter des couches pouvant être entraînées ( matrices de décomposition de rang ). Ces matrices sont compactes mais capables d'approcher les adaptations nécessaires au comportement du modèle, permettant un réglage fin efficace tout en maintenant l'intégrité des connaissances du modèle d'origine. L'une des variantes de LoRA les plus fréquemment utilisées est
Mélange d'experts
Le
L'un des modèles les plus remarquables du MoE publié l'année dernière est
Du langage aux modèles de base généraux
Les LLM évoluent vers des modèles de base généraux, étendant leurs capacités au-delà du traitement linguistique. Cette transition signifie une évolution vers des modèles capables de comprendre et de générer non seulement du texte, mais également du code, du contenu visuel, de l'audio, etc. L'année dernière, nous avons vu l'introduction de modèles comme
Agents équipés d'outils
L'intégration des LLM avec divers outils et plates-formes rend l'IA plus accessible et plus pratique pour une utilisation quotidienne. Les agents équipés de ces outils sont adaptés à des tâches spécifiques, allant de l'assistance au codage à l'écriture créative, faisant de l'IA un élément indispensable de nombreux flux de travail professionnels. Ce développement a été rendu possible grâce aux capacités de raisonnement et d’action des LLM. Ce type de fonctionnalité est souvent appelé appel de fonction sous le nom
OpenAI domine toujours le paysage industriel
OpenAI continue de dominer le paysage industriel, conservant son leadership en termes de recherche et d'application. Le GPT-4 et le nouveau
Conclusion
L'année 2023 a marqué une période de croissance et d'innovation significatives dans le domaine des grands modèles linguistiques (LLM). De la démocratisation de l’IA grâce à des modèles open source au développement de systèmes plus efficaces et spécialisés, ces avancées ne sont pas seulement des prouesses techniques mais également des étapes visant à rendre l’IA plus accessible et applicable dans divers domaines. À l’avenir, le potentiel de ces technologies pour transformer les industries et améliorer les capacités humaines continue d’être une perspective passionnante. En 2024, nous prévoyons des étapes encore plus remarquables, avec Meta annonçant son intention de former LLaMA-3 et envisageant de l'ouvrir en source libre. Dans le paysage industriel, on s’intéresse également vivement à voir si des géants comme Google ou des startups comme Anthropic peuvent surpasser OpenAI.
Visitez et abonnez-vous à mon blog personnel pour plus d'articles.