Ce que nous avons appris sur l'avenir des puces IA en suivant les dernières annonces de NVIDIA, en discutant avec des experts du secteur et en analysant les actualités et les analyses.
L'exploration des puces IA est un passe-temps, ainsi qu'un thème populaire dans les articles Orchestrate all the Things . En 2023, nous avions l’impression d’avoir pris un peu de retard sur ce point… mais là encore, est-ce important ? NVIDIA ne règne-t-il pas toujours en maître – 1 000 milliards de valorisation , plus de 80 % de part de marché, des H100 se vendant comme du pain chaud et battant tous les records et tout ? Eh bien, oui, mais… pas si vite.
Après avoir eu la chance de choisir le CPO de l'IA chez HPE, le cerveau d'Evan Sparks lors de l'épisode AI Chips de notre série « Quoi de neuf en IA » avec O'Reilly , assistez à quelques conférences de presse de NVIDIA et parcourez une tonne d'actualités et Pour que vous n'ayez pas à le faire, nous avons un point de vue plus nuancé à partager sur les puces IA en 2024. Voici ce qui se passe et comment cela est susceptible d'affecter l'IA à l'avenir.
Commençons par l'actualité. Hier, NVIDIA a annoncé les résultats des dernières soumissions MLPerf . MLPerf est la norme de facto en matière d'évaluation des charges de travail d'IA, et à mesure que de nouvelles charges de travail d'IA émergent , MLPerf continue d'enrichir sa suite . Avec le décollage de l'IA générative au cours de l'année dernière, MLPerf a ajouté des charges de travail Gen AI à son arsenal.
Après avoir précédemment ajouté un benchmark qui utilise une partie de l'ensemble complet de données GPT-3 pour former un grand modèle linguistique (LLM), le dernier ajout à MLPerf est un benchmark de formation basé sur le modèle texte-image à diffusion stable. NVIDIA a réussi ces deux résultats, ainsi que quelques autres. Intel et Google affichent également d'importants gains en matière de formation à l'IA .
NVIDIA Eos – un supercalculateur d'IA alimenté par 10 752 GPU NVIDIA H100 Tensor Core et un réseau NVIDIA Quantum-2 InfiniBand – a réalisé un test de formation basé sur un modèle GPT-3 avec 175 milliards de paramètres entraînés sur un milliard de jetons en seulement 3,9 minutes.
Cela représente un gain de près de 3 fois par rapport aux 10,9 minutes, le record établi par NVIDIA lors de l'introduction du test il y a moins de six mois. Par extrapolation, Eos pourrait désormais former ce LLM en seulement huit jours, 73 fois plus rapidement qu'un système de pointe antérieur utilisant 512 GPU A100. Quant au benchmark Stable Diffusion, il a fallu 2,5 minutes à 1 024 GPU à architecture NVIDIA Hopper pour le réaliser.
Mais ce n'est pas tout. Comme le note NVIDIA, la société a été la seule à exécuter tous les tests MLPerf, démontrant les performances les plus rapides et la plus grande évolutivité dans chacun des neuf benchmarks. Dans MLPerf HPC, une référence distincte pour les simulations assistées par IA sur supercalculateurs, les GPU H100 ont fourni des performances jusqu'à deux fois supérieures aux GPU NVIDIA A100 Tensor Core lors du dernier cycle HPC .
Commençons maintenant à analyser ces résultats. La première chose à noter concerne les différentes dimensions d’échelle. Lorsque l'Eos a été annoncé pour la première fois , il comportait 4 608 H100. Aujourd’hui, il en compte 10 752. Mais NVIDIA n’est pas le seul à tirer parti de l’évolutivité et des performances de l’Eos.
Comme le note la société, une plate-forme complète d'innovations en matière d'accélérateurs, de systèmes et de logiciels a été utilisée par Eos et Microsoft Azure lors du dernier cycle. Azure n'a pas soumis de candidature dans toutes les catégories, mais dans le benchmark GPT-3 où les deux ont été soumis, les résultats étaient pratiquement identiques. Et l'instance d'Azure est également disponible dans le commerce.
De plus, l'efficacité de mise à l'échelle pour Eos était supérieure à 80 %. Idéalement, doubler le nombre de GPU permettrait d’obtenir des performances deux fois supérieures. Obtenir 80 % de ce montant, à cette échelle, est tout un exploit. NVIDIA a attribué cela à sa pile – la combinaison de matériel, de logiciels et de réseau.
Ce qu'il faut retenir ici, c'est que la « loi de Jensen », le surnom utilisé pour décrire les performances et l'évolutivité obtenues par les GPU NVIDIA, semble être toujours en vigueur. Mais la vraie question est peut-être de savoir qui devrait s’en soucier et pourquoi.
Ce type d'échelle n'est pas quelque chose que quiconque, mais les hyperscalers, pourraient normalement gérer, même s'ils le voulaient. Les GPU NVIDIA H100 sont rares malgré un coût d'environ 30 000 $ chacun. Comme le souligne le rapport L’état de l’IA en 2023 , les organisations sont engagées dans une course au stockage. Mais il y a aussi de bonnes nouvelles.
Tout d’abord, les puces NVIDIA ont une durée de vie remarquablement longue : 5 ans entre leur lancement et leur popularité maximale. NVIDIA V100, sortie en 2017, reste la puce la plus couramment utilisée dans la recherche en IA. Cela suggère que les A100, sortis en 2020, pourraient culminer en 2026, lorsque le V100 atteindra probablement son creux.
De plus, on peut se demander si la formation d’un nouveau modèle Gen AI à partir de zéro est quelque chose que la plupart des organisations devront faire. La majorité des organisations utiliseront probablement uniquement des modèles Gen AI pré-entraînés intégrés sous le capot pour alimenter les applications, ou choisiront d'utiliser quelque chose comme ChatGPT sur une API. Ces deux options ne nécessitent exactement aucun GPU.
Le revers de la médaille, bien sûr, est que ces deux options n’offrent également aucune autonomie et sécurité. Mais même pour les organisations qui choisissent de développer la Gen AI en interne, former quelque chose à partir de zéro n’est probablement pas ce qui a le plus de sens pour la plupart. Prendre un modèle Gen AI open source prêt à l'emploi et le personnaliser via un réglage fin ou RAG (Retrieval Augmented Generation) est bien plus rapide et plus simple, et ne nécessite qu'une fraction du calcul.
Quoi qu’il en soit, l’idée à long terme est que la mise à l’échelle comme le fait NVIDIA rend possible des modèles d’IA plus puissants dans un délai plus court. Nous pouvons nous attendre à ce que les résultats se répercutent, qu’il s’agisse de modèles plus puissants de type GPT, de modèles open source ou d’applications dérivées.
Mais il y a une autre série de questions à considérer ici. La domination de NVIDIA est-elle une bonne chose pour l'industrie ? Cela peut-il et doit-il durer ? Que fait la concurrence ? Et pourquoi le reste du monde devrait-il s’en soucier ?
Comme moi-même et d'autres l'avons remarqué, la domination de NVIDIA ne repose pas seulement sur son matériel, mais sur l'intégralité de sa pile. En outre, comme l'a noté l'analyste Dylan Patel , NVIDIA exploite également un ensemble de tactiques commerciales en matière de gestion de la chaîne d'approvisionnement, de stratégies de vente et de regroupement que peu d'autres sont capables de reproduire. Mais cela ne signifie pas non plus que la concurrence tourne au ralenti.
En ce qui concerne les supercalculateurs et la mise à l'échelle, l'Eos de NVIDIA n'est certainement pas le seul jeu en ville. Comme Sparks l'a mentionné, l'Aurora d'Intel , dotée de 60 000 de ses propres GPU Ponte Vecchio, est sur le point d'être mise en ligne. De plus, il existe de nombreux autres supercalculateurs dans le monde dotés d'une gamme de puces et d'architectures de différents fabricants, et ils sont tous capables d'effectuer des opérations arithmétiques à virgule flottante hautes performances.
NVIDIA a un avantage car elle a été la première à se concentrer sur les charges de travail d'IA, mais chacun de ses concurrents en herbe a une feuille de route à rattraper. Jusqu'à récemment, nous pensions que CUDA, la couche logicielle de NVIDIA, était le plus grand fossé de l'entreprise.
Comme le note Patel , de nombreux frameworks d'apprentissage automatique ont disparu, mais la plupart se sont fortement appuyés sur l'exploitation du CUDA de NVIDIA et ont obtenu de meilleurs résultats sur les GPU NVIDIA. Cependant, avec l'arrivée de PyTorch 2.0 et de Triton d'OpenAI, la position dominante de NVIDIA dans ce domaine, principalement due à son fossé logiciel, est bouleversée. Ces frameworks permettent aux concurrents de NVIDIA de créer plus facilement leur propre pile.
Bien sûr, comme l'ajoute Patel dans une autre note décrivant le plan de NVIDIA pour rester en tête du peloton , NVIDIA ne reste pas les bras croisés. Bien que NVIDIA connaisse un énorme succès, c'est également l'une des entreprises les plus paranoïaques du secteur, avec son PDG Jensen Huang incarnant l'esprit d'Andy Grove. Ce n'est pas un hasard si NVIDIA a souligné que son équipe emploie actuellement deux fois plus d'ingénieurs logiciels que d'ingénieurs matériels.
Le succès engendre la complaisance. La complaisance engendre l’échec. Seuls les paranoïaques survivent.
Andy Grove
Patel va jusqu'à remettre en question certaines tactiques de NVIDIA, sur lesquelles nous n'avons pas d'opinion. Ce que nous pouvons dire, c'est que même si l'acharnement de NVIDIA ne les laisse pas aller à la complaisance, avoir un seul fournisseur détenant plus de 80 % de part de marché pendant très longtemps n'est pas très sain. Ce sera probablement une bonne chose pour tout le monde de voir la concurrence rattraper son retard.
À l’heure actuelle, les hyperscalers, les concurrents historiques tels qu’AMD et Intel, ainsi que de nombreux nouveaux venus travaillent tous sur leurs propres puces d’IA personnalisées pour 2024 et au-delà. On estime que NVIDIA dispose d'une marge de 1 000 % sur les H100 , qui sont également en pénurie. Il n’est pas étonnant que tout le monde veuille participer à l’action et/ou accroître son autonomie. Pour les consommateurs, plus de concurrence signifiera plus de choix et d’autonomie, ainsi que de meilleures performances et de meilleurs prix .
Mais pour le moment, NVIDIA est toujours le leader incontesté – même avec une ou deux notes en bas de page. Lorsqu'on lui a demandé de comparer directement les résultats MLPerf de NVIDIA avec ceux de Gaudi d'Intel, par exemple, le directeur du marketing produit du groupe Accelerated Computing de NVIDIA, Dave Salvator, a souligné deux choses. Premièrement, les soumissions de Gaudi étaient loin d’atteindre l’échelle 10K. Deuxièmement, les résultats de NVIDIA étaient environ 2 fois meilleurs que sur une base normalisée. D'autres, comme l'analyste Karl Freund, considèrent cependant Gaudi2 comme une alternative crédible .
Note de bas de page n°1 : MLPerf est une référence largement acclamée dans l'industrie. Cependant, comme tous les benchmarks, ce n’est pas parfait. Comme Sparks l'a noté, un élément crucial manquant dans MLPerf est la tarification. S'il est compréhensible qu'il soit délicat d'intégrer la tarification dans tout benchmark pour un certain nombre de raisons, cela signifie également que les résultats doivent être replacés dans leur contexte. Par exemple, selon l'analyse de Patrick Kennedy, le Gaudi2 d'Intel offre des performances par dollar 4 fois supérieures à celles du H100 de NVIDIA .
Note de bas de page n°2 : La performance à elle seule est rarement la seule mesure qui compte pour les acheteurs potentiels. Le plus souvent, ce qui compte le plus est le rapport performance/coût : combien coûte la réalisation d’une certaine opération dans un certain délai. Pour arriver à cette mesure, le coût total de possession (TCO) des puces IA doit être pris en compte. Il s’agit d’un exercice complexe qui nécessite une expertise approfondie.
Une grande partie du TCO des puces IA réside dans l’inférence, c’est-à-dire l’utilisation de modèles d’IA entraînés en production. La formation d’un modèle d’IA est généralement une entreprise coûteuse et complexe. L'inférence est peut-être plus simple en comparaison, mais elle constitue généralement l'essentiel de la durée de vie et du coût opérationnel d'un modèle.
Les charges de travail de formation et d’inférence ont des caractéristiques différentes. Cela signifie qu’un système qui réussit bien en formation ne réussit pas nécessairement aussi bien en inférence. Par exemple, lorsqu’on a demandé à Salvator de commenter les performances d’Eos en matière d’inférence, il a renvoyé les participants aux futurs briefings. Pendant ce temps, les gens construisent de nouveaux systèmes axés sur l'inférence , tandis que d'autres tentent de tirer le meilleur parti des systèmes existants .
NVIDIA vient de montrer que son leadership ne montre aucun signe de déclin dans l'immédiat. Cependant, ce n’est pas nécessairement une bonne chose pour le reste du monde. La concurrence est là, tout comme la possibilité de rattraper son retard, aussi lointaine que cela puisse paraître à ce stade. Les puces IA en 2024 seront quelque chose à surveiller. Quoi qu’il en soit, la façon dont les points forts du benchmark se traduisent en impact réel, en convivialité et en coût total de possession pour les organisations aspirant à développer et à utiliser l’IA n’est pas linéaire.
Des histoires sur la façon dont la technologie, les données, l'IA et les médias s'articulent pour façonner nos vies. Analyses, essais, interviews et actualités. Forme moyenne à longue, 1 à 3 fois par mois.
Également publié ici .