paint-brush
Les défis, les coûts et les considérations liées à la création ou à la mise au point d'un LLMpar@edouarddarchimbaud
11,071 lectures
11,071 lectures

Les défis, les coûts et les considérations liées à la création ou à la mise au point d'un LLM

par Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader

Trop long; Pour lire

Le chemin vers la création ou la mise au point d’un LLM pour votre entreprise peut être complexe. Votre équipe a besoin d’un guide pour commencer.
featured image - Les défis, les coûts et les considérations liées à la création ou à la mise au point d'un LLM
Edouard d'Archimbaud HackerNoon profile picture
0-item

Ce n’est plus une nouveauté que les LLM ont changé et continueront de changer la donne pour l’IA et les entreprises dans tous les secteurs. Une étude d'IBM a révélé que les PDG adoptent de plus en plus l'IA générative pour améliorer la productivité et acquérir un avantage concurrentiel. L'étude, qui a interrogé 3 000 PDG du monde entier, a révélé que 75 % d'entre eux pensent que l'organisation dotée de l'IA générative la plus avancée aura un avantage concurrentiel.


Si vous vous demandez quelle est la meilleure façon d'utiliser les LLM et s'il faut les créer ou les affiner, nous aimerions partager ce guide sur ce que vous devez savoir pour le faire de manière efficace et efficiente.


Tout d'abord, nous examinerons comment les LLM sont appliqués et sur quels secteurs ils peuvent avoir le plus d'impact afin que vous ayez une meilleure idée de ce que vous pouvez réaliser avec un LLM. Ensuite, nous expliquerons pourquoi nous construisons ou peaufinons un LLM. Et enfin, nous partagerons des considérations critiques, des stratégies et des meilleures pratiques, afin que votre équipe puisse avoir une vision plus précise une fois que vous aurez pris votre décision.


Voyons maintenant plus en détail comment les LLM devraient changer les secteurs et les entreprises :

Comment les LLM changent les secteurs

Industrie de l'information

Un récent document de travail rédigé par des chercheurs d'OpenAI, d'Open Research et de l'Université de Pennsylvanie a révélé que les LLM peuvent généralement affecter plusieurs marchés américains, et que l'industrie de l'information sera probablement la plus touchée pour les raisons suivantes :

  • L'industrie de l'information s'appuie fortement sur les capacités de base des LLM, telles que la rédaction, l'analyse de données, la récupération d'informations et la création de contenu. Ceux-ci correspondent étroitement aux atouts des modèles d’IA générative.
  • Des tâches telles que la rédaction d'articles, de rapports et d'autres contenus peuvent potentiellement générer des gains de productivité significatifs grâce aux LLM générant de manière autonome des brouillons et des révisions.
  • D'autres tâches quotidiennes de l'industrie de l'information telles que la recherche, le traitement des données, le balisage de contenu/la génération de métadonnées et le support client peuvent également être considérablement facilitées par les LLM.
  • Les entreprises d'information disposent souvent de grands volumes de données textuelles qui peuvent être utilisées pour former et affiner les LLM afin qu'ils soient très efficaces pour leurs cas d'utilisation spécifiques.
  • La faible dimension physique du travail dans cette industrie le rend très propice à l'automatisation via des logiciels.

L'industrie banquaire

Parallèlement, une étude de McKinsey cite le secteur bancaire comme l'un des secteurs pouvant connaître l'impact le plus significatif grâce aux LLM. Si les cas d’utilisation étaient pleinement mis en œuvre, ils prévoient que la technologie apportera une valeur annuelle supplémentaire de 200 à 340 milliards de dollars.

  • Les LLM peuvent améliorer le service client en automatisant les réponses aux demandes des clients, réduisant ainsi le volume de contacts avec des services humains.
  • Ils peuvent également contribuer à l’évaluation des risques en analysant de grands volumes de données pour identifier les modèles et les tendances susceptibles d’indiquer des risques potentiels.
  • De plus, les LLM peuvent aider les banques à se conformer aux exigences réglementaires en suivant les modifications réglementaires et en mettant automatiquement à jour les procédures de conformité en conséquence.

Industrie pharmaceutique et des produits médicaux

Il est intéressant de noter que la même étude de McKinsey affirme également que les produits pharmaceutiques et médicaux pourraient être améliorés grâce aux modèles de base et à l’IA générative. L'étude indique que l'impact pourrait être compris entre 60 et 110 milliards de dollars par an . Ils voient notamment un potentiel dans la découverte de médicaments. Voici comment:

  • Lors du développement préliminaire de médicaments, les modèles de base automatisent la sélection des produits chimiques potentiels, remplaçant ainsi l'inspection manuelle des cultures cellulaires. Les modèles de base regroupent avec précision des images expérimentales similaires, aidant ainsi à sélectionner des produits chimiques prometteurs pour une analyse plus approfondie.
  • Lors de la recherche d'indications, les indications potentielles du médicament sont identifiées sur la base des antécédents cliniques et des dossiers médicaux des groupes de patients. Ces modèles aident à quantifier les événements cliniques, à établir des relations et à mesurer la similarité entre les cohortes de patients et les indications fondées sur des preuves. Le résultat est une liste d’indications présentant une probabilité de succès plus élevée dans les essais cliniques en raison d’une correspondance précise entre les groupes de patients.
  • Les entreprises utilisant cette approche ont constaté des taux de réussite d’essais élevés, accélérant ainsi la progression vers les essais de phase 3.

Les défis et les limites des LLM

Mais alors que le battage médiatique autour des modèles de fondation et des LLM peut susciter des idées de solutions magiques, la réalité est que les LLM et les modèles de fondation ne sont pas parfaits. Quiconque a beaucoup utilisé ChatGPT ou d'autres LLM sur le marché a constaté que, en particulier pour les tâches spécifiques à un domaine, l'utilisation de LLM directement prêtes à l'emploi peut échouer. Voici quelques défis et limites des LLM :

Hallucinations

Le problème le plus courant que nous rencontrons est peut-être les hallucinations. Les hallucinations sont un phénomène dans lequel les LLM peuvent renvoyer des déclarations incorrectes qui semblent plausibles. Il existe deux types d'hallucinations : intrinsèques et extrinsèques. Les hallucinations intrinsèques se produisent lorsque le modèle utilise une logique défectueuse qui va à l'encontre de la réponse de l'utilisateur, tandis que les hallucinations extrinsèques se produisent lorsque le modèle comprend mal le contexte de la question de l'utilisateur.

Limites de mémoire

Les modèles Foundation tels que GPT ont une petite fenêtre contextuelle et ne peuvent accepter qu'un nombre limité de caractères en entrée, ce qui peut ne pas être idéal pour des applications spécifiques. Comme pour les humains, à mesure que la longueur de l’entrée augmente, la difficulté pour le modèle de la traiter avec précision augmente également.

Oubli catastrophique

L'oubli catastrophique est un phénomène qui se produit lorsqu'un réseau neuronal artificiel est entraîné sur plusieurs tâches de manière séquentielle et que les poids cruciaux du réseau pour la tâche A sont modifiés pour s'aligner sur les objectifs de la tâche B. Cela peut amener le réseau à oublier la tâche A, même s'il était auparavant capable de bien le faire.

Problèmes de qualité des données

Les LLM, qui sont principalement formés sur des données non étiquetées, peuvent être sujets à des biais car les données utilisées dans leur processus de formation peuvent ne pas être une représentation précise de la distribution des données du monde réel. En effet, les données biaisées utilisées pour la formation peuvent se refléter dans les résultats du modèle.

Ces limitations amènent les entreprises à réfléchir stratégiquement à la manière dont elles souhaitent travailler avec les LLM. En effet, les LLM ont un énorme potentiel pour changer la façon dont les entreprises fonctionnent, ce qui peut leur apporter plus de valeur, mais ces défis doivent être relevés. C’est là que peut se poser la question de la construction ou de la mise au point d’un LLM existant.

Quand devriez-vous créer ou affiner un LLM existant

Construire votre grand modèle linguistique (LLM) à partir de zéro

Quand est-il judicieux de créer un LLM à partir de zéro ? Créer votre propre LLM aura plus de sens si vous avez un cas d'utilisation très unique que les LLM généraux existants ne peuvent pas servir ou si le LLM devient un produit de base ou un principal moteur commercial pour votre entreprise. De plus, si vous avez accès à un grand volume de données propriétaires précieuses, il serait également judicieux de créer un LLM pour les utiliser à votre avantage tout en préservant la confidentialité et la sécurité des données.

Peaufiner un LLM

Vous avez deux choix pour peaufiner un LLM : opter pour des LLM open source existants ou utiliser l'API des LLM commerciaux. Un LLM commercial peut avoir plus de sens si votre équipe a moins d'expertise technique, tandis qu'un modèle open source vous donnera plus de contrôle. Cela dit, il existe des risques associés à la mise au point d'un LLM. Vous devez garder un œil sur les biais potentiels, la toxicité et les expositions à la sécurité des données. De plus, les API commerciales peuvent limiter la personnalisation du modèle et des données de formation ainsi que le contrôle du produit lui-même.

Considérations clés dans la création ou la mise au point d'un LLM existant

Allocation des ressources

Que vous soyez ou non en train de peaufiner ou de choisir de créer un LLM à partir de zéro, sachez que vous devez être prêt à allouer des ressources importantes pour atteindre votre objectif. Construire un LLM à partir de zéro nécessite une puissance de calcul énorme, en plus du temps et des finances consacrés, ainsi que de la recherche de l'expertise appropriée.


Par exemple, les estimations du GPT-3 d'OpenAI, un grand modèle de langage avec environ 175 milliards de paramètres, coûtent plus de 4,6 millions de dollars . OpenAI a également investi dans un superordinateur de Microsoft doté de plus de 285 000 cœurs de processeur et de 10 000 GPU. Le modèle BloombergGPT de Bloomberg, plus petit, avec 50 milliards de paramètres, coûterait environ 2,7 millions de dollars à construire. Ces estimations ne couvrent pas l'itération du modèle nécessaire pour construire et garantir l'efficacité de ces LLM.


Pour gérer efficacement la taille massive des LLM, il est nécessaire de garantir que les données sont correctement nettoyées, étiquetées, organisées et stockées efficacement. N'oubliez pas que la gestion et le traitement des données peuvent être coûteux, surtout compte tenu de l'infrastructure, des outils et des ingénieurs de données requis.


Bien sûr, peaufiner un LLM est peut-être plus pratique car cela coûte moins cher que de créer le propre de votre organisation. Le coût de réglage fin d'un LLM dépend de plusieurs facteurs, notamment la taille du modèle, la quantité de données utilisées pour le peaufiner et les ressources informatiques utilisées.


Le coût de réglage fin d'un LLM peut également être affecté par l'algorithme de réglage précis utilisé, et certains algorithmes sont plus coûteux en calcul que d'autres. Les modèles de réglage fin d'OpenAI peuvent coûter entre 0,0004 $ et 0,0300 $ pour 1 000 jetons et dépendront du type de modèle que vous utiliserez pour vous entraîner. Et après cela, il y a un coût supplémentaire pour l’utilisation d’environ 0,0016 $ à 0,1200 $ pour 1 000 jetons.


Cela dit, les progrès réalisés dans différentes techniques de réglage fin ont permis de réduire les coûts financiers et informatiques. Un exemple est l'utilisation par Hugging Face de l'approche d'évaluation des politiques avec équité et transparence pour affiner GPT-3 . En tirant parti de cette méthode et de la bibliothèque bitsandbytes, Hugging Face a démontré qu'il est possible d'affiner un LLM nettement plus grand que la mémoire GPU disponible. Nous aborderons quelques méthodes supplémentaires dans cet article.

Expertise technique

Il n’est pas surprenant qu’une expertise technique avancée soit nécessaire pour créer et peaufiner un LLM. Un ingénieur senior en apprentissage automatique sera équipé des connaissances nécessaires pour affiner un LLM. Cependant, vous aurez besoin d'une équipe d'ingénieurs en apprentissage automatique véritablement exceptionnels pour diriger et créer correctement votre propre LLM à partir de zéro. Jetez un œil aux profils d'éminents scientifiques, chercheurs et architectes de sociétés d'IA telles que OpenAI, Meta et Google AI pour avoir une meilleure idée du type d'ingénieurs dont vous avez besoin dans votre équipe pour créer le propre LLM de votre organisation à partir de gratter. Vous devrez également vous assurer que ces chercheurs possèdent une solide connaissance du domaine de votre secteur et de votre entreprise.

Taille des données, qualité et considérations éthiques

Déchets dans les déchets


Il est bien connu que créer vos propres LLM à partir de zéro nécessitera une grande quantité de données. Par exemple, LLaMA a utilisé un ensemble de données de formation contenant 1 400 milliards de jetons atteignant 4,6 téraoctets. Des versions plus petites de LLaMA ont été formées sur 1 000 milliards de jetons. Dans le cas de GPT, 1,5 billion de jetons ont été utilisés.


Pour affiner les LLM, en fonction de votre méthode et de vos ressources, vous aurez besoin de moins. Un exemple serait le Med-PaLM 2 de Google, qui a été affiné à partir du PaLM LLM. Selon le journal , l'équipe d'IA a utilisé le réglage fin des instructions et a nécessité 193 000 exemples, ce qui représenterait environ 19 à 39 millions de jetons. Med-PaLM 2 a établi un nouvel état de l'art par rapport à son prédécesseur en obtenant un score de 86,5 % sur l'ensemble de données MedQA, qui a été utilisé pour mesurer les performances de Med-PaLM et PaLM.


Mais au-delà de la taille des données, les entreprises doivent également s'assurer qu'elles ont pris les mesures appropriées en matière de qualité des données, car le « garbage in, garbage out » s'applique toujours, même aux grands modèles de langage qui utilisent d'énormes quantités de données de formation.


Lorsqu'elles utilisent des données exclusives, les organisations devront définir les tâches suivantes pour garantir que la qualité et l'éthique soient maintenues à un niveau élevé pour des modèles plus efficaces :


  1. Déduplication et nettoyage des données : ce processus implique l'identification et la suppression des entrées en double dans l'ensemble de données pour garantir que les données sont exactes et fiables. Cela inclut également la correction des erreurs, des incohérences et des inexactitudes dans les données, telles que des valeurs manquantes ou un formatage incorrect. Cette étape est cruciale pour éviter d'entraîner le modèle sur des données incorrectes ou redondantes, ce qui peut entraîner de mauvaises performances du modèle.
  2. Modération des données : les organisations doivent établir un processus de modération des données utilisées pour entraîner leurs modèles. Cela pourrait impliquer un examen manuel des données, l'utilisation d'outils automatisés, ou idéalement une combinaison des deux, pour filtrer les contenus inappropriés ou nuisibles. Une modération efficace des données permet de garantir que le modèle n'apprend pas à générer lui-même un tel contenu.
  3. Confidentialité des données : les organisations doivent s'assurer que leurs données respectent les normes de confidentialité et sont conformes aux réglementations en vigueur, telles que le RGPD ou le CCPA. Cela pourrait impliquer l’anonymisation des données personnelles, l’obtention des autorisations nécessaires à l’utilisation des données et la mise en œuvre de pratiques sécurisées de stockage et de traitement des données. Ceci est crucial non seulement pour des raisons éthiques, mais aussi pour éviter des problèmes juridiques.
  4. Biais des données : les données utilisées pour entraîner les modèles peuvent souvent contenir des biais, que le modèle peut ensuite apprendre et perpétuer. Les organisations doivent mettre en œuvre des processus pour identifier et atténuer ces biais dans les données. Cela pourrait impliquer diverses stratégies de collecte de données, des outils d’audit des biais et des approches pour débiaiser les données. Il est essentiel de remédier aux biais de données pour obtenir des modèles de construction équitables et produire des résultats fiables pour différentes populations.

Performances du modèle

Selon les objectifs de l'organisation, peaufiner un LLM peut en fait suffire. Il existe différentes manières d'adapter un LLM aux besoins de votre organisation et d'améliorer ses performances. Cependant, nous recommandons de suivre une méthode rétrospective pour déterminer l’approche optimale. Cette méthode permet également de réduire les coûts de mise au point d'un LLM, car plus vous reculez dans ces étapes, plus les techniques peuvent devenir coûteuses.


Décomposons cela de la manière la plus simple.


Habituellement, la formation d'un modèle de base ou LLM commence par une formation non supervisée des ingénieurs en apprentissage automatique, puis une formation supervisée pour affiner le LLM, et enfin, des invites et des réglages rapides pour obtenir le résultat requis. Bien sûr, il existe différentes étapes intermédiaires, mais nous nous en tiendrons à ces trois étapes.

Peaufiner un LLM


Notre chemin recommandé pour affiner un LLM serait de revenir en arrière. Dans lequel vous démarrez d’abord le réglage rapide, qui comprend l’ingénierie rapide et le débogage rapide. Cela utiliserait le moins de ressources. Cependant, supposons que le LLM stagne ou ne fonctionne pas comme vous le souhaiteriez. Dans ce cas, vous passez à un réglage fin supervisé/instruction, qui peut inclure des méthodes telles que le RLHF, la génération augmentée par récupération ou l'apprentissage par transfert.


Par exemple, nous avons augmenté la précision de DinoV2 de 83 à 95 % sur un cas d'utilisation spécifique de classification de détection de défection grâce à l'apprentissage par transfert en utilisant uniquement 200 exemples étiquetés.


Enfin, si tout le reste échoue, la prochaine étape consisterait à utiliser des méthodes non supervisées et à garantir que nous disposons d'un ensemble de données approprié pour pré-entraîner le modèle.

Maintenance et mises à jour

Comme la plupart des modèles déployés dans des environnements dynamiques, qu'ils soient créés ou affinés, les LLM nécessitent une réitération pour rester efficaces avec de nouvelles données. La réitération consiste à réadapter un modèle à de nouvelles données ou à des objectifs actualisés. Les entreprises doivent créer des processus robustes pour réitérer régulièrement les modèles à l'aide de nouveaux ensembles de données, généralement itératifs, y compris leur création/ajustement, leurs tests et leur déploiement en production.


Les entreprises qui ont créé des LLM réussis, comme OpenAI, proposent continuellement de nouvelles versions de GPT-3. Bien que la date limite des données de formation de ChatGPT soit septembre 2021, OpenAI utilise de nouvelles données provenant des comportements des utilisateurs pour améliorer les capacités prédictives du modèle , réduire les biais et causer moins de dommages.

Alignement de la stratégie commerciale

Votre objectif commercial est également un facteur essentiel pour déterminer si la création ou la mise au point d'un LLM aurait du sens. Réfléchissez à la manière dont les capacités des LLM s'intègrent à la vision stratégique plus large de l'entreprise. De cette façon, vous tirez pleinement parti de ces outils puissants tout en restant concentré sur leurs principaux objectifs commerciaux. Quelques exemples ont été cités dans les secteurs mentionnés en haut de cet article, mais discutons maintenant de certaines des tâches dans lesquelles les LLM excellent et de leurs implications stratégiques pour différents secteurs :


  1. Résumation : les LLM peuvent extraire des points clés et des résumés de longs documents ou rapports. Cela peut s’avérer extrêmement précieux dans les secteurs qui traitent de gros volumes de données textuelles. Par exemple, les sociétés d’études de marché, qui produisent et analysent des rapports détaillés, peuvent utiliser les LLM pour générer des résumés concis, facilitant ainsi l’extraction d’informations et le partage des résultats avec les clients.
  2. Complétion de texte : les LLM peuvent prédire et générer du texte en fonction d'invites données, qui peuvent être utilisées pour aider à la création de contenu. Les industries engagées dans la création de contenu ou les services de communication peuvent en tirer parti pour améliorer leur productivité et leur créativité.
  3. Questions et réponses (Q&A) : les LLM peuvent répondre aux requêtes en fonction d'un contexte fourni, ce qui les rend utiles au service client dans de nombreux secteurs. Les banques, par exemple, peuvent utiliser des chatbots basés sur LLM pour traiter les requêtes des clients 24 heures sur 24, fournissant ainsi des informations rapides et précises à leurs clients et réduisant la charge de travail du personnel du service client.
  4. Chatbots : au-delà des questions et réponses, les LLM peuvent alimenter des chatbots plus interactifs et conversationnels, capables de comprendre le contexte et de maintenir une conversation sur plusieurs tours. Cela peut améliorer l'expérience client dans des secteurs tels que la vente au détail, les télécommunications et l'hôtellerie, où l'interaction avec le consommateur est vitale.
  5. Traduction : les LLM peuvent également traduire du texte entre différentes langues, ce qui pourrait potentiellement éliminer les barrières de communication dans les entreprises mondiales. Cette capacité peut profiter à des secteurs tels que le tourisme, le commerce international et les entreprises technologiques mondiales qui opèrent dans différentes régions linguistiques.

Évaluation de grands modèles de langage

Que vous construisiez ou peaufiniez un LLM, sélectionner le bon LLM est souvent la première étape. Oui, même pour créer un LLM, il est courant d'examiner l'architecture d'un modèle déjà existant et de partir de là. Quel que soit votre choix, les équipes doivent expérimenter et évaluer plusieurs modèles pour trouver leur meilleur point de départ.


L'évaluation des LLM comporte également son propre ensemble de défis. Après tout, il s’agit toujours d’un domaine de recherche en cours, il n’existe donc pas de standardisation ou de systématisation stricte de l’évaluation de ces modèles.


Il existe bien sûr des classements établis par des communautés comme HuggingFace, qui peuvent vous donner une idée générale des performances d'un modèle. Mais ce qui peut bien fonctionner dans les classements peut ne pas se traduire aussi facilement par votre cas d'utilisation spécifique. Les LLM sont souvent évalués sur des ensembles de données de référence, mais leurs performances peuvent ne pas refléter avec précision leurs performances dans des scénarios du monde réel, qui peuvent être beaucoup plus diversifiés et imprévisibles.


Il existe deux approches pour évaluer les grands modèles de langage : une approche quantitative et une approche qualitative. Les deux viennent avec leurs mises en garde.

Évaluation quantitative

L'évaluation quantitative implique souvent des métriques d'apprentissage automatique telles que la perplexité, BLEU, la perte d'entropie croisée, etc. Des outils tels que la bibliothèque d'évaluation OpenAI, le package python lm-eval d'EleutherAI et l'évaluation holistique des modèles de langage (HELM) permettent aux utilisateurs d'évaluer leur modèles sur de nombreux benchmarks de manière quantitative.


Bien que l'évaluation quantitative soit simple, ces mesures n'aident pas nécessairement les utilisateurs à sélectionner un modèle approprié pour leur tâche spécifique. Les utilisateurs ont souvent besoin d'un modèle qui excelle dans leur tâche spécifique, comme la rédaction d'un document juridique ou l'analyse du rapport financier d'une entreprise, plutôt qu'un modèle capable de prédire le prochain jeton avec la plus grande précision.

Évaluation qualitative

L'évaluation qualitative consiste à évaluer les LLM en fonction de tâches spécifiques en utilisant des critères tels que la cohérence, la partialité, la créativité et la fiabilité. Cette évaluation manuelle est relativement lente car la rapidité et la disponibilité des évaluateurs humains peuvent la gêner. Cependant, il est possible d'optimiser le processus en appliquant les mêmes techniques d'automatisation dans l'étiquetage des données : apprentissage actif, QA programmatique, QA automatique, etc.


Une combinaison d'évaluations quantitatives et qualitatives utilisant l'ensemble de données spécifique de votre entreprise serait conseillée pour trouver le meilleur LLM à affiner ou sur lequel se baser.

Les meilleures pratiques

Comprendre les lois de mise à l'échelle

Les lois de mise à l'échelle dans l'apprentissage automatique se concentraient auparavant sur l'augmentation de la taille des modèles par rapport à la taille de l'ensemble de données à mesure que les budgets de calcul augmentaient. Cela reposait sur l’hypothèse que des modèles plus grands pourraient extraire davantage d’informations et fonctionner mieux même si la quantité de données restait constante.


Mais en 2022, DeepMind a remis en question cette approche , suggérant que les modèles sont généralement sous-entraînés et que, par conséquent, la taille des ensembles de données devrait croître parallèlement à la taille du modèle. Selon les conclusions de DeepMind, la taille des modèles et des ensembles de données devrait augmenter d'environ trois fois pour chaque multiplication par dix de la puissance de calcul. Cela implique que les modèles actuels sont inférieurs à la courbe données/calcul optimale, et que le simple fait de les agrandir ne donnerait pas de meilleurs résultats sans une augmentation correspondante des données.


Ces nouvelles lois d’échelle recommandent de déterminer d’abord la taille maximale de l’ensemble de données de haute qualité, en fonction des informations disponibles. Ensuite, la taille optimale du modèle pour cet ensemble de données peut être choisie en fonction du calcul disponible, à l'aide des lois de mise à l'échelle optimale des données de DeepMind. Il est essentiel de ne pas créer des modèles arbitrairement grands mais de trouver le bon équilibre en fonction des données. De plus, les ensembles de données plus volumineux nécessitent une expertise pour être collectés et une diversité pour améliorer la généralisation, ce qui ajoute un autre niveau de complexité au processus.

Qualité des données

Facteurs d’influence sur la qualité des données


Que vous peaufiniez ou construisiez un LLM, la qualité des modèles dépendra des données fournies. Par conséquent, vos données doivent être représentatives et largement prétraitées. La diversité des sources de données est bénéfique même pour les LLM spécifiques à un domaine.


Par exemple, Med-PaLM 2 de Google nécessitait des centaines, voire des milliers d'exemples provenant de plusieurs ensembles de données d'assurance qualité médicale et de santé pour que le modèle soit correctement affiné. Et pour créer BloombergGPT, la combinaison d'ensembles de données utilisée était composée de 51 % de données financières et de 49 % de données de domaine général pour une diversité thématique. Dans les deux cas, les chercheurs ont procédé à une conservation approfondie des données pour garantir que des données pertinentes et de haute qualité étaient utilisées pour créer des modèles efficaces.

Pré-formation et expérimentation par étapes progressives

Il n’existe pas de chemin direct lorsqu’il s’agit de créer ou de peaufiner un LLM. Comme la plupart des projets d’apprentissage automatique ou d’IA, c’est toujours une bonne mesure de commencer petit . Commencer avec un modèle plus petit sur un ensemble de données plus petit facilitera l’expérimentation. L'itération et l'introduction de modifications incrémentielles dans l'architecture du modèle, telles que la largeur, la profondeur, la rareté, etc., permettront à votre équipe d'évaluer plus facilement leur impact. Vous pouvez commencer avec des modèles existants plus anciens, les adapter à vos besoins et partir de là. Une fois que votre modèle plus petit fonctionne bien, vous pouvez augmenter progressivement la taille du modèle et de l'ensemble de données.


N'oubliez pas de sauvegarder des instantanés de votre modèle en tant que sauvegarde au cas où une solution de repli serait nécessaire. Les revers seront inévitables, que vous construisiez ou peaufiniez votre projet, il est donc essentiel d'anticiper les problèmes.

Atténuer l'instabilité

Cela nous amène à la pratique essentielle qui permet de gagner du temps et qui consiste à atténuer l’instabilité. Plus le modèle est grand, plus il est difficile à entretenir. Au-delà du surajustement et du sous-ajustement, votre modèle peut subir des problèmes tels que la disparition ou l'explosion des gradients, l'effondrement des modes, les pics de perte, l'oubli catastrophique et les contraintes matérielles.


Nous avons déjà évoqué l'oubli catastrophique, qui se produit lorsqu'un modèle obtient de mauvais résultats sur une tâche précédente après avoir introduit un nouveau type de tâche. La disparition ou l'explosion des gradients sont des problèmes courants lors de la formation de réseaux neuronaux profonds, où les gradients deviennent trop petits ou trop grands, entraînant un ralentissement ou une instabilité du processus d'apprentissage. L'effondrement des modes se produit dans les modèles génératifs et se produit lorsque le modèle génère les mêmes sorties malgré des entrées différentes. Les pics de pertes font référence à des prévisions de plus en plus mauvaises du modèle. Et enfin, travailler avec des LLM peut s'avérer difficile pour le matériel et entraîner des pannes.


Il existe plusieurs façons de vous préparer ou, à tout le moins, d’atténuer les instabilités. Celles-ci ne sont pas révolutionnaires, mais ce sont des pratiques standards que vous pouvez également voir dans différentes applications d'apprentissage profond :


Taille du lot — Il est généralement conseillé d'utiliser la plus grande taille de lot pouvant s'adapter à la mémoire de votre GPU. Des lots de plus grande taille offrent des avantages en termes d’efficacité de calcul, d’utilisation de la mémoire et d’estimation du gradient potentiellement plus précise. Ils peuvent mieux utiliser les capacités de traitement parallèle des GPU, ce qui entraîne des temps de formation plus rapides.


Utiliser des techniques de régularisation — Les techniques de régularisation telles que l'abandon et la perte de poids peuvent aider à prévenir le surajustement ou l'instabilité du modèle.


Normalisation par lots — La normalisation par lots peut aider à réduire le décalage des covariables internes, permettant une convergence plus rapide et plus stable pendant l'entraînement. Cela contribue également à atténuer le problème de la disparition des gradients en garantissant que les gradients circulent plus facilement à travers le réseau.


Choisir la bonne initialisation du poids — L’initialisation du poids joue un rôle essentiel pour atténuer l’instabilité de l’entraînement et garantir un apprentissage efficace. Une approche courante de l’initialisation du poids consiste à utiliser un petit bruit gaussien. Cela implique d'initialiser aléatoirement les poids à partir d'une distribution gaussienne avec une moyenne de zéro et un petit écart type. En ajoutant du bruit aléatoire, les poids reçoivent une diversité initiale, permettant au modèle d'explorer différentes solutions pendant l'entraînement.


Augmentation des données — Si votre modèle a du mal à se généraliser et est sujet au surajustement, l'augmentation des données peut aider à atténuer ce problème en introduisant des variations dans les données d'entraînement et en améliorant la robustesse du modèle.


Planification du taux d'apprentissage — Réduisez progressivement votre taux d'apprentissage au fil du temps pour réduire vos pertes et maintenir autant que possible la stabilité du modèle. Vous pouvez utiliser la décroissance par étapes ou la décroissance exponentielle. La décroissance progressive se produit lorsque vous réduisez le taux d'apprentissage d'un facteur à intervalles réguliers, tandis que la décroissance exponentielle réduit le taux d'apprentissage de manière exponentielle.

Conclusion

Alors que les entreprises continuent de prendre conscience de l’impact des LLM, il est logique qu’elles commencent à se demander quelle est la meilleure façon d’utiliser cet outil précieux. Choisir le bon LLM et l'adapter aux besoins de votre entreprise peut être l'option la plus simple. Cependant, diverses considérations devront encore être prises en compte pour affiner le modèle de manière efficace et de la manière la plus efficiente possible.


Premièrement, votre équipe doit être capable d’évaluer correctement une variété de LLM pour choisir le meilleur point de départ. Ils devraient être à l’aise pour expérimenter le modèle. Pour être efficaces, ils ont besoin de données de haute qualité et des meilleures pratiques à l'esprit lorsqu'ils créent une stratégie autour de la création ou de l'ajustement d'un LLM.


Quel que soit votre choix, il s'agit d'un projet complexe et ambitieux, mais comme nous l'avons déjà vu, les LLM ont un potentiel impressionnant en termes de création de valeur.

Les références:

[1] IBM et les PDG adoptent l'IA générative alors que la productivité passe en tête de leur agenda (2023), IBM Newsroom

[2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, Les GPT sont des GPT : un premier regard sur le potentiel d'impact sur le marché du travail des grands modèles linguistiques (2023), arXiv : 2303.10130v4 [econ.GN]

[3] McKinsey & Company, Le potentiel économique de l'IA générative : la prochaine frontière de productivité (2023), McKinsey Digital Insights

[4] C. Li, Démystifier GPT-3 (2023), Blog Lambda Labs

[5] J. Langston, Microsoft annonce un nouveau supercalculateur et expose sa vision des futurs travaux sur l'IA (2020), Microsoft News Source Features Innovation

[6] J. Sheikh, Le ChatGPT de la finance est là : Bloomberg combine l'IA et la Fintech (2023), Forbes.com

[7] E. d'Arcimbaud, 3 façons d'adapter un modèle de fondation à vos besoins spécifiques (2023), Kili Technology.

[8] M. Heikkilä, Comment OpenAI essaie de rendre ChatGPT plus sûr et moins biaisé (2023), MIT Technology Review.

[9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A. Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S. Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy et V. Natarajany, Vers une réponse aux questions médicales de niveau expert avec de grands modèles linguistiques (2023), arXiv : 2305.09617 v1 [cs.CL] 16 mai 2023.

[10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT : A Large Language Model for Finance (2023) , arXiv:2303.17564v2 [cs.LG]

[11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Training Compute-Optimal Large Language Models (2023), arXiv :2203.15556v1 [cs.CL]

[12] A. Pai, Guide du débutant pour créer vos propres grands modèles linguistiques à partir de zéro (2023), Analytics Vidhya.

[13] Pondérations et biais, Comment former des LLM à partir de zéro (2023), Livre blanc sur les pondérations et les biais.