TLDR 1 : l'ensemble de données n'est plus une exigence absolue
L'idée selon laquelle vous avez besoin de tonnes de données pour créer une IA basée sur du texte est maintenant partiellement dépassée.
Même un ensemble de données extrêmement petit peut produire des résultats précieux (1 phrase ~ 1 Go).
Quelque chose sur lequel presque toutes les startups sont assises ou sont capables de produire à la main.
TLDR 2 : Il a des cas d'utilisation très larges
Vous pouvez considérer GPT 3.5 comme un "stagiaire universitaire à la demande" à distance et rémunéré
Vous ne pouvez jamais faire confiance aux stagiaires pour avoir raison à 100 %, mais ils peuvent apporter une valeur utile avec une supervision, des conseils et une planification appropriés.
Une valeur qui peut maintenant croître et évoluer de manière transparente (contrairement aux vrais stagiaires humains)
TLDR 3 : coût et limites
Le modèle économique unitaire classique pour le SaaS et les services en ligne sera un défi en raison du coût de fonctionnement extrêmement élevé de la plupart des LLM
OpenAI a également un monopole (temporaire) effectif, pour l'infrastructure dans cet espace, et peut être à la fois un partenaire et un futur concurrent involontaire en même temps
Si vous étiez en vacances et que vous n'avez aucune idée de ce que sont ChatGPT ou LLM (grands modèles linguistiques), vous pouvez trouver le briefing sur la technologie ici :
Alors qu'est-ce que je veux dire en forme plus longue?
Prenez une tasse de café et installez-vous un peu…
Remarque : Cet article traite uniquement des exigences en matière de données pour les modèles textuels et ne s'applique pas aux modèles d'image dans de nombreux cas (par exemple, la vision par ordinateur).
Dans le passé, la construction d'un modèle d'IA impliquait généralement la collecte d'un ensemble de données suffisamment volumineux pour un cas d'utilisation spécifique. Différentes techniques et outils de formation de modèles d'IA existaient pour optimiser le processus de formation ou ses coûts de calcul.
Cependant, la taille et la qualité de l'ensemble de données étaient toujours l'un des facteurs prédominants dans la formation d'une IA.
Cela donnerait un graphique comme celui-ci :
Tous les chiffres sont de grandes approximations et changeront radicalement en fonction du cas d'utilisation, du modèle d'IA et de la qualité des données. Les échelles sur les axes sont intentionnellement vagues et imprécises car elles sont subjectives. Pour les numéros techniques, lisez les articles dans les citations pour des cas d'utilisation spécifiques.
L'idée générale demeure, cependant, où les ensembles de données à petite échelle produisent effectivement des données aléatoires avant de s'améliorer lentement et finalement d'être quelque peu utiles à environ 500 Go environ.
Cela a conduit à la course aux armements des ensembles de données, se produisant dans presque tous les domaines de spécialisation liés à l'IA (en particulier tout ce qui est lié à la vision par ordinateur).
Qui s'est déroulé dans plusieurs startups de 2009 à aujourd'hui, avec quelques startups notables acquises en partie pour leurs précieux ensembles de données (et généralement leurs talents).
Parce que la course aux armements ne cessait de s'intensifier, il devenait de plus en plus difficile pour les nouvelles startups de rivaliser avec leurs modèles d'IA (petits ensembles de données) contre les titulaires (ensembles de données plus volumineux).
Par exemple, chez uilicious.com (une start-up d'automatisation des tests d'interface utilisateur low-code), nous avons utilisé notre ensemble de données limité pour former un modèle d'IA (appelé TAMI v0.1). Nous avons constaté qu'il crachait des ordures la moitié du temps, ce qui nous a amenés à mettre le modèle de côté et à développer l'entreprise sans IA tout en construisant notre ensemble de données.
De manière très généralisée et non technique, les IA ainsi formées seront désormais appelées "Modèles spécialisés".
Dans la quête d'une IA véritablement universelle ou à usage général, en particulier dans le domaine des interactions vocales humaines (car les humains fabriquent la plus aléatoire de toutes les variables), des efforts ont été déployés pour former un nouveau type d'IA basée sur du texte pour des ensembles de données extrêmement volumineux. des données publiques (pensez à Wikipedia, Quora, StackOverflow et la moitié du texte Internet).
Parce que ces nouveaux modèles ont repoussé les limites de la taille des ensembles de données et de la taille du modèle (pensez à la taille du cerveau), les méthodes utilisées pour les construire ont divergé des modèles spécialisés (qui ont tendance à mettre davantage l'accent sur la précision et l'efficacité).
Les modèles d'IA textuelle entraînés de cette manière sont désormais appelés collectivement "Large Language Models" (LLM).
L'inconvénient de cette approche était énorme, empêchant son application précoce dans de nombreux cas d'utilisation :
LLM était dominé par Google (qui disposait déjà des données et avait le motif de le faire pour son assistant IA) et OpenAI au départ. Plus tard, Microsoft, Amazon, Apple, Salesforce, Meta et quelques autres ont rejoint la course. Cependant, en raison de la taille et du coût de formation d'un tel modèle, il est généralement réservé aux grandes entreprises technologiques aux poches profondes.
Bien que les premières générations de LLM aient pu produire des résultats décevants, car elles ont perdu presque tous les modèles spécialisés dans chaque tâche, les choses ont changé au fil des années et elles ont augmenté à la fois en taille de jeu de données et en taille de modèle.
Leurs avantages sont devenus plus visibles :
Cela a apporté des changements drastiques aux courbes:
Cela a également déclenché une nouvelle vague de modèles commerciaux soutenus par l'IA en 2019. Les startups pouvaient désormais former de nouveaux modèles d'IA en plus des LLM existants avec des ensembles de données à leur portée, des chatbots aux générateurs de diapositives de présentation, aux copilotes de code, à la rédaction et même aux maîtres de jeu D&D.
Ces modèles d'IA n'étaient plus du domaine exclusif des grandes entreprises technologiques. Pour une somme modique pour la formation et l'exécution de l'IA sur leur infrastructure, OpenAI et Google ont commencé à ouvrir leurs modèles pour que d'autres puissent s'en servir comme moyen de tirer profit des LLM.
Cela a également été bénéfique pour les startups, car elles n'avaient plus besoin des millions de dollars d'investissement en R&D nécessaires pour construire ces grands modèles en interne, leur permettant d'atteindre le marché plus rapidement avec leurs preuves de concept.
Les données étaient encore, en quelque sorte, reines. Cela a peut-être déplacé la courbe pour la rendre plus accessible, mais il a quand même fallu une équipe pour constituer de grands ensembles de données et ajuster le modèle.
En conséquence, alors que de nombreuses startups de 2019 ont trouvé beaucoup plus facile de construire leurs prototypes, beaucoup ont eu du mal à franchir le seuil "utile", car elles avaient besoin d'augmenter leur ensemble de données avec des rendements décroissants.
Ceci est cohérent avec les premiers essais internes des modèles d'IA uilicious.com TAMI v0.2 - alors que GPT était une énorme amélioration par rapport aux ordures, il était toujours entre intéressant et "meh".
Mais c'est là que les choses commencent vraiment à changer en 2022...
La sortie de GPT3.5 (ou chatGPT comme on l'appelle sur Internet) le mois dernier (décembre 2022) a eu d'énormes implications sur la façon dont les modèles d'IA sont formés et affinés.
Il a ouvert la possibilité de créer une IA utilisable avec des ensembles de données extrêmement petits - quelque chose auquel la plupart des startups ont accès ou peuvent créer à la main. Il s'agit d'un changement fondamental dans notre façon de penser la formation en IA.
Chez uilicious.com , nous avons été stupéfaits lorsque nous avons découvert qu'un petit échantillon d'ensemble de données inférieur à 1 Go, de notre plus grand ensemble de données d'environ 100 Go, une fois converti et optimisé avec les nouvelles techniques de formation, avait dépassé le "seuil utile" - le point auquel le L'IA pourrait être utilisée par nos utilisateurs et surpasser tout ce que nous avions auparavant.
Alors que des expériences ultérieures avec des ensembles de données plus importants ont montré des rendements décroissants. Le principal point à retenir était le peu de données nécessaires pour "créer un produit utile". Il nous a fallu moins de temps pour construire une IA de preuve de concept affinée pour notre cas d'utilisation propriétaire qu'il n'en a fallu pour écrire cet article.
En utilisant GPT3.5 comme élément de base, il est désormais possible de créer des applications d'IA utiles pour divers cas d'utilisation sans avoir besoin d'une équipe ou d'un individu spécialisé.
Selon le cas d'utilisation, l'ensemble de données peut être aussi petit qu'une seule phrase ou un seul paragraphe, ou jusqu'à 100 Mo ou 1 Go - une taille réalisable pour de nombreuses startups.
Alternativement, si vous pouvez faire en sorte que chatGPT agisse d'une manière que vous trouvez utile et utile à votre startup, vous pouvez le créer en tant que service d'IA dédié.
La réduction drastique de l'ensemble de données requis nous a permis de construire un modèle d'IA "utile" avec seulement une petite fraction de notre ensemble de données complet - quelque chose qui était auparavant "inutile" ou "impossible" à notre échelle.
À bien des égards, les données ne sont plus reines, trouver et créer des applications utiles sont les véritables faiseurs de rois avec cette nouvelle IA. Où les idées peuvent être construites et testées en semaines (et non en années).
La capture d'écran est une démonstration de notre IA en action, générant des scripts de test complets de l'interface utilisateur, à partir d'une invite, à titre d'exemple d'intégration. (une des nombreuses possibilités)
Ce qui est désormais faisable en une semaine, avec la bonne équipe, et les bonnes données.
Contactez-nous si vous êtes intéressé par l'avenir des tests d'IA et d'interface utilisateur.
GPT-3.5 et tous les autres grands modèles de langage ont des limites quant à leur précision et leur fiabilité. C'est en partie dû à leur nature de rêver des réponses .
Bien qu'en théorie (encore à prouver), étant donné un ensemble de données spécialisées suffisamment important, sa précision peut être considérablement améliorée pour des cas d'utilisation spécialisés. Cependant, si vous disposez d'un ensemble de données aussi volumineux, il est probable que vous puissiez déjà créer des "modèles spécialisés".
En fin de compte encore, cette limite de précision et de fiabilité n'est un problème critique que dans les industries sensibles (par exemple, la médecine). Dans la plupart des cas, il s'agit simplement d'une distraction dans la recherche de cas d'utilisation. Une fois que l'IA franchit le seuil "assez bon" (ce qu'elle fait).
Une approche plus saine et plus réaliste du problème consiste à imaginer GPT-3.5 comme un "stagiaire intelligent à la demande" à distance et rémunéré.
Car de manière réaliste, l'IA a tout de même les limites dans de tels cas d'usage, en plus d'être distante et en ligne :
Le seul véritable avantage du modèle d'IA par rapport aux stagiaires réels est :
L'inconvénient de l'IA sur les humains est qu'ils ne peuvent pas vous offrir de café en personne.
Une fois que vous l'avez formulé en ces termes, il devient beaucoup plus facile de comprendre comment intégrer l'IA dans les processus ou produits commerciaux existants.
Sur un plan un peu plus technique :
C'est la plus grande faiblesse de cette nouvelle approche de l'IA, qui est basée sur des modèles plus grands et meilleurs. Malheureusement, il n'y a pas de déjeuner gratuit.
Bien qu'il soit moins cher et plus facile de s'entraîner pour des tâches spécifiques en termes de taille de jeu de données, il est nettement plus coûteux à exécuter par rapport aux modèles d'IA plus traditionnels.
Ce n'est pas bon marché; le coût par invite et réponse varie entre un centime et cinquante centimes, selon la quantité de données nécessaires pour former ou utiliser dans le processus. C'est considérablement plus élevé qu'un serveur API typique, qui peut gérer un million de requêtes par dollar.
Pour le dire plus simplement, il en coûte plus cher en matériel de serveur pour gérer une requête d'IA pour un utilisateur en une seconde donnée que pour répondre à un million de demandes d'utilisateurs pour un site Web Shopify de taille moyenne typique.
Cela n'est pas dû au fait qu'OpenAI ou Azure essaient uniquement de réaliser un profit ; cela dépend de l'infrastructure matérielle du serveur pur nécessaire pour exécuter des modèles aussi volumineux.
Par conséquent, aussi puissant soit-il, l'incorporation d'un tel grand modèle d'IA a un prix élevé et peut ne pas s'appliquer à tous les cas d'utilisation en raison de cette seule limitation.
Le résultat final est que, si de nombreux cas d'utilisation peuvent bénéficier de l'utilisation d'une telle IA, tous les cas d'utilisation ne peuvent pas se le permettre ; et cela devrait être une considération importante pour toute mise en œuvre.
Pour un centre de services d'assistance, un personnel d'assistance typique peut gérer dix clients par heure, chaque client ayant en moyenne quinze invites de va-et-vient. S'il s'agit de cinq cents par invite, cela représente 7,50 $ de l'heure si une IA a été utilisée pour imiter un seul personnel d'assistance.
Ce n'est pas seulement moins cher que le salaire médian typique du personnel des centres d'appels américains de 15 $ de l'heure, mais c'est aussi beaucoup plus flexible (pas de frais généraux de personnel, peut augmenter et diminuer instantanément).
De même, il est également possible d'adopter la même approche "interne", où cette IA de support sert uniquement de support L1, permettant aux humains de gérer les cas les plus compliqués. Dans ce scénario, cela a du sens lorsqu'il est fait et mis à l'échelle de manière appropriée sur une base par invite (ou par heure).
L'employé de bureau moyen répond à environ quarante e-mails par jour ouvrable, soit environ 880 e-mails par mois. Même à cinq cents par e-mail, cela reviendrait à 44 $ par mois en moyenne par utilisateur uniquement pour gérer les réponses aux e-mails.
Le pire, c'est qu'il est raisonnable de s'attendre à ce qu'avec un tel service, un employé de bureau puisse répondre à plus d'e-mails en moyenne. Il ne serait pas déraisonnable que la moyenne double à deux mille e-mails, soit cent dollars par mois, rien qu'en frais d'IA purs.
Dans ce cas, si la startup SaaS devait faire une tarification simple, disons de dix dollars par mois, elle pourrait subir de lourdes pertes potentielles au fil du temps.
Ce coût de tarification et ce modèle commercial vont à l'encontre du modèle de tarification par utilisateur typique qui est courant dans le SaaS. C'est pourquoi il est courant que de telles intégrations aient un système de "crédits" comme moyen de plafonner l'utilisation et de facturation d'une telle IA.
On s'attend à ce qu'au fil du temps, avec un meilleur réglage, la concurrence et l'optimisation des coûts, le prix par invite puisse baisser. Une autre méthode notable consiste à utiliser d'abord l'IA d'origine plus chère au lancement tout en collectant plus de données, qui sont ensuite utilisées pour former un modèle plus spécialisé et moins cher. Cependant, toutes ces méthodes entrent dans des détails techniques approfondis, qui peuvent être uniques pour chaque cas d'utilisation, et nécessitent généralement beaucoup de temps et d'efforts.
Et même dans ce cas, bien que cela puisse représenter dix fois des économies drastiques, il est fondamentalement plus cher que les services d'API SaaS traditionnels.
Bien qu'il existe des grands modèles de langage open source, en termes très francs, ils sont soit comparables à GPT2, soit quelque part entre cela et GPT3.5.
Pour certains cas simples, une fois qu'ils commencent à constituer un ensemble de données raisonnable, ces modèles plus petits (et moins chers) peuvent être utiles pour migrer vers un moyen de réduction des coûts.
Cependant, pour d'autres cas complexes, une telle décision peut ne pas être possible en raison de la complexité de leur IA, donnant à OpenAI un monopole effectif sans aucune incitation à baisser les prix.
On pense cependant qu'au cours des deux prochaines années, la communauté open source rattrapera son retard et, ce faisant, permettra peut-être aux prix de s'améliorer grâce à de meilleurs fournisseurs d'infrastructures alternatives.
Cependant, comme il s'agit d'un avenir incertain, il convient de le souligner.
Bien que ce ne soit pas intentionnel, il est essentiel que les startups de cet espace créent des ensembles de fonctionnalités défendables au-delà de leurs robots d'invite de texte.
Par exemple, il y avait plusieurs startups plus petites qui ont construit des robots basés sur GPT3 ou SaaS autour de cas d'utilisation spécifiques d'invite à texte, comme des générateurs de noms ou des générateurs d'idées avec une interface simple.
Littéralement du jour au lendemain, avec le lancement de chatGPT, ces petits SaaS de texte à texte à usage unique ont été rendus superflus, car les gens ordinaires peuvent désormais obtenir gratuitement la même fonctionnalité via chatGPT.
Bien que l'intention d'OpenAI n'ait peut-être pas été de rivaliser avec les partenaires mêmes qui s'appuient sur eux, il est peut-être inévitable de le faire, car ils continuent d'améliorer leur modèle et chatGPT.
En tant que tel, pour s'assurer que cela ne se répète pas, il est essentiel pour tout modèle commercial autour de cette technologie de déterminer quelle valeur supplémentaire ils apportent au-delà de la simple invite au texte, peut-être une meilleure expérience utilisateur ou des intégrations avec des outils existants, etc.
Un rappel du modèle interne, ne vous attendez pas à l'utiliser pour guérir le cancer demain. Alors, s'il vous plaît, n'insérez pas l'IA dans chaque produit et démarrage sur Terre alors que cela ne profite pas à l'utilisateur final.
~ Jusqu'à la prochaine fois 🖖 vivre longtemps et prospérer
Eugene Cheah : CTO de uilicious.com
Cet article a été initialement publié sur la sous- pile de l'auteur
swyx fait également un excellent travail en essayant de consolider diverses informations, dans cet espace rapidement chaotique et en pleine croissance, qui vaut vraiment la peine d'être lu (recommandé !!!)
Actuellement, BLOOM est le principal concurrent open source pour GPT3 (pas 3.5): https://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
Dans l'industrie de l'IA/ML, la capacité d'un LLM à apprendre rapidement de nouveaux concepts et à les appliquer est quantifiée et mesurée par des tests appelés apprentissages "Zero-Shot", "One-Shot" et "Few-Shot".
Généralement, plus l'IA réussit dans ces tests, moins vous avez besoin de données pour l'entraîner pour votre cas d'utilisation.
À mon avis : cela a du sens avec le recul - qui aurait pensé qu'un réseau de neurones inspiré des humains agirait comme des humains ? Et bénéficiez du modèle éducatif T-Shape. Lorsqu'un large éventail de connaissances généralisées aide à améliorer sa capacité à acquérir des connaissances spécialisées dans un domaine d'expertise. (cette déclaration n'est étayée par aucune donnée)