paint-brush
Open-Source : la prochaine étape de la révolution de l'IApar@minio
109,716 lectures
109,716 lectures

Open-Source : la prochaine étape de la révolution de l'IA

par MinIO6m2024/01/25
Read on Terminal Reader

Trop long; Pour lire

Cette exploration de l’avenir de l’IA open source disséquera les « prétendants » et défendra les « vrais » dans le développement de l’IA pour découvrir le moteur d’innovation qu’est le logiciel open source qui bourdonne derrière tout cela. L’essentiel est que l’IA open source engendrera une pile de données open source.
featured image - Open-Source : la prochaine étape de la révolution de l'IA
MinIO HackerNoon profile picture
0-item
1-item


Imaginez un avenir dans lequel l’IA ne serait pas enfermée dans les coffres-forts des entreprises, mais construite à l’air libre, brique par brique, par une communauté mondiale d’innovateurs. Où la collaboration, et non la compétition, alimente les progrès, et les considérations éthiques ont le même poids que la performance brute. Ce n’est pas de la science-fiction, c’est la révolution open source qui se prépare au cœur du développement de l’IA. Mais les Big Tech ont leur propre agenda, masquant les modèles restreints comme open source tout en tentant de récolter les bénéfices d’une communauté véritablement ouverte.


Éliminons les couches de code et dévoilons la vérité derrière ces efforts. Cette exploration de l’avenir de l’IA open source disséquera les « prétendants » et défendra les « vrais » dans le développement de l’IA pour découvrir le moteur d’innovation qu’est le logiciel open source qui bourdonne derrière tout cela. L’essentiel est que l’IA open source engendrera une pile de données open source.


Le besoin

Un article récent de Matteo Wong dans The Atlantic, " L’IA « ouverte » n’a jamais existé " décrit une tendance croissante dans le monde universitaire et dans la communauté du logiciel pour une IA véritablement open source. « L’idée est de créer des modèles relativement transparents que le public peut utiliser, étudier et reproduire plus facilement et à moindre coût, en tentant de démocratiser une technologie hautement concentrée qui pourrait avoir le potentiel de transformer le travail, la police, les loisirs et même la religion. » Ce même Atlantic suggère que les grandes entreprises technologiques comme Meta tentent de répondre à ce besoin du marché en « lavant à l'air libre » leurs produits. Ils assument les qualités et la réputation positive de la communauté open source sans réellement ouvrir leur produit. Mais rien ne remplace la réalité. En effet, les véritables logiciels open source stimulent l’innovation et la collaboration : deux qualités qui sont désespérément nécessaires pour progresser de manière responsable dans l’IA.


Les prétendants

LLaMA 2 est un grand modèle de langage créé par Meta dont l'utilisation est gratuite à la fois pour la recherche et pour des usages commerciaux. Ce qui amène certains à suggérer que LLaMA 2 est open source. Cependant, Meta a mis en place des restrictions sévères sur l'utilisation de son modèle. Par exemple, LLaMA 2 ne peut pas être utilisé pour améliorer un autre grand modèle de langage. Une position qui va à l’encontre des traditions modèle d'innovation collective privée de logiciel ouvert qui promeut la révélation libre et ouverte de l'innovation au profit de tous les membres de la communauté du logiciel.


Meta a encore paralysé l'utilisation de leur modèle en ne permettant pas l'intégration de LLaMA 2 avec des produits qui comptent 700 millions d'utilisateurs mensuels et en ne divulguant pas les données sur lesquelles leur modèle est formé ni le code qu'ils ont utilisé pour le construire. En ne divulguant pas, Meta s’expose à des questions de préjugés inhérents et de discrimination accidentelle. Un modèle formé sur des données discriminatoires proposer des réponses discriminatoires . Sans que la communauté logicielle dans son ensemble ne soit en mesure de visualiser ni le code utilisé pour construire le modèle pour voir si des garanties ont été intégrées, ni les données utilisées pour le former, nous restons dans le flou sur ces questions morales. À une époque où recherche publiée sur l'IA est plus soucieux de performance que de justice et de respect, cette obscurcissement est particulièrement troublant.


Les vrais

Mistral IA a gagné en reconnaissance pour ses grands modèles de langage open source, notamment Mistral 7B et Mixtral 8x7B. L'entreprise s'efforce d'assurer une large accessibilité à ses modèles d'IA, en encourageant la révision, la modification et la réutilisation par la communauté du logiciel ouvert.


vLLM signifie « service de modèles vectorisés à faible latence » et est une bibliothèque open source spécialement conçue pour accélérer et optimiser les grands modèles de langage (LLM). Il s'agit d'un outil puissant qui peut améliorer considérablement les performances et la convivialité des LLM. Cela en fait un atout précieux pour les développeurs travaillant sur une variété d’applications d’IA, des chatbots et assistants virtuels à la création de contenu et à la génération de code. À tel point que Mistral recommande d'utiliser vLLM comme serveur d'inférence pour les modèles 7B et 8x7B.


EleutherAI est un laboratoire de recherche à but non lucratif sur l'IA qui est passé d'un serveur Discord pour discuter de GPT-3 à une organisation de recherche à but non lucratif de premier plan. Le groupe est connu pour son travail de formation et de promotion des normes scientifiques ouvertes en matière de traitement du langage naturel. Ils ont publié divers grands modèles de langage open source et sont impliqués dans des projets de recherche liés à l'alignement et à l'interprétabilité de l'IA. Leur Harnais LM Le projet est probablement le principal outil d'évaluation open source pour les modèles de langage.


Phi-2 est le LLM de Microsoft qui dépasse son poids. Formé sur un mélange de textes synthétiques et de sites Web filtrés, ce modèle petit mais puissant excelle dans des tâches telles que la réponse aux questions, la synthèse et la traduction. Ce qui distingue vraiment Phi-2, c'est l'accent mis sur le raisonnement et la compréhension du langage, conduisant à des performances impressionnantes même sans techniques d'alignement avancées.


De nombreux modèles d’intégration open source compétents renforcent l’espace global de l’IA générative open source. Il s'agit de l'état actuel de l'art en matière d'open source et incluent EAU-Large-V1 et multilingue-e5-largel .


Il y en a bien d’autres dans ce domaine en constante évolution. Cette liste limitée n’est qu’un début.


L’Open Source stimule l’innovation

Adoptant une philosophie d'innovation ouverte extrême, les entreprises qui participent véritablement au développement de logiciels open source remettent en question les notions traditionnelles d'avantage concurrentiel en reconnaissant que Tous les bons codes et toutes les bonnes idées ne résident pas au sein de leur organisation . Ce changement soutient le argument que les innovations partagées au sein de l'écosystème open source conduisent à une croissance plus rapide du marché, offrant même aux petites entreprises de logiciels disposant de fonds de R&D plus limités possibilité de bénéficier des retombées de la R&D présentes dans les logiciels open source. En effet, contrairement à l'externalisation traditionnelle, l'innovation ouverte améliore les ressources internes en tirant parti de l’intelligence collective de la communauté, sans diminuer les efforts de R&D internes. Cela signifie que les éditeurs de logiciels open source n'ont pas à sacrifier leurs budgets pour poursuivre un leadership éclairé et coder en dehors de leur organisation.


De plus, les éditeurs de logiciels open source stimulent stratégiquement l'innovation en publier le code tôt et souvent , reconnaissant la nature cumulative du processus d'innovation dans la communauté du logiciel. Tout cela pour dire quelque chose que beaucoup reconnaissent déjà : les logiciels Open Source sont le moteur de l’innovation.


L'Open Source favorise la collaboration

À travers la mise en réseau Dans la communauté des logiciels open source, les entrepreneurs sont capables d’atteindre leurs objectifs à court et à long terme. Les objectifs de profit à court terme construisent les entreprises et les objectifs de profit à long terme les soutiennent. Dans le même temps, cet effort de mise en réseau perpétue le réseau lui-même, le développant pour le prochain entrepreneur. Il est bien connu que les plateformes open source donnent accès au code source, permettant aux développeurs de créer des mises à niveau, des plug-ins et d'autres logiciels et de les utiliser selon leurs besoins. Ce type particulier de collaboration a connu un essor avec l'adoption généralisée de Kubernetes par la communauté logicielle au sens large. Aujourd’hui plus que jamais, les technologies modernes fonctionnent ensemble avec très peu de frictions et peuvent être utilisées en quelques minutes presque n’importe où.


Les grandes entreprises technologiques reconnaissent cette profonde collaboration inhérente à la communauté open source lorsqu'elles publient librement les frameworks, bibliothèques et langages qu'elles ont créés pour maintenir et développer des outils internes. Cela élargit le bassin de développeurs capables de travailler sur leurs produits et commence à établir la norme en matière de fonctionnement de technologies similaires. Ce même article d'Atlantic cite le fondateur de Meta, Mark Zuckerberg, disant que cela a été « très utile pour nous de fournir cela car désormais, tous les meilleurs développeurs de l'industrie utilisent des outils que nous utilisons également en interne ».


L’Open Source engendre l’Open Source

Ce sont ces facteurs qui expliquent pourquoi nous constatons très souvent des synergies entre les sociétés open source. Les sociétés d'IA et de ML open source développeront naturellement des solutions avec d'autres produits open source, depuis des produits fondamentaux comme le stockage d'objets jusqu'aux outils de visualisation. Lorsqu’une entreprise open source se mobilise, nous le faisons tous. Cette approche cohérente et mixte est probablement notre meilleur pari pour développer une IA qui adopte une approche centrée sur l’humain. Ces forces naturelles inhérentes au besoin du marché en matière d’IA open source, combinées aux qualités d’innovation et de collaboration des logiciels open source, piloteront la pile de données d’IA open source.


Veuillez vous joindre et contribuer à cette conversation et à notre communauté en nous envoyant un e-mail à [email protected] ou en nous envoyant un message sur notre chaîne Slack .


Également publié ici .