Alors que nous nous précipitons vers un avenir rempli d'intelligence artificielle, de nombreux commentateurs se demandent à voix haute si nous n'allons pas trop vite. Les géants de la technologie, les chercheurs et les investisseurs semblent tous être dans une course folle pour développer l'IA la plus avancée.
Mais envisagent-ils les risques, demandent les inquiets ?
La question n'est pas entièrement sans objet, et soyez assurés qu'il existe des centaines d' esprits incisifs qui envisagent les possibilités dystopiques - et les moyens de les éviter.
Mais le fait est que l'avenir est inconnu, les implications de cette nouvelle technologie puissante sont aussi inimaginables que l'étaient les médias sociaux à l'avènement d'Internet.
Il y aura du bon et du mauvais, mais il y aura de puissants systèmes d'intelligence artificielle dans notre avenir et des IA encore plus puissantes dans l'avenir de nos petits-enfants. Cela ne peut pas être arrêté, mais cela peut être compris.
J'ai parlé de cette nouvelle technologie avec Ilya Stutskever , co-fondateur d'OpenAI, l'institut de recherche en IA à but non lucratif dont les retombées sont susceptibles d'être parmi les entités les plus rentables au monde.
Ma conversation avec Ilya a eu lieu peu de temps avant la sortie de GPT-4, la dernière itération du système d'IA géant d'OpenAI, qui a consommé des milliards de mots de texte - plus qu'un être humain ne pourrait lire dans sa vie.
GPT signifie Generative Pre-trained Transformer, trois mots importants pour comprendre ce Polyphème homérique. Transformer est le nom de l'algorithme au cœur du géant.
Pré-formé fait référence à l'éducation du mastodonte avec un corpus massif de textes, lui enseignant les modèles et les relations sous-jacents du langage - en bref, lui apprenant à comprendre le monde.
Génératif signifie que l'IA peut créer de nouvelles pensées à partir de cette base de connaissances.
L'IA a déjà pris en charge de nombreux aspects de nos vies. Mais ce qui vient est bien plus avancé, bien plus puissant. Nous nous dirigeons vers un territoire inconnu. Et cela vaut la peine de prendre un moment pour réfléchir à ce que cela signifie.
Mais il est également important de ne pas réagir de manière excessive, de ne pas se retirer comme des tortues du soleil éclatant qui brille maintenant sur nous. Dans le poème épique d'Homère "L'Odyssée", le cyclope Polyphème piège Ulysse et son équipage dans sa grotte, avec l'intention de les manger.
Mais Ulysse parvient à aveugler le géant et à s'échapper. L'IA ne nous mangera pas.
Ilya Sutskever est cofondateur et scientifique en chef d'OpenAI et l'un des principaux esprits derrière le grand modèle de langage GPT-4 et sa progéniture publique, ChatGPT, dont je ne pense pas qu'il soit exagéré de dire qu'il change le monde.
Ce n'est pas la première fois qu'Ilya change le monde. Il a été le principal moteur d'AlexNet, le réseau de neurones convolutifs dont les performances spectaculaires ont stupéfié la communauté scientifique en 2012 et déclenché la révolution de l'apprentissage en profondeur.
Ce qui suit est une transcription éditée de notre conversation.
CRAIG : Ilya, je sais que vous êtes né en Russie. Qu'est-ce qui vous a intéressé à l'informatique, si c'était l'impulsion initiale, ou aux neurosciences ou quoi que ce soit.
ILYA : En effet, je suis né en Russie. J'ai grandi en Israël, puis à l'adolescence, ma famille a immigré au Canada. Mes parents disent que j'ai été intéressé par l'IA dès mon plus jeune âge. J'étais aussi très motivé par la conscience. J'en étais très troublé, et j'étais curieux de savoir ce qui pourrait m'aider à mieux le comprendre.
J'ai commencé à travailler avec Geoff Hinton [l'un des fondateurs de l'apprentissage en profondeur, le genre d'IA derrière GPT-4, et professeur à l'Université de Toronto à l'époque] très tôt quand j'avais 17 ans. Parce que nous avons déménagé au Canada et je a immédiatement pu rejoindre l'Université de Toronto. Je voulais vraiment faire de l'apprentissage automatique, car cela semblait être l'aspect le plus important de l'intelligence artificielle qui, à l'époque, était complètement inaccessible.
C'était en 2003. Nous tenons pour acquis que les ordinateurs peuvent apprendre, mais en 2003, nous tenions pour acquis que les ordinateurs ne pouvaient pas apprendre. La plus grande réussite de l'IA à l'époque était Deep Blue, le moteur de jeu d'échecs [d'IBM] [qui a battu le champion du monde Garry Kasparov en 1997].
Mais là, vous avez ce jeu et vous avez cette recherche, et vous avez ce moyen simple de déterminer si une position est meilleure qu'une autre. Et il ne semblait vraiment pas que cela puisse être applicable au monde réel car il n'y avait pas d'apprentissage. Apprendre était ce grand mystère. Et j'étais vraiment, vraiment intéressé à apprendre. À ma grande chance, Geoff Hinton était professeur à l'université et nous avons commencé à travailler ensemble presque tout de suite.
Alors, comment fonctionne l'intelligence ? Comment pouvons-nous faire en sorte que les ordinateurs soient ne serait-ce que légèrement intelligents ? J'avais l'intention très explicite d'apporter une contribution très modeste mais réelle à l'IA. Donc, la motivation était, pourrais-je comprendre comment fonctionne l'intelligence ? Et aussi y contribuer ? C'était donc ma motivation initiale. C'était il y a presque exactement 20 ans.
En un mot, j'ai réalisé que si vous vous entraînez, un grand réseau de neurones sur un grand et un réseau de neurones profond sur un ensemble de données suffisamment grand qui spécifie une tâche compliquée que les gens font, comme la vision, alors vous réussirez nécessairement. Et la logique était irréductible ; nous savons que le cerveau humain peut résoudre ces tâches et peut les résoudre rapidement. Et le cerveau humain n'est qu'un réseau de neurones avec des neurones lents.
Donc, nous avons juste besoin de prendre un réseau de neurones plus petit mais lié et de le former sur les données. Et le meilleur réseau de neurones à l'intérieur de l'ordinateur sera lié au réseau de neurones que nous avons dans notre cerveau et qui effectue cette tâche.
CRAIG : En 2017, l'article "Attention Is All You Need" est sorti, présentant l'attention personnelle et les transformateurs. À quel moment le projet GPT a-t-il démarré ? Y avait-il une intuition au sujet des transformateurs ?
ILYA: Donc, pour le contexte, chez OpenAI depuis les premiers jours, nous avons exploré l'idée que prédire la prochaine chose est tout ce dont vous avez besoin. Nous l'explorions avec les réseaux de neurones beaucoup plus limités de l'époque, mais l'espoir était que si vous avez un réseau de neurones capable de prédire le mot suivant, cela résoudra l'apprentissage non supervisé. Ainsi, avant les GPT, l'apprentissage non supervisé était considéré comme le Saint Graal de l'apprentissage automatique.
Maintenant, c'est complètement résolu, et personne n'en parle même, mais c'était un Saint Graal. C'était très mystérieux, et nous avons donc exploré l'idée. J'étais vraiment excité à ce sujet, que prédire assez bien le mot suivant va vous donner un apprentissage non supervisé.
Mais nos réseaux de neurones n'étaient pas à la hauteur de la tâche. Nous utilisions des réseaux de neurones récurrents. Lorsque le transformateur est sorti, littéralement dès que l'article est sorti, littéralement le lendemain, il était clair pour moi, pour nous, que les transformateurs abordaient les limites des réseaux de neurones récurrents, de l'apprentissage des dépendances à long terme.
C'est une chose technique. Mais nous sommes tout de suite passés aux transformateurs. Et ainsi, l'effort GPT très naissant s'est poursuivi ensuite avec le transformateur. Cela a commencé à mieux fonctionner, et vous l'agrandissez, puis vous continuez à l'agrandir.
Et c'est ce qui a finalement conduit au GPT-3 et essentiellement où nous en sommes aujourd'hui.
CRAIG : La limitation des grands modèles linguistiques tels qu'ils existent est que leurs connaissances sont contenues dans la langue sur laquelle ils sont formés. Et la plupart des connaissances humaines, je pense que tout le monde en convient, sont non linguistiques.
Leur objectif est de satisfaire la cohérence statistique de l'invite. Ils n'ont pas une compréhension sous-jacente de la réalité à laquelle le langage se rapporte. J'ai demandé à ChatGPT de me parler de moi. Il reconnaissait que je suis journaliste, que j'ai travaillé dans ces différents journaux, mais il n'arrêtait pas de parler de récompenses que je n'avais jamais remportées. Et tout cela se lit magnifiquement, mais peu de choses sont liées à la réalité sous-jacente. Y a-t-il quelque chose qui est fait pour régler ce problème dans vos recherches futures?
ILYA : Dans quelle mesure sommes-nous convaincus que ces limitations que nous voyons aujourd'hui seront toujours présentes dans deux ans ? Je ne suis pas si confiant. Il y a un autre commentaire que je veux faire à propos d'une partie de la question, c'est que ces modèles apprennent simplement des régularités statistiques et donc ils ne savent pas vraiment quelle est la nature du monde.
J'ai un point de vue qui diffère de celui-ci. En d'autres termes, je pense que l'apprentissage des régularités statistiques est bien plus important qu'il n'y paraît.
La prédiction est aussi un phénomène statistique. Pourtant, pour prédire, vous devez comprendre le processus sous-jacent qui a produit les données. Vous devez comprendre de plus en plus le monde qui a produit les données.
Au fur et à mesure que nos modèles génératifs deviendront extraordinairement bons, ils auront, je le prétends, un degré choquant de compréhension du monde et de nombre de ses subtilités. C'est le monde vu à travers le prisme du texte. Il tente d'en savoir toujours plus sur le monde à travers une projection du monde sur l'espace du texte tel qu'il est exprimé par les êtres humains sur internet.
Mais encore, ce texte exprime déjà le monde. Et je vais vous donner un exemple, un exemple récent, qui je pense est vraiment révélateur et fascinant. J'ai vu cette interaction vraiment intéressante avec [ChatGPT] où [ChatGPT] est devenu combatif et agressif lorsque l'utilisateur lui a dit qu'il pensait que Google était un meilleur moteur de recherche que Bing.
Quelle est la bonne manière de penser à ce phénomène ? Qu'est-ce que ça veut dire? Vous pouvez dire qu'il s'agit simplement de prédire ce que les gens feraient et que les gens feraient cela, ce qui est vrai. Mais peut-être arrivons-nous maintenant à un point où le langage de la psychologie commence à être approprié pour comprendre le comportement de ces réseaux de neurones.
Parlons maintenant des limites. Il se trouve en effet que ces réseaux de neurones ont tendance à halluciner. C'est parce qu'un modèle de langage est idéal pour apprendre sur le monde, mais il l'est un peu moins pour produire de bons résultats. Et il y a diverses raisons techniques à cela. Il y a des raisons techniques pour lesquelles un modèle de langage est bien meilleur pour apprendre le monde, apprendre des représentations incroyables d'idées, de concepts, de personnes, de processus qui existent, mais ses résultats ne sont pas aussi bons qu'on pourrait l'espérer, ou plutôt aussi bons qu'ils pourraient l'être.
ILYA : C'est pourquoi, par exemple, pour un système comme ChatGPT, qui est un modèle de langage, il y a un processus de formation d'apprentissage par renforcement supplémentaire. Nous l'appelons l'apprentissage par renforcement à partir de la rétroaction humaine.
On peut dire que dans le processus de pré-formation, vous voulez tout savoir sur le monde. Avec l'apprentissage par renforcement à partir de la rétroaction humaine, nous nous soucions des résultats. Nous disons, chaque fois que la sortie est inappropriée, ne recommencez pas. Chaque fois que la sortie n'a pas de sens, ne recommencez pas.
Et il apprend rapidement à produire de bons résultats. Mais c'est le niveau des sorties, ce qui n'est pas le cas lors du processus de pré-apprentissage du modèle de langage.
Maintenant, en ce qui concerne les hallucinations, il a une propension à inventer des trucs de temps en temps, et c'est quelque chose qui limite aussi grandement leur utilité.
Mais j'ai bon espoir qu'en améliorant simplement cet apprentissage par renforcement ultérieur à partir de l'étape de rétroaction humaine, nous pourrons lui apprendre à ne pas halluciner. Maintenant, vous pourriez dire est-ce que ça va vraiment apprendre? Ma réponse est, découvrons.
La façon dont nous faisons les choses aujourd'hui est que nous embauchons des gens pour apprendre à notre réseau de neurones à se comporter, pour apprendre à ChatGPT à se comporter. Vous interagissez simplement avec lui, et il voit de votre réaction, il en déduit, oh, ce n'est pas ce que vous vouliez. Vous n'êtes pas satisfait de sa sortie.
Par conséquent, le résultat n'était pas bon et il devrait faire quelque chose de différent la prochaine fois. Je pense qu'il y a de fortes chances que cette approche puisse traiter complètement les hallucinations.
CRAIG : Yann LeCun [scientifique en chef de l'IA chez Facebook et un autre pionnier de l'apprentissage en profondeur] estime que ce qui manque aux grands modèles de langage, c'est ce modèle mondial sous-jacent qui est non linguistique auquel le modèle de langage peut se référer. Je voulais savoir ce que vous en pensiez et si vous l'aviez exploré.
ILYA : J'ai examiné la proposition de Yann LeCun et il y a un certain nombre d'idées là-dedans, et elles sont exprimées dans un langage différent et il y a peut-être quelques petites différences par rapport au paradigme actuel, mais à mon avis, elles ne sont pas très significatives.
La première affirmation est qu'il est souhaitable pour un système d'avoir une compréhension multimodale où il ne connaît pas seulement le monde à partir du texte.
Et mon commentaire là-dessus sera qu'en effet la compréhension multimodale est souhaitable parce que vous en apprenez plus sur le monde, vous en apprenez plus sur les gens, vous en apprenez plus sur leur condition, et ainsi le système sera capable de comprendre quelle est la tâche qu'il est censé faire résoudre, et les gens et ce qu'ils veulent mieux.
Nous avons fait pas mal de travail là-dessus, notamment sous la forme de deux réseaux de neurones majeurs que nous avons créés. L'un s'appelle Clip et l'autre s'appelle Dall-E. Et tous deux s'orientent vers cette direction multimodale.
Mais je veux aussi dire que je ne vois pas la situation comme binaire, ou que si vous n'avez pas de vision, si vous ne comprenez pas le monde visuellement ou à partir de la vidéo, alors les choses ne fonctionneront pas.
Et j'aimerais plaider en faveur de cela. Donc, je pense que certaines choses sont beaucoup plus faciles à apprendre à partir d'images et de diagrammes, etc., mais je prétends que vous pouvez toujours les apprendre uniquement à partir de texte, mais plus lentement. Et je vais vous donner un exemple. Considérez la notion de couleur.
On ne peut sûrement pas apprendre la notion de couleur à partir du texte uniquement, et pourtant quand on regarde les plongements — je dois faire un petit détour pour expliquer le concept d'un plongement. Chaque réseau de neurones représente des mots, des phrases, des concepts à travers des représentations, des « incorporations », qui sont des vecteurs de grande dimension.
Et nous pouvons regarder ces vecteurs de grande dimension et voir ce qui ressemble à quoi ; comment le réseau voit-il tel ou tel concept ? Et donc, nous pouvons regarder les incorporations de couleurs et il sait que le violet ressemble plus au bleu qu'au rouge, et il sait que le rouge ressemble plus à l'orange qu'au violet. Il sait toutes ces choses juste à partir du texte. Comment est-ce possible ?
Si vous avez une vision, les distinctions entre les couleurs vous sautent aux yeux. Vous les percevez immédiatement. Alors qu'avec le texte, cela vous prend plus de temps, peut-être savez-vous parler, et vous comprenez déjà la syntaxe, les mots et la grammaire, et ce n'est que beaucoup plus tard que vous commencez réellement à comprendre les couleurs.
Donc, ce sera mon point sur la nécessité de la multimodalité : je prétends que ce n'est pas nécessaire, mais c'est très certainement utile. Je pense que c'est une bonne direction à suivre. Je ne le vois tout simplement pas dans des affirmations aussi tranchées.
Ainsi, la proposition dans l'article [de LeCun] prétend que l'un des grands défis est de prédire des vecteurs de grande dimension qui ont une incertitude à leur sujet.
Mais une chose que j'ai trouvée surprenante, ou du moins non reconnue dans l'article, c'est que les transformateurs autorégressifs actuels ont déjà la propriété.
Je vais vous donner deux exemples. La première consiste, étant donné une page dans un livre, à prédire la page suivante dans un livre. Il pourrait y avoir tellement de pages possibles qui suivent. C'est un espace très compliqué, de grande dimension, et ils s'en occupent très bien. Il en va de même pour les images. Ces transformateurs autorégressifs fonctionnent parfaitement sur les images.
Par exemple, comme avec OpenAI, nous avons travaillé sur l'iGPT. Nous avons juste pris un transformateur, et nous l'avons appliqué aux pixels, et cela a très bien fonctionné, et cela pouvait générer des images de manière très compliquée et subtile. Avec Dall-E 1, même chose.
Donc, la partie où je pensais que l'article faisait un commentaire fort sur les endroits où les approches actuelles ne peuvent pas gérer la prédiction de distributions de grande dimension - je pense qu'elles le peuvent certainement.
CRAIG: Sur cette idée d'avoir une armée de formateurs humains qui travaillent avec ChatGPT ou un grand modèle de langage pour le guider en effet avec l'apprentissage par renforcement, simplement intuitivement, cela ne semble pas être un moyen efficace d'enseigner à un modèle le sous-jacent réalité de sa langue.
ILYA : Je ne suis pas d'accord avec la formulation de la question. Je prétends que nos modèles pré-formés savent déjà tout ce qu'ils doivent savoir sur la réalité sous-jacente. Ils ont déjà cette connaissance du langage et aussi une grande connaissance des processus qui existent dans le monde et qui produisent ce langage.
Ce que les grands modèles génératifs apprennent sur leurs données - et dans ce cas, les grands modèles de langage - sont des représentations compressées des processus du monde réel qui ont produit ces données, ce qui signifie non seulement les gens et quelque chose sur leurs pensées, quelque chose sur leurs sentiments, mais aussi quelque chose sur la condition dans laquelle se trouvent les gens et les interactions qui existent entre eux.
Les différentes situations dans lesquelles une personne peut se trouver. Toutes ces situations font partie de ce processus compressé représenté par le réseau neuronal pour produire le texte. Plus le modèle de langage est bon, meilleur est le modèle génératif, plus la fidélité est élevée, mieux il capture ce processus.
Maintenant, l'armée d'enseignants, comme vous le dites, en effet, ces enseignants utilisent également l'assistance de l'IA. Ces enseignants ne sont pas seuls. Ils travaillent avec nos outils et les outils font la majorité du travail. Mais vous devez avoir une surveillance; vous devez demander à des personnes d'examiner le comportement, car vous souhaitez éventuellement atteindre un niveau de fiabilité très élevé.
Il y a en effet beaucoup de motivation pour le rendre le plus efficace et le plus précis possible afin que le modèle de langage résultant se comporte le mieux possible.
Ilya : Alors oui, il y a ces enseignants humains qui enseignent le modèle de comportement souhaité. Et la manière dont ils utilisent les systèmes d'IA ne cesse d'augmenter, de sorte que leur propre efficacité ne cesse d'augmenter.
Ce n'est pas sans rappeler un processus d'éducation, comment bien agir dans le monde.
Nous devons faire une formation supplémentaire pour nous assurer que le modèle sait que l'hallucination n'est jamais acceptable. Et c'est cette boucle d'apprentissage par renforcement de l'enseignant humain ou une autre variante qui l'enseignera.
Quelque chose ici devrait fonctionner. Et nous le saurons très bientôt.
CRAIG : Où cela va-t-il ? Quoi, la recherche sur laquelle vous vous concentrez en ce moment ?
ILYA : Je ne peux pas parler en détail des recherches spécifiques sur lesquelles je travaille, mais je peux mentionner certaines des recherches à grands traits. Je suis très intéressé à rendre ces modèles plus fiables, plus contrôlables, à les faire apprendre plus rapidement à partir des données de cours, moins d'instructions. Faites-les en sorte qu'effectivement ils n'hallucinent pas.
CRAIG : Je vous ai entendu dire que nous avions besoin de processeurs plus rapides pour pouvoir évoluer davantage. Et il semble que la mise à l'échelle des modèles, qu'il n'y ait pas de fin en vue, mais la puissance nécessaire pour former ces modèles, nous atteignons la limite, du moins la limite socialement acceptée.
ILYA : Je ne me souviens pas du commentaire exact que j'ai fait et auquel vous faites référence, mais vous voulez toujours des processeurs plus rapides. Bien sûr, la puissance ne cesse d'augmenter. De manière générale, le coût augmente.
Et la question que je poserais n'est pas de savoir si le coût est élevé, mais si ce que nous obtenons en payant ce coût l'emporte sur le coût. Peut-être que vous payez tout ce coût et que vous n'obtenez rien, alors oui, ça n'en vaut pas la peine.
Mais si vous obtenez quelque chose de très utile, quelque chose de très précieux, quelque chose qui peut résoudre beaucoup de problèmes que nous avons, que nous voulons vraiment résoudre, alors le coût peut être justifié.
CRAIG : Vous avez parlé à un moment donné de la démocratie et de l'impact que l'IA peut avoir sur la démocratie.
Les gens m'ont parlé d'un jour où des conflits, qui semblent insolubles, que si vous aviez suffisamment de données et un modèle suffisamment grand, vous pouviez entraîner le modèle sur les données et il pourrait proposer une solution optimale qui satisferait tout le monde.
Pensez-vous à où cela pourrait mener en termes d'aide aux humains pour gérer la société ?
ILYA : C'est une si grande question parce que c'est une question beaucoup plus tournée vers l'avenir. Je pense qu'il y a encore de nombreuses façons dont nos modèles deviendront beaucoup plus capables qu'ils ne le sont actuellement.
Il est impossible de prévoir exactement comment les gouvernements utiliseront cette technologie comme source de conseils de toutes sortes.
Je pense qu'en ce qui concerne la question de la démocratie, une chose qui, je pense, pourrait arriver à l'avenir, c'est que parce que vous avez ces réseaux de neurones et qu'ils vont être si omniprésents et qu'ils vont avoir un tel impact sur la société, nous allons trouver qu'il est souhaitable d'avoir une sorte de processus démocratique où, disons que les citoyens d'un pays fournissent des informations au réseau neuronal sur la façon dont ils aimeraient que les choses soient. Je pouvais imaginer que cela se produise.
Cela peut être une forme de démocratie à très haut débit, où vous obtenez beaucoup plus d'informations de chaque citoyen et vous les agrégez, spécifiez exactement comment nous voulons que ces systèmes agissent. Maintenant, cela ouvre beaucoup de questions, mais c'est une chose qui pourrait arriver à l'avenir.
Mais que signifie analyser toutes les variables ? Finalement, vous devrez faire un choix là où vous dites que ces variables semblent vraiment importantes. Je veux aller en profondeur. Parce que je peux lire une centaine de livres, ou je peux lire un livre très lentement et attentivement et en tirer plus. Donc, il y aura un élément de cela. De plus, je pense qu'il est probablement fondamentalement impossible de tout comprendre dans un certain sens. Prenons quelques exemples plus simples.
Chaque fois qu'il y a une situation compliquée dans la société, même dans une entreprise, même dans une entreprise de taille moyenne, cela dépasse déjà l'entendement d'un seul individu. Et je pense que si nous construisons nos systèmes d'IA de la bonne manière, je pense que l'IA pourrait être incroyablement utile dans à peu près n'importe quelle situation.
Craig S. Smith est un ancien correspondant et cadre du New York Times. Il est l'animateur du podcast Eye on AI
Également publié ici