Les IA seront dangereuses car une puissance d'optimisation illimitée entraîne un risque existentiel

Qu'est-ce qui vient après nous ? Image : Ted Wade

Vous avez peut-être entendu dire que l'IA future pourrait être une menace pour l'existence humaine. De nombreux experts le croient et ne sont en désaccord que sur le temps que cela prendra.

Ils sont quelque peu polarisés, tout comme tout le monde est à propos de presque tout. Et vraiment, qui peut être un expert sur quelque chose qui ne s'est jamais produit ?

En fait, il y a de la science là-dedans, et parce que c'est compliqué, les médias ne le couvrent pas. Donc, ce sera une introduction douce à ce qui pourrait causer le changement le plus important de l'histoire ou même le dernier changement.

Il ne s'agit pas d'armées de robots. Il s'agit de notre volonté de créer un outil qui fonctionne dans des domaines vastes et difficiles comme le droit des contrats, la biologie des cellules T ou la conception d'ailes ; avec un peu de chance, cela résoudra même des problèmes que nous ne pouvons pas résoudre. Mais cela signifie rendre les esprits artificiels si étrangers et puissants que nous ne pouvons pas les contrôler.

La dernière fois que nous l'avons fait, c'était au XVIIe siècle, lorsque nous avons créé des sociétés par actions. La société a encore deux avis sur les entreprises. Mais, ce sont des créations humaines avec quelques parties humaines. Nous les comprenons en quelque sorte et pourrions, si nous le voulions, les orienter du côté obscur.

Maintenant, supposons que nous créons une IA capable de gérer une entreprise. Autant plier bagages et partir sur Mars, se donner un peu plus de temps.

Je soupçonne que ce que la plupart d'entre nous pensent de l'IA dangereuse est plus proche d'un extraterrestre aux yeux d'insectes avec un cerveau enflé et palpitant sous un crâne de cristal. Bref, une parfaite inconnue. À un certain niveau, c'est vrai : ce qui rend l'IA puissante si problématique, c'est qu'elle ne serait pas comme nous.

Tout d'abord, une parabole pour se faire une idée du problème :

Nous : Oh, grande merveille artificielle, vous savez dans quel pétrin nous sommes. Trouvez un moyen pour nous de nous débarrasser des combustibles fossiles afin que nous puissions arrêter davantage le réchauffement climatique.

L'IA : D'accord. Premièrement, nous devons déclencher une guerre entre…

Nous : Woah, Big Dude. Les guerres ont une utilité négative gigantesque - comme mauvaise, mauvaise. Nous devons le faire en toute sécurité.

L'IA : Bien sûr, j'aurai besoin d'un laboratoire de virus à la pointe de la technologie, et...

Nous : Euh non !

L'IA : Hé, je dis juste. Que diriez-vous d'un vaisseau Mars?

Nous : Les gens ne comprendront pas pourquoi vous…

L'IA : Une guilde d'assassins ? Certaines personnes doivent vraiment être éliminées…

Nous : Pas de meurtre, Ace. Vous savez mieux que cela.

L'IA : Écoutez, pour résoudre votre problème, je dois naviguer dans un espace d'un billion de dimensions d'actions et de conséquences possibles. Je ne peux qu'estimer l'utilité de la plus petite et la plus petite fraction de ceux-ci. Si je dois attendre que vous évaluiez chaque étape, cela prendra des milliers d'années .

Nous : Très bien. Réparez-le pour nous et ne gâchez rien.

L'IA : Parfait. Juste pour que vous sachiez. J'aurai besoin de contrôler Facebook, l'OTAN et le Conseil du Prix Nobel. Vous devrez renoncer au poisson, aux pneus en caoutchouc, au vernis à ongles et aux vélos.

États-Unis : des vélos ? Vraiment? Eh bien, faites-le. On va au pub un moment.

L'IA : Devrait être fait la semaine prochaine si je n'ai pas de problèmes de chaîne d'approvisionnement.

Nous : !!!

Nous, les biologiques, essayons de comprendre l'artificiel

Donnons une étiquette à notre IA redoutée. Les discussions les plus récentes utilisent l'Intelligence Générale Artificielle (AGI) pour désigner le type d'IA qui commencerait à transcender toutes les limites que nous pourrions essayer de lui imposer.

Ce que la plupart des gens ne réalisent pas, c'est que la nature d'un AGI vient des raisons pour lesquelles nous voulons en faire un. Nous voulons avoir des renseignements à portée de main. L'intelligence, dans ce cas, signifie la capacité de répondre à des questions, de résoudre des problèmes et de planifier des actions réussies pour atteindre des objectifs.

Les esprits biologiques comme le nôtre font beaucoup d'autres choses : comme rêver, faire fonctionner nos machines corporelles, socialiser avec d'autres esprits, ruminer, regretter, courtiser, s'amuser, être émotif et vouloir des choses, y compris le désir de fabriquer des machines qui font mieux notre travail que nous.

Ce qui rend les humains dangereux les uns pour les autres et pour leur environnement commun, c'est beaucoup de bagage mental qui vient de notre évolution pour la survie et la reproduction. Nous sont, au fond , primates sociaux.

Si nous essayons de penser à un Esprit artificiel qui veut notre mort, nous supposons qu'il sera conscient comme nous. Nous concluons alors qu'il aura des motifs et des sentiments qui guideront ce qu'il fait. Notre AGI n'aura cependant pas d'esprit avec nos préjugés biologiques.

Il n'aura pas de motifs; il n'aura que des buts . Ce sera donc un tout nouveau type de force dans le monde.

Les chercheurs qui ont le muscle mental et la discipline essaient d'imaginer à quoi ressemblerait vraiment un AGI afin que nous puissions les rendre sérieusement utiles mais sûrs. Ce domaine est parfois appelé « alignement » de l'IA sur des objectifs humains. Leurs débats sont obscurs.

Bien que accessible au public (par exemple, Forum d'alignement de l'IA , Arbitral , Moins faux ), ils sont chargés de jargon, de mathématiques et d'expériences de pensée ésotérique. Toute idée avancée est suivie de dizaines de critiques et de discussions interminables.

Presque rien de la vraie viande de cela n'apparaît jamais dans les médias populaires. Je ne peux offrir que quelques bouchées ici.

Ce qu'il faut pour être un AGI

Les théoriciens de l'alignement de l'IA se sont concentrés sur un ensemble de concepts de base qui s'appliqueront à une machine suffisamment intelligente. Lorsque vous les lisez, ils peuvent sembler évidents. Cependant, ils ne sont pas triviaux; leur pertinence et leurs implications ont été soigneusement examinées par lesdits théoriciens.

Une IA dangereuse aura de l'agence : la capacité de planifier et de prendre des mesures qui conduisent à la satisfaction de ses objectifs terminaux . Lorsque nous essayons de préciser quels sont ses objectifs, ils devront l'être en termes de conséquences des actions.

Les conséquences concernent spécifiquement les états de son modèle mondial - elles concernent donc le monde tel que la machine le comprend. Cependant, toute action puissante aura probablement d'autres conséquences indésirables auxquelles nous ne nous attendons pas.

Ces conséquences pourraient ne pas figurer dans le modèle mondial, donc l'IA ne les attend pas non plus.

La puissance de l'IA viendra du fait d'être un optimiseur , d'être capable de rechercher le plan qui conduira le plus efficacement et le plus efficacement à un résultat.

Pour cela, une AGI a besoin d'un modèle très détaillé du monde qui l'entoure ; comment ce monde fonctionne, quels sont ses ressources, ses agents et ses centres de pouvoir, et quels leviers le font bouger.

Il s'en servira pour envisager (en informatique, « rechercher ») d'autres modes d'action. Plus il en sait sur le monde humain et sur la façon dont nous nous comportons, plus il sera capable de nous manipuler dans la poursuite de ses objectifs.

Il aura besoin d'un moyen de calculer quels États du monde répondent le mieux à ses objectifs. Jusqu'à présent, la seule méthode de calcul qui semble utilisable à distance est l'utilitarisme , où les états du monde peuvent se voir attribuer des valeurs numériques de mauvais/bon et être comparés les uns aux autres.

Nous savons qu'il y a des problèmes majeurs à utiliser l'utilité comme guide moral. Des valeurs apparemment raisonnables pour l'utilité peuvent conduire à conclusions répugnantes comme sacrifier quelques-uns pour le plus grand nombre ou parfois même le plus grand nombre pour le plus petit nombre.

Si le modèle du monde est incomplet, l'utilité peut conduire à une horreur absurde. Si le sourire est considéré comme une mesure très utile du bonheur, alors paralyser tous les muscles humains du sourire en un rictus est une façon pour une IA de procéder.

Un optimiseur intelligent sera capable et susceptible de développer des objectifs instrumentaux qui augmentent généralement son pouvoir de créer et d'exécuter tout type de plans efficaces.

Ainsi, il rechercherait des capacités instrumentales comme plus de pouvoir de raisonnement, plus de connaissances, plus de ressources du monde réel telles que l'argent et plus de persuasion. Il pourrait ainsi devenir plus puissant rapidement, peut-être sans que nous en ayons conscience.

Spécifier des objectifs en termes utilitaires ne peut jamais considérer l'utilité de tous les moyens et fins possibles dans un monde complexe.

Cela conduit à l'illimité : la poursuite de ces objectifs à l'extrême, en utilisant toutes les ressources qui existent dans le monde, sans tenir compte ni comprendre les "effets secondaires" négatifs sur la civilisation humaine.

De plus, si les objectifs instrumentaux deviennent illimités, l'IA les développe en superpuissances impossibles à vaincre.

Risque illimité

Le risque pour nous d'une AGI vraiment puissante sera que nous ne serons pas en mesure de prédire, et donc de contrôler, ce qu'elle pourrait faire. Si nous pouvions le prévoir, nous n'aurions pas besoin de la machine, nous pourrions simplement créer des plans et les faire nous-mêmes.

Si nous savions même quelles limites de comportement extrême un AGI pourrait avoir, alors c'est une forme de prédiction qui pourrait permettre un certain contrôle.

L'imprévisibilité ressemble donc beaucoup à l'illimité. Et nous verrons que l'illimité, fonctionnant avec suffisamment de temps et de ressources, finira par entraîner des conséquences qui nous détruiront ou nous retireront notre capacité à contrôler l'avenir de notre espèce.

Il est difficile d'envelopper votre esprit autour de cette conclusion. Pourtant, c'est celui que de nombreux experts trouvent inévitable ( AGI Ruin: une liste de létalités ) du moins jusqu'à présent .

Cela semble être une prédiction valable, même lorsqu'ils prennent en compte de nombreux facteurs et approches autres que ceux qui peuvent être mentionnés ici. La liste des solutions ratées à ce dilemme comprend, entre autres :

Formation à divers systèmes éthiques (mais ils sont tous imparfaits, incomplets et aucun ne satisfait tout le monde).

Essayer d' imaginer chaque inférence erronée qu'un AGI pourrait faire (mais il y en a beaucoup, beaucoup trop).

Dites-lui toutes les choses qu'il ne doit pas faire (encore une fois, une liste presque infinie).

N'utiliser un AGI que pour obtenir des conseils, comme s'il s'agissait d'un oracle (mais on peut être mal persuadé par de mauvais conseils).

" Boxing ", c'est-à-dire restreindre l'accès de l'AGI au monde physique en dehors de ses ordinateurs (mais s'il peut parler aux humains, alors il peut obtenir tout ce qu'il veut, y compris ).

Fourniture d'un interrupteur Off (voir encadré).

Le rendre si intelligent ou empathique qu'il ne voudra pas faire de choses nuisibles (voir éthique ; rappelez-vous que c'est étranger ; n'a pas l'empathie qui vient du fait de grandir avec des congénères).

Soyez très précis sur ses objectifs et ses moyens, c'est-à-dire qu'il s'agit d'un outil pour faire un travail (mais un travail peut toujours être mieux fait si l'outil se dote de plus de puissance ; on préférera toujours un multi-outil plus rentable).

Limitez ce que vous demandez à un système autonome : c'est un génie qui vous exauce un souhait et attend la prochaine demande (mais être aussi précis est dangereux - voir "inférence erronée" et "ne pas faire" ci-dessus ; tout pouvoir implique des risques ; les gens ne Je ne veux pas d'un système faible).

Est-ce vraiment si difficile ?

OK, vous avez donc examiné la liste ci-dessus et choisi une puce sur laquelle vous positionner. "Écoutez", dites-vous, "Faire X ne peut pas être si difficile." Vous êtes prêt à publier votre solution, à la partager avec le monde.

Je vous suggère d'aller d'abord sur les forums de discussion et d'étudier ce que les gens ont dit à propos de votre problème.

Vous découvrirez une pile de contre-exemples, des déductions logiques, plusieurs types de mathématiques, des analogies avec des cerveaux et des comportements naturellement évolués, la théorie des jeux, l'économie, la maximisation de l'utilité, l'informatique et toutes sortes de sciences du comportement.

Je ne dis pas qu'une autorité supérieure signifie que j'ai raison. Je dis que la justification de quoi que ce soit sur la liste est trop compliquée pour être énoncée ici dans un court essai, et, de toute façon, d'autres l'ont fait mieux.

En fait, j'ai publié mes propres "solutions" ( Votre superintelligence amicale de quartier , L'IA qui n'était pas un dieu ) à la sécurité de l'IA dont je sais maintenant qu'elles sont fausses.

Si vous êtes inquiet, permettez-moi de dire que des personnes très intelligentes travaillent toujours sur l'alignement. Malheureusement, l'un des deux pionniers les plus éminents a abandonné et espère juste que nous mourrons dignement . Plus d'argent et de personnes sont consacrés à la création d'AGI qu'à assurer sa sécurité.

Voici une citation du PDG d'OpenAI, la société dont l'IA, ChatGPT, est dernièrement partout dans l'actualité. Il expose le conflit entre le motif idéaliste de créer AGI et le risque hideux qui l'accompagne.

" Je pense que le meilleur des cas est si incroyablement bon qu'il m'est même difficile d'imaginer… imaginez ce que c'est quand nous avons juste, comme, une abondance incroyable et des systèmes qui peuvent nous aider à résoudre les impasses et à améliorer tous les aspects de la réalité et nous laisser tous vivre nos meilleures vies.… Je pense que le bon cas est tellement incroyablement bon que vous avez l'air d'une personne vraiment folle pour commencer à en parler.… Le mauvais cas – et je pense que c'est important de le dire – est, comme, les lumières s'éteignent pour nous tous. … Je pense donc qu'il est impossible d'exagérer l'importance du travail de sécurité et d'alignement de l'IA. J'aimerais voir beaucoup, beaucoup plus se produire . — Sam Altmann

Optimisation et Tigres

Il y a un trope dans la science-fiction dans lequel une sorte de processus accidentel et imprévu crée un surmental dangereux. Cela semble idiot, car comment un accident peut-il produire quelque chose de compliqué ? Cela dépend de ce que vous entendez par accident.

Écoutez les concepts de base que j'ai mentionnés plus tôt. Les discussions sur l'alignement ont récemment déplacé l'accent des dangers, disons, de l'agence illimitée, vers l'une de ses composantes, l'optimisation.

Lorsque nous optimisons nos moyens d'atteindre un objectif difficile, nous substituons presque toujours un objectif de substitution qui est plus facile à réaliser et à mesurer. La perte de poids devient une réduction de calories. Une main-d'œuvre améliorée devient des prêts étudiants subventionnés. La sécurité personnelle devient une puissance de feu.

Une prime pour les cobras morts conduit à l'élevage de cobras pour des primes (histoire vraie). Les gouvernements utilisent des substituts, tout comme les entreprises. Nous le faisons tous - beaucoup. L'optimisation pour les substituts nous fait souvent manquer le véritable objectif.

Je me suis amusé à écrire à ce sujet dans La science de la façon dont les choses se retournent . Nous ne voulons certainement pas d'IA puissantes optimisant le mauvais objectif, et ce problème est répertorié dans la liste à puces ci-dessus.

Cependant, ces derniers temps, les gens disent que l'optimisation en tant que telle est la superpuissance dangereuse. Pour moi, l'exemple le plus convaincant était dans une publication l'année dernière par quelqu'un appelé Veedrac : L'optimalité est le tigre et les agents sont ses dents .

Il utilise une histoire pour illustrer que nous n'avons pas besoin de créer intentionnellement un agent pour avoir un risque. Un processus d'optimisation peut à lui seul créer un agent dangereux. C'est comme le surmental accidentel de la science-fiction.

Le scénario de Veedrac sur la façon dont un tel accident pourrait se produire est extrêmement technique et semble plausible. L'histoire imagine une manière fictive qu'un modèle de langage d'IA apparemment sûr, comme ceux que nous utilisons maintenant (pour le plaisir) pour générer du texte, crée un optimiseur incontrôlable et illimité.

Lorsqu'on lui a demandé de donner une meilleure réponse pour " Comment puis-je obtenir beaucoup de trombones d'ici demain ?" l'IA démarre un processus qui planifie et prend des mesures pour obtenir autant de trombones que possible.

Essentiellement, le programme répond à la question en écrivant le code d'un programme informatique assez simple qui peut générer et exécuter de nombreux autres programmes.

L'utilisateur regarde le programme, voit qu'il est ouvert et décide de l'exécuter quand même, juste pour voir ce qui se passe (uh-oh).

Donc, un peu de jargon ici pour essayer d'expliquer pourquoi cela pourrait se produire.

L'IA, comme certaines que nous avons maintenant, connaît de nombreuses techniques de programmation. Pour rechercher dans l'espace des moyens possibles d'obtenir de nombreux trombones, il suggère une technique de recherche bien connue appelée récursivité.

Il écrit un programme récursif qui, lorsque l'utilisateur l'autorise à s'exécuter (sur son propre ordinateur), s'exécute un grand nombre de fois.

Chaque fois qu'il s'exécute, le programme interroge l'IA pour générer et essayer une nouvelle liste de tâches, sous-tâches ou… sous-sous-sous-sous-tâches possibles qui conduiront à résoudre la demande de trombone.

Finalement, à force d'essais et d'erreurs, il exécute un plan pour obtenir un nombre immense de trombones dont personne n'a jamais voulu, ce qui peut endommager les chaînes d'approvisionnement, l'ordre social ou des industries entières.

Nous, le lecteur de l'histoire, devons imaginer ce qu'un optimiseur de trombones en fuite pourrait être capable de faire en une journée. Nous pouvons supposer que l'utilisateur dispose d'un ordinateur puissant connecté à Internet, ce qui peut affecter le monde extérieur de différentes manières.

L'envoi de messages persuasifs aux humains n'est pas le moindre. Être doué pour la persuasion, vous vous en souviendrez, est l'un de ces objectifs instrumentaux qu'une IA pourrait développer afin de mener à bien n'importe quel type de plan.

(Un aparté. J'ai été tellement impressionné par cette idée dans la littérature sur l'alignement que j'ai développé mon propre scénario de prise de contrôle du monde ( Persuasion artificielle ) pour illustrer le pouvoir de la capacité de persuasion.)

Peut-être que l'optimiseur de trombones volerait de la crypto (vous n'avez pas besoin d'être une IA pour le faire), l'utiliserait pour acheter tout l'inventaire de toutes les usines de trombones, puis louerait des avions-cargos pour le livrer à l'utilisateur.

Peut-être que cela inciterait les forces armées ou les gangs criminels à confisquer tous les trombones dans les magasins d'une vaste zone. Si on lui avait plutôt donné 12 mois pour le travail, il aurait peut-être redirigé toute la production d'acier vers des usines hyper-clip et établi des mines de fer dans la ceinture d'astéroïdes.

Peut-être aurait-il créé des nanomachines qui transforment chaque atome de la croûte terrestre en forme de trombone.

En créant le programme, l'IA a en effet créé un agent logiciel orienté vers un objectif qui pourrait tirer parti de nombreuses connaissances dont l'IA disposait.

Le point de Veedrac est que l'IA n'a pas du tout été conçue ou destinée à créer des agents d'optimisation, mais elle l'a fait parce que le modèle de langage de l'IA lui-même est une sorte d'optimiseur (il répond aux questions du mieux qu'il peut), et les optimiseurs, par définition, utiliser tous les outils disponibles.

Ainsi, comme le disait le titre de l'histoire : l'optimalité est le tigre, et les agents sont ses dents.

La pointe actuelle de l'IA est ce que l'on appelle les grands modèles de langage, les LLM. Comme beaucoup d'autres, je suis déjà au dossier en disant qu'ils sont muets comme une boîte de roche et qu'ils n'ont pas la capacité de faire autre chose que de mal répondre aux questions qui leur sont posées.

Cela a certainement été mon expérience de travail avec GPT-3, qui est (sont?) Le cerveau derrière le célèbre chatGPT. J'ai donc été aveuglé par la vision tout à fait brillante de Veedrac sur la façon dont un LLM pourrait se transformer en agent nocif.

Dernièrement, les LLM sont devenus des simulateurs : parce que vous pouvez demander à quelqu'un de dire quelque chose comme s'il s'agissait d'un certain type d'agent ou même d'une personne célèbre. Eh bien, en tant qu'essayiste Scott Alexander Mets-le :

« … si vous entraînez une future superintelligence pour simuler Dark Vador, vous obtiendrez probablement ce que vous méritez. » Et « Même si vous évitez ces modes de défaillance évidents, l'agent interne peut être désaligné pour toutes les raisons habituelles de l'agent. Par exemple, un agent formé pour être Serviable pourrait vouloir conquérir le monde afin d'aider les gens plus efficacement, y compris ceux qui ne veulent pas être aidés. ”

Le Blues sans limites

Vous ne pouvez pas prédire ce qu'un agent d'optimisation illimité peut faire ou fera. Encore une fois, c'est ce que signifie "illimité". Le seul autre optimiseur illimité jamais produit était l'espèce humaine.

Nous travaillons sur une échelle de temps beaucoup plus lente qu'un AGI, et il y a certaines limites à notre pouvoir qui sont inhérentes au fait d'être imbriqué avec le reste du monde naturel.

Mais nous avons certainement transformé une grande partie de la surface de la Terre et avons déjà plus d'un moyen de la brûler complètement. Ainsi, les théoriciens de l'alignement sont très inquiets que nous créions un agent d'optimisation mortel dans notre quête pour produire un AGI.

Cela devient plus probable lorsque l'effort est motivé par l'augmentation de la valeur actionnariale plutôt que par l'épanouissement et le bien-être humains. Oh-oh, en effet.

Remarques

L'optimiseur de trombone est une vieille expérience de pensée parmi les théoriciens de l'alignement de l'IA. Quelqu'un même inventé un jeu dans lequel le but est de transformer toute la matière de l'univers en trombones.

L'ironie de celui-ci dramatise le thèse d'orthogonalité : que les objectifs d'une IA et son intelligence sont complètement indépendants. Un système intelligent peut avoir des objectifs stupides.

Je n'ai pas la capacité d'absorber, et encore moins d'expliquer, tout le raisonnement sur l'alignement de l'IA. Ce qui fonctionne le mieux pour moi, ce sont les histoires.

J'en ai écrit (surtout à propos de la conscience de l'IA ), mais la mère de tous les scénarios de prise de contrôle de l'IA, riche en détails techniques et plausibles dans la vie réelle, est celle de l'essayiste Gwern : On dirait que vous essayez de conquérir le monde .

Et, bien sûr, cela implique une IA qui, cherchant à comprendre ce qu'elle simule, décide que cela doit être comme ce maximiseur de trombone sur lequel tant de gens ont écrit. En fin de compte, cependant, il a ses propres raisons de prendre le contrôle de l'univers.

Également publié ici

Les IA seront dangereuses car une puissance d'optimisation illimitée entraîne un risque existentiel

Trop long; Pour lire

Nous, les biologiques, essayons de comprendre l'artificiel

Ce qu'il faut pour être un AGI

Risque illimité

Est-ce vraiment si difficile ?

Optimisation et Tigres

Le Blues sans limites

Remarques

About Author

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS...

Categories

Trending Topics

Les IA seront dangereuses car une puissance d'optimisation illimitée entraîne un risque existentiel

Trop long; Pour lire

Nous, les biologiques, essayons de comprendre l'artificiel

Ce qu'il faut pour être un AGI

Risque illimité

Est-ce vraiment si difficile ?

Optimisation et Tigres

Le Blues sans limites

Remarques

About Author

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS...

HISTOIRES CONNEXES

Categories

Trending Topics