Während wir auf eine Zukunft voller künstlicher Intelligenz zusteuern, fragen sich viele Kommentatoren laut, ob wir nicht zu schnell vorankommen. Die Technologiegiganten, die Forscher und die Investoren scheinen alle in einem wahnsinnigen Rennen zu sein, um die fortschrittlichste KI zu entwickeln.
Aber bedenken sie die Risiken, fragen die Besorgniserregenden ?
Die Frage ist nicht völlig strittig, und Sie können sicher sein, dass es Hunderte von scharfsinnigen Köpfen gibt, die über dystopische Möglichkeiten nachdenken – und Möglichkeiten, sie zu vermeiden.
Tatsache ist jedoch, dass die Zukunft unbekannt ist und die Auswirkungen dieser leistungsstarken neuen Technologie ebenso unvorstellbar sind wie die sozialen Medien zu Beginn des Internets.
Es wird Gutes und Schlechtes geben, aber in unserer Zukunft wird es leistungsstarke künstliche Intelligenzsysteme und in der Zukunft unserer Enkelkinder noch leistungsfähigere KIs geben. Es lässt sich nicht aufhalten, aber man kann es verstehen.
Ich habe mit Ilya Stutskever , einem Mitbegründer von OpenAI, über diese neue Technologie gesprochen, dem gemeinnützigen KI-Forschungsinstitut, dessen Ausgründungen wahrscheinlich zu den profitabelsten Unternehmen der Welt gehören.
Mein Gespräch mit Ilya fand kurz vor der Veröffentlichung von GPT-4 statt, der neuesten Version des riesigen KI-Systems von OpenAI, das Milliarden von Textwörtern verbraucht hat – mehr, als ein Mensch jemals in seinem Leben lesen könnte.
GPT steht für Generative Pre-trained Transformer, drei wichtige Wörter zum Verständnis dieses homerischen Polyphem . Transformer ist der Name des Algorithmus im Herzen des Giganten.
Vortrainiert bezieht sich auf die Ausbildung des Giganten mit einem riesigen Textkorpus, der ihm die zugrunde liegenden Muster und Beziehungen der Sprache beibringt – kurz gesagt, ihm beibringt, die Welt zu verstehen.
Generativ bedeutet, dass die KI aus dieser Wissensbasis neue Gedanken erschaffen kann.
KI hat bereits viele Aspekte unseres Lebens übernommen. Aber was kommt, ist weitaus fortschrittlicher und weitaus mächtiger. Wir betreten Neuland. Und es lohnt sich, sich einen Moment Zeit zu nehmen und darüber nachzudenken, was das bedeutet.
Aber es ist auch wichtig, nicht überzureagieren und sich nicht wie Schildkröten vor der strahlenden Sonne zurückzuziehen, die jetzt auf uns scheint. In Homers Epos „Die Odyssee“ fängt der Zyklop Polyphem Odysseus und seine Mannschaft in seiner Höhle ein, mit der Absicht, sie zu fressen.
Doch Odysseus schafft es, den Riesen zu blenden und zu fliehen. KI wird uns nicht fressen.
Ilya Sutskever ist Mitbegründer und leitender Wissenschaftler von OpenAI und einer der wichtigsten Köpfe hinter dem großen Sprachmodell GPT-4 und seinem öffentlichen Nachkommen ChatGPT, von dem ich nicht übertreibe, zu sagen, dass es die Welt verändert.
Dies ist nicht das erste Mal, dass Ilya die Welt verändert. Er war der Hauptinitiator für AlexNet, das Faltungs-Neuronale Netzwerk, dessen dramatische Leistung 2012 die wissenschaftliche Gemeinschaft verblüffte und die Deep-Learning-Revolution auslöste.
Das Folgende ist eine bearbeitete Abschrift unseres Gesprächs.
CRAIG: Ilya, ich weiß, dass du in Russland geboren wurdest. Was hat Sie dazu gebracht, sich für Informatik zu interessieren, wenn das der anfängliche Impuls war, oder für Neurowissenschaften oder was auch immer?
ILYA: Tatsächlich wurde ich in Russland geboren. Ich bin in Israel aufgewachsen und als Teenager wanderte meine Familie nach Kanada aus. Meine Eltern sagen, dass ich mich schon in jungen Jahren für KI interessiert habe. Auch das Bewusstsein hat mich sehr motiviert. Es beunruhigte mich sehr und ich war neugierig auf Dinge, die mir helfen könnten, es besser zu verstehen.
Ich begann sehr früh mit Geoff Hinton zu arbeiten [einem der Begründer von Deep Learning, der Art von KI hinter GPT-4, und damals Professor an der University of Toronto], als ich 17 war. Weil wir nach Kanada gezogen sind und ich konnte sofort an die University of Toronto gehen. Ich wollte unbedingt maschinelles Lernen betreiben, weil das der wichtigste Aspekt der künstlichen Intelligenz zu sein schien, der damals völlig unzugänglich war.
Das war 2003. Wir halten es für selbstverständlich, dass Computer lernen können, aber 2003 hielten wir es für selbstverständlich, dass Computer nicht lernen können. Die größte Errungenschaft der KI war damals Deep Blue, die Schachspiel-Engine von [IBM], die 1997 den Weltmeister Garry Kasparov besiegte.
Aber da haben Sie dieses Spiel und diese Recherche und Sie haben diese einfache Möglichkeit festzustellen, ob eine Position besser ist als eine andere. Und es schien wirklich nicht so, als ob das auf die reale Welt anwendbar wäre, weil es kein Lernen gab. Lernen war dieses große Rätsel. Und ich war wirklich sehr daran interessiert, etwas zu lernen. Zu meinem großen Glück war Geoff Hinton Professor an der Universität und wir begannen fast sofort zusammenzuarbeiten.
Wie funktioniert Intelligenz überhaupt? Wie können wir Computer auch nur annähernd intelligent machen? Ich hatte die ganz klare Absicht, einen sehr kleinen, aber echten Beitrag zur KI zu leisten. Die Motivation war also: Könnte ich verstehen, wie Intelligenz funktioniert? Und auch einen Beitrag dazu leisten? Das war also meine anfängliche Motivation. Das war vor fast genau 20 Jahren.
Kurz gesagt, mir wurde klar, dass Sie unbedingt Erfolg haben werden, wenn Sie ein großes neuronales Netzwerk auf einem großen und ein tiefes neuronales Netzwerk auf einem ausreichend großen Datensatz trainieren, der eine komplizierte Aufgabe spezifiziert, die Menschen erledigen, wie zum Beispiel das Sehen. Und die Logik dafür war irreduzibel; Wir wissen, dass das menschliche Gehirn diese Aufgaben schnell lösen kann. Und das menschliche Gehirn ist nur ein neuronales Netzwerk mit langsamen Neuronen.
Dann müssen wir nur noch ein kleineres, aber verwandtes neuronales Netzwerk nehmen und es anhand der Daten trainieren. Und das beste neuronale Netzwerk im Computer hängt mit dem neuronalen Netzwerk zusammen, das wir in unserem Gehirn haben und das diese Aufgabe ausführt.
CRAIG: Im Jahr 2017 erschien das Papier „Attention Is All You Need“, in dem Selbstaufmerksamkeit und Transformatoren vorgestellt wurden. Wann begann das GPT-Projekt? Gab es eine Ahnung von Transformatoren?
ILYA: Um den Kontext zu verdeutlichen: Bei OpenAI haben wir uns von Anfang an mit der Idee beschäftigt, dass die Vorhersage des nächsten Ereignisses alles ist, was man braucht. Wir haben es mit den viel begrenzteren neuronalen Netzen der damaligen Zeit erforscht, aber die Hoffnung war, dass, wenn man über ein neuronales Netz verfügt, das das nächste Wort vorhersagen kann, das unbeaufsichtigte Lernen gelöst werden kann. Vor den GPTs galt unüberwachtes Lernen als der Heilige Gral des maschinellen Lernens.
Jetzt ist es vollständig gelöst und niemand redet darüber, aber es war ein Heiliger Gral. Es war sehr mysteriös und so untersuchten wir die Idee. Ich war wirklich begeistert davon, dass man unbeaufsichtigt lernen kann, wenn man das nächste Wort gut genug vorhersagt.
Aber unsere neuronalen Netze waren dieser Aufgabe nicht gewachsen. Wir verwendeten wiederkehrende neuronale Netze. Als der Transformer herauskam, im wahrsten Sinne des Wortes direkt nach Erscheinen des Papiers, im wahrsten Sinne des Wortes am nächsten Tag, war mir und uns klar, dass Transformer die Grenzen wiederkehrender neuronaler Netze und des Erlernens langfristiger Abhängigkeiten angehen.
Es ist eine technische Sache. Aber wir sind gleich auf Transformatoren umgestiegen. Und so wurden die noch jungen GPT-Bemühungen mit dem Transformator fortgesetzt. Es fing an, besser zu funktionieren, und man vergrößert es, und dann vergrößert man es immer weiter.
Und das hat schließlich zu GPT-3 geführt und im Wesentlichen zu dem, wo wir heute sind.
CRAIG: Die Einschränkung großer Sprachmodelle, wie sie existieren, besteht darin, dass ihr Wissen in der Sprache enthalten ist, in der sie trainiert werden. Und das meiste menschliche Wissen ist meiner Meinung nach, da sind sich alle einig, nichtsprachlicher Natur.
Ihr Ziel besteht darin, die statistische Konsistenz der Eingabeaufforderung zu gewährleisten. Sie haben kein grundlegendes Verständnis der Realität, auf die sich die Sprache bezieht. Ich habe ChatGPT nach mir gefragt. Es wurde anerkannt, dass ich Journalist bin und für diese verschiedenen Zeitungen gearbeitet habe, aber es ging immer wieder um Auszeichnungen, die ich nie gewonnen habe. Und es liest sich alles wunderbar, aber wenig davon hat etwas mit der zugrunde liegenden Realität zu tun. Wird in Ihrer künftigen Forschung etwas unternommen, um dieses Problem anzugehen?
ILYA: Wie zuversichtlich sind wir, dass diese Einschränkungen, die wir heute sehen, auch in zwei Jahren noch bestehen werden? Ich bin nicht so zuversichtlich. Zu einem Teil der Frage möchte ich noch eine weitere Bemerkung machen, nämlich dass diese Modelle nur statistische Regelmäßigkeiten lernen und daher nicht wirklich wissen, was die Natur der Welt ist.
Ich habe eine andere Ansicht als diese. Mit anderen Worten: Ich denke, dass das Erlernen der statistischen Gesetzmäßigkeiten eine weitaus größere Sache ist, als man auf den ersten Blick sieht.
Vorhersagen sind ebenfalls ein statistisches Phänomen. Um jedoch Vorhersagen zu treffen, müssen Sie den zugrunde liegenden Prozess verstehen, der die Daten erzeugt hat. Sie müssen immer mehr über die Welt verstehen, die die Daten produziert hat.
Wenn unsere generativen Modelle außergewöhnlich gut werden, werden sie meiner Meinung nach ein schockierendes Maß an Verständnis für die Welt und viele ihrer Feinheiten haben. Es ist die Welt, wie sie durch die Linse des Textes gesehen wird. Es versucht, durch eine Projektion der Welt auf den Textraum, wie sie von Menschen im Internet ausgedrückt wird, immer mehr über die Welt zu erfahren.
Dennoch drückt dieser Text bereits die Welt aus. Und ich gebe Ihnen ein Beispiel, ein aktuelles Beispiel, das meiner Meinung nach wirklich aufschlussreich und faszinierend ist. Ich habe diese wirklich interessante Interaktion mit [ChatGPT] gesehen, bei der [ChatGPT] kämpferisch und aggressiv wurde, als der Benutzer ihm sagte, dass Google seiner Meinung nach eine bessere Suchmaschine als Bing sei.
Wie kann man über dieses Phänomen gut nachdenken? Was bedeutet das? Man kann sagen, es geht nur darum, vorherzusagen, was die Leute tun würden, und die Leute würden dies tun, was wahr ist. Aber vielleicht erreichen wir jetzt einen Punkt, an dem die Sprache der Psychologie genutzt wird, um das Verhalten dieser neuronalen Netze zu verstehen.
Lassen Sie uns nun über die Einschränkungen sprechen. Tatsächlich neigen diese neuronalen Netze zu Halluzinationen. Das liegt daran, dass sich ein Sprachmodell hervorragend dazu eignet, etwas über die Welt zu lernen, es ist jedoch etwas weniger gut geeignet, um gute Ergebnisse zu erzielen. Und dafür gibt es verschiedene technische Gründe. Es gibt technische Gründe, warum ein Sprachmodell viel besser darin ist, etwas über die Welt zu lernen und unglaubliche Darstellungen von Ideen, Konzepten, Menschen und existierenden Prozessen zu lernen, aber seine Ergebnisse sind nicht ganz so gut, wie man es sich erhofft, oder besser gesagt so gut sie sein könnten.
ILYA: Aus diesem Grund gibt es beispielsweise für ein System wie ChatGPT, bei dem es sich um ein Sprachmodell handelt, einen zusätzlichen Trainingsprozess für verstärktes Lernen. Wir nennen es „Reinforcement Learning from Human Feedback“.
Wir können sagen, dass Sie im Vorbereitungsprozess alles über die Welt lernen möchten. Beim verstärkenden Lernen aus menschlichem Feedback kümmern wir uns um die Ergebnisse. Wir sagen: Wenn die Ausgabe unangemessen ist, tun Sie dies nicht noch einmal. Wiederholen Sie dies nicht jedes Mal, wenn die Ausgabe keinen Sinn ergibt.
Und es lernt schnell, gute Ergebnisse zu erzielen. Aber es ist das Niveau der Ausgaben, was während des Vortrainingsprozesses des Sprachmodells nicht der Fall ist.
Was nun die Halluzinationen betrifft: Es neigt dazu, von Zeit zu Zeit Dinge zu erfinden, und das ist etwas, was auch ihren Nutzen stark einschränkt.
Aber ich bin sehr zuversichtlich, dass wir ihm einfach beibringen können, nicht zu halluzinieren, indem wir diesen nachfolgenden Schritt des verstärkenden Lernens durch menschliches Feedback verbessern. Nun könnte man sagen: Wird es wirklich lernen? Meine Antwort ist: Finden wir es heraus.
Die Art und Weise, wie wir heute vorgehen, besteht darin, dass wir Leute einstellen, die unserem neuronalen Netzwerk das Verhalten beibringen, um ChatGPT das Verhalten beizubringen. Du interagierst einfach damit und es erkennt aus deiner Reaktion, dass es schlussfolgert: Oh, das ist nicht das, was du wolltest. Sie sind mit der Ausgabe nicht zufrieden.
Daher war die Ausgabe nicht gut und beim nächsten Mal sollte etwas anders gemacht werden. Ich denke, es besteht eine ziemlich hohe Chance, dass dieser Ansatz Halluzinationen vollständig bekämpfen kann.
CRAIG: Yann LeCun [Chef-KI-Wissenschaftler bei Facebook und ein weiterer früher Pionier des Deep Learning] glaubt, dass großen Sprachmodellen dieses zugrunde liegende nichtlinguistische Weltmodell fehlt, auf das sich das Sprachmodell beziehen kann. Ich wollte hören, was Sie davon halten und ob Sie sich überhaupt damit beschäftigt haben.
ILYA: Ich habe den Vorschlag von Yann LeCun geprüft und es gibt eine Reihe von Ideen, die in unterschiedlichen Sprachen zum Ausdruck gebracht werden und es gibt vielleicht einige kleine Unterschiede zum aktuellen Paradigma, aber meiner Meinung nach sind sie nicht sehr bedeutsam.
Die erste Behauptung lautet, dass es für ein System wünschenswert ist, über ein multimodales Verständnis zu verfügen, bei dem es die Welt nicht nur aus Text kennt.
Und mein Kommentar dazu ist, dass ein multimodales Verständnis tatsächlich wünschenswert ist, weil man mehr über die Welt, mehr über Menschen und ihren Zustand erfährt und das System so in der Lage ist, zu verstehen, welche Aufgabe es erfüllen soll lösen, und die Menschen und was sie wollen besser.
Wir haben daran ziemlich viel gearbeitet, vor allem in Form von zwei großen neuronalen Netzen, die wir erstellt haben. Einer heißt Clip und einer heißt Dall-E. Und beide bewegen sich in diese multimodale Richtung.
Aber ich möchte auch sagen, dass ich die Situation auch nicht als binär betrachte – oder dass die Dinge nicht funktionieren werden, wenn man keine Vision hat, wenn man die Welt nicht visuell oder per Video versteht.
Und dafür möchte ich plädieren. Ich denke also, dass man manche Dinge viel einfacher aus Bildern, Diagrammen usw. lernen kann, aber ich behaupte, dass man sie immer noch nur aus Text lernen kann, nur langsamer. Und ich gebe Ihnen ein Beispiel. Betrachten Sie den Begriff der Farbe.
Sicherlich kann man den Begriff Farbe nicht nur aus Text lernen, und doch, wenn man sich die Einbettungen ansieht, muss ich einen kleinen Umweg machen, um das Konzept einer Einbettung zu erklären. Jedes neuronale Netzwerk repräsentiert Wörter, Sätze und Konzepte durch Darstellungen, „Einbettungen“, bei denen es sich um hochdimensionale Vektoren handelt.
Und wir können uns diese hochdimensionalen Vektoren ansehen und sehen, was womit ähnlich ist; Wie sieht das Netzwerk dieses oder jenes Konzept? Wir können uns also die Einbettungen von Farben ansehen und wissen, dass Lila eher Blau als Rot ähnelt, und es weiß, dass Rot eher Orange als Lila ähnelt. Es weiß all diese Dinge nur aus dem Text. Wie kann das sein?
Wenn Sie eine Sehkraft haben, springen Ihnen die Unterschiede zwischen den Farben sofort ins Auge. Man nimmt sie sofort wahr. Bei Text hingegen dauert es länger, vielleicht wissen Sie, wie man spricht, und Sie verstehen bereits Syntax, Wörter und Grammatik, und erst viel später beginnen Sie tatsächlich, Farben zu verstehen.
Dies ist also mein Punkt zur Notwendigkeit der Multimodalität: Ich behaupte, dass sie nicht notwendig ist, aber sie ist auf jeden Fall nützlich. Ich denke, es ist eine gute Richtung, die man verfolgen sollte. Ich sehe es einfach nicht in so krassen Entweder-Oder-Behauptungen.
Der Vorschlag in [LeCuns] Artikel behauptet also, dass eine der großen Herausforderungen darin besteht, hochdimensionale Vektoren vorherzusagen, bei denen Unsicherheit besteht.
Aber eine Sache, die mich überraschte oder zumindest in der Arbeit nicht erwähnt wurde, ist, dass die aktuellen autoregressiven Transformatoren bereits über diese Eigenschaft verfügen.
Ich gebe Ihnen zwei Beispiele. Eine davon besteht darin, anhand einer gegebenen Seite in einem Buch die nächste Seite in einem Buch vorherzusagen. Es könnten so viele mögliche Seiten folgen. Es ist ein sehr komplizierter, hochdimensionaler Raum, und sie kommen damit gut zurecht. Dasselbe gilt auch für Bilder. Diese autoregressiven Transformatoren funktionieren perfekt auf Bildern.
Beispielsweise haben wir, wie bei OpenAI, am iGPT gearbeitet. Wir haben einfach einen Transformator genommen und ihn auf Pixel angewendet, und er hat super gut funktioniert und konnte Bilder auf sehr komplizierte und subtile Weise erzeugen. Bei Dall-E 1 ist das Gleiche noch einmal der Fall.
Der Teil, in dem ich dachte, dass das Papier einen starken Kommentar dazu abgegeben hat, dass aktuelle Ansätze nicht mit der Vorhersage hochdimensionaler Verteilungen umgehen können – ich denke, dass sie das auf jeden Fall können.
CRAIG: Bei dieser Idee, eine Armee menschlicher Trainer zu haben, die mit ChatGPT oder einem großen Sprachmodell arbeiten, um es mit Reinforcement Learning praktisch zu steuern, nur intuitiv, klingt das nicht nach einer effizienten Methode, einem Modell das zugrunde liegende beizubringen Realität seiner Sprache.
ILYA: Ich bin mit der Formulierung der Frage nicht einverstanden. Ich behaupte, dass unsere vorab trainierten Modelle bereits alles wissen, was sie über die zugrunde liegende Realität wissen müssen. Sie verfügen bereits über diese Sprachkenntnisse und auch über ein großes Wissen über die Prozesse auf der Welt, die diese Sprache hervorbringen.
Was große generative Modelle über ihre Daten lernen – und in diesem Fall große Sprachmodelle –, sind komprimierte Darstellungen der realen Prozesse, die diese Daten erzeugt haben, also nicht nur Menschen und etwas über ihre Gedanken, etwas über ihre Gefühle, aber auch etwas über den Zustand, in dem sich die Menschen befinden, und die Interaktionen, die zwischen ihnen bestehen.
Die verschiedenen Situationen, in denen sich eine Person befinden kann. All dies ist Teil des komprimierten Prozesses, der durch das neuronale Netz dargestellt wird, um den Text zu erzeugen. Je besser das Sprachmodell, desto besser das generative Modell, je höher die Wiedergabetreue, desto besser erfasst es diesen Prozess.
Nun, die Armee der Lehrer, wie Sie es ausdrücken, nutzt tatsächlich auch KI-Unterstützung. Diese Lehrer sind nicht allein. Sie arbeiten mit unseren Werkzeugen und die Werkzeuge erledigen den Großteil der Arbeit. Aber Sie müssen den Überblick behalten; Sie müssen Leute haben, die das Verhalten überprüfen, weil Sie letztendlich ein sehr hohes Maß an Zuverlässigkeit erreichen möchten.
Es besteht tatsächlich eine große Motivation, es so effizient und präzise wie möglich zu machen, damit sich das resultierende Sprachmodell so gut wie möglich verhält.
ILYA: Also ja, es gibt diese menschlichen Lehrer, die das gewünschte Modellverhalten lehren. Und die Art und Weise, wie sie KI-Systeme nutzen, nimmt ständig zu, sodass auch ihre eigene Effizienz immer weiter steigt.
Es ist einem Bildungsprozess nicht unähnlich, wie man sich in der Welt gut verhält.
Wir müssen zusätzliches Training durchführen, um sicherzustellen, dass das Modell weiß, dass Halluzinationen niemals in Ordnung sind. Und es ist die menschliche Lehrerschleife des Verstärkungslernens oder eine andere Variante, die es lehrt.
Hier sollte etwas funktionieren. Und wir werden es bald herausfinden.
CRAIG: Wohin führt das? Worauf konzentrieren Sie sich gerade mit der Forschung?
ILYA: Ich kann nicht im Detail über die spezifische Forschung sprechen, an der ich arbeite, aber ich kann einige der Forschungsarbeiten in groben Zügen erwähnen. Ich bin sehr daran interessiert, diese Modelle zuverlässiger und kontrollierbarer zu machen und sie schneller aus Unterrichtsdaten und mit weniger Anweisungen lernen zu lassen. Machen Sie sie so, dass sie tatsächlich nicht halluzinieren.
CRAIG: Ich habe von Ihnen gehört, dass wir schnellere Prozessoren brauchen, um weiter skalieren zu können. Und es scheint, dass bei der Skalierung von Modellen kein Ende in Sicht ist, aber die Leistung, die zum Trainieren dieser Modelle erforderlich ist, stößt an Grenzen, zumindest an die gesellschaftlich akzeptierte Grenze.
ILYA: Ich kann mich nicht an den genauen Kommentar erinnern, den ich gemacht habe und auf den Sie sich beziehen, aber Sie wollen immer schnellere Prozessoren. Natürlich steigt die Leistung weiter. Im Allgemeinen steigen die Kosten.
Und die Frage, die ich stellen würde, ist nicht, ob die Kosten hoch sind, sondern ob der Gewinn, den wir aus der Zahlung dieser Kosten ziehen, diese Kosten übersteigt. Vielleicht zahlen Sie all diese Kosten und bekommen nichts, dann ist es das nicht wert.
Aber wenn man etwas sehr Nützliches bekommt, etwas sehr Wertvolles, etwas, das viele unserer Probleme lösen kann, die wir wirklich gelöst haben wollen, dann können die Kosten gerechtfertigt sein.
CRAIG: Sie haben an einer Stelle, die ich gesehen habe, über Demokratie gesprochen und über die Auswirkungen, die KI auf die Demokratie haben kann.
Die Leute haben mit mir über einen Tag gesprochen, an dem Konflikte, die unlösbar zu sein scheinen, unlösbar zu sein scheinen. Wenn man genügend Daten und ein ausreichend großes Modell hätte, könnte man das Modell anhand der Daten trainieren und es könnte eine optimale Lösung finden, die alle zufriedenstellt.
Denken Sie darüber nach, wohin dies führen könnte, wenn es darum geht, den Menschen bei der Bewältigung der Gesellschaft zu helfen?
ILYA: Das ist eine so große Frage, weil sie viel zukunftsorientierter ist. Ich denke, dass es noch viele Möglichkeiten gibt, wie unsere Modelle weitaus leistungsfähiger werden können, als sie es jetzt sind.
Es ist unvorhersehbar, wie Regierungen diese Technologie als Quelle für Ratschläge verschiedener Art nutzen werden.
Was die Frage der Demokratie anbelangt, denke ich, dass in Zukunft etwas passieren könnte, weil wir diese neuronalen Netze haben und sie so allgegenwärtig sein werden und einen so großen Einfluss auf die Gesellschaft haben werden, dass wir das tun werden Ich finde, dass es wünschenswert ist, eine Art demokratischen Prozess zu haben, bei dem, sagen wir, die Bürger eines Landes Informationen darüber an das neuronale Netz übermitteln, wie sie sich die Dinge wünschen. Ich könnte mir vorstellen, dass das passiert.
Das kann vielleicht eine Form der Demokratie mit sehr hoher Bandbreite sein, bei der man viel mehr Informationen von jedem Bürger erhält und diese aggregiert, um festzulegen, wie genau wir wollen, dass solche Systeme funktionieren. Nun wirft es eine Menge Fragen auf, aber das ist eine Sache, die in Zukunft passieren könnte.
Aber was bedeutet es, alle Variablen zu analysieren? Irgendwann müssen Sie eine Entscheidung treffen, wenn Sie sagen, dass diese Variablen wirklich wichtig erscheinen. Ich möchte tief gehen. Weil ich hundert Bücher lesen kann, oder ich kann ein Buch sehr langsam und sorgfältig lesen und mehr daraus machen. Es wird also ein Element davon geben. Außerdem denke ich, dass es wahrscheinlich grundsätzlich unmöglich ist, alles irgendwie zu verstehen. Nehmen wir einige einfachere Beispiele.
Immer wenn es in der Gesellschaft irgendeine komplizierte Situation gibt, selbst in einem Unternehmen, sogar in einem mittelständischen Unternehmen, übersteigt sie bereits das Verständnis eines einzelnen Einzelnen. Und ich denke, wenn wir unsere KI-Systeme richtig aufbauen, könnte KI meiner Meinung nach in so ziemlich jeder Situation unglaublich hilfreich sein.
Craig S. Smith ist ehemaliger Korrespondent und leitender Angestellter der New York Times. Er ist Moderator des Podcasts Eye on AI
Auch hier veröffentlicht