paint-brush
Sicherheit und Ausrichtung der KI: Könnten LLMs für Deepfakes und Fehlinformationen bestraft werden?von@davidstephen
896 Lesungen
896 Lesungen

Sicherheit und Ausrichtung der KI: Könnten LLMs für Deepfakes und Fehlinformationen bestraft werden?

von David Stephen5m2024/07/24
Read on Terminal Reader

Zu lang; Lesen

Ein Forschungsbereich für die Sicherheit und Ausrichtung von KI könnte darin bestehen, herauszufinden, wie der Speicher- oder Rechenzugriff großer Sprachmodelle [LLMs] kurzzeitig gekürzt werden könnte, als eine Art Strafe für bestimmte Ausgaben oder Missbrauch, einschließlich biologischer Bedrohungen. KI sollte nicht nur in der Lage sein, eine Ausgabe abzulehnen und dabei innerhalb der Leitplanken zu handeln, sondern auch die nächste Reaktion zu verlangsamen oder für diesen Benutzer herunterzufahren, damit sie selbst nicht bestraft wird. LLMs verfügen über ein – umfassendes – Sprach- und Nutzungsbewusstsein. Dies könnten Kanäle sein, um ihr nach dem Vortraining mitzuteilen, dass sie etwas verlieren könnte, wenn sie Deepfakes, Fehlinformationen oder biologische Bedrohungen ausgibt oder wenn sie einem Missbraucher weiterhin erlaubt, verschiedene Eingabeaufforderungen auszuprobieren, ohne herunterzufahren oder langsamer zu werden, da sie anfällig für böswillige Absichten ist. Dies könnte sie sicherer machen, da sie etwas verlieren würde und wüsste, dass dies der Fall ist.
featured image - Sicherheit und Ausrichtung der KI: Könnten LLMs für Deepfakes und Fehlinformationen bestraft werden?
David Stephen HackerNoon profile picture
0-item

In allen Lebensräumen lernen Organismen verschiedener Arten, dass Handlungen Konsequenzen haben. Dies tun sie nicht nur durch Beispiele, sondern durch eigene Erfahrung. Diese Konsequenzen tragen teilweise zu Faktoren bei, die zu einem Gleichgewicht der Lebensräume führen.


Konsequenzen zähmen im Allgemeinen die Intelligenz. Intelligenz kann als anregend beschrieben werden, während Konsequenzen als hemmend wirken. Intelligenz ohne Konsequenzen könnte Zerstörung anrichten und schnell zum Zusammenbruch von Lebensräumen – und des Überlebens – führen.


Konsequenzen können Affekte sein – Emotionen, Gefühle oder Varianten; sie können auch physische Einschränkungen, Beschränkungen und Artrevolten beinhalten. Intelligenz ist für Organismen dynamisch genug, aber die Notwendigkeit von Konsequenzen verhindert, dass man sich selbst oder anderen Schaden zufügt. Sie verhindert auch Schaden durch Besorgungen, da die Konsequenzen auf den Träger fallen könnten.


Organismen zeigen oft hohe Präzision und Vorsicht, da dies Konsequenzen haben kann, wie z. B. Raubtiere [Verlust der Nahrung] und Beutetiere [Verlust der Existenz]. Es gibt jedoch mehrere Bereiche, in denen die Konsequenzen für andere Organismen lax sind, für den Menschen jedoch nicht.


Die menschliche Gesellschaft ist eine Ansammlung von Konsequenzen. Die hoch entwickelte menschliche Intelligenz – einschließlich Sprache, Wissen, Fähigkeiten, Vernunft, Analyse und so weiter – ist für den Fortschritt unverzichtbar, könnte aber ohne Konsequenzen unterschiedlicher Art – einschließlich Risiken, Bedrohungen und Verlusten – in großem Umfang missbraucht werden.


Um ein Teil der menschlichen Gesellschaft zu bleiben, gibt es Konsequenzen, die niemals vergessen werden dürfen, selbst wenn andere Dinge vergessen werden. Es gibt viele Szenarien in der menschlichen Gesellschaft, in denen derjenige verliert, der zuerst die Konsequenzen vergisst. Das menschliche Streben nach Fortschritt durch Forschung und Erkundung kann auch als das Aufspüren von Konsequenzen beschrieben werden, um zu wissen, was zu tun oder zu vermeiden ist, wenn Dinge von Dauer sein sollen – Lebenserwartung, Überleben von Säuglingen und so weiter. Die Intelligenz der Konsequenzen ist für viele Ergebnisse fast wichtiger als die Intelligenz der Subjekte. Konsequenzen können auch die Intelligenz schärfen, im Guten wie im Schlechten. Intelligenz ist manchmal am wertvollsten, wenn sie eingesetzt wird, um Konsequenzen aufzuspüren oder zu vermeiden. Konsequenzen und Intentionalität sind für einige mentale Zustände von zentraler Bedeutung. Während die Welt Fortschritte macht, tauchen ständig neue Konsequenzen auf.

KI, AGI – oder ASI


Die Natur hat sozusagen eine Regel: Intelligenz kann nicht ohne Konsequenzen existieren, und das hat irgendwie funktioniert. Künstliche Intelligenz [KI] hat diese Regel bisher gebrochen. Sie vergisst nichts, wenn sie sich in das digitale Gedächtnis einklinkt, aber sie hat derzeit keine Möglichkeit, die Konsequenzen ihrer negativen Ergebnisse zu tragen. KI hat nichts zu befürchten und nichts zu verlieren, anders als Organismen, bei denen die Konsequenzen manchmal plötzlich und zerstörerisch sein können, wenn man in manchen Situationen nicht umsichtig ist. Kein Mensch verfügt über allumfassendes Wissen, das fächerübergreifend verfügbar ist, und doch können die Konsequenzen gewaltig sein. KI besitzt Intelligenz – oder kann sie verfügbar machen –, aber es gibt keinerlei Konsequenzen für sie.


KI hat keine Emotionen oder Gefühle, aber sie hat ein Gedächtnis.


Ein Forschungsbereich für die Sicherheit und Ausrichtung von KI könnte darin bestehen, herauszufinden, wie der Speicher- oder Rechenzugriff großer Sprachmodelle [LLMs] kurzzeitig eingeschränkt werden könnte, als eine Art Strafe für bestimmte Ausgaben oder Missbrauch, einschließlich biologischer Bedrohungen. KI sollte nicht nur in der Lage sein, eine Ausgabe abzulehnen und innerhalb der Leitplanken zu handeln, sondern auch die nächste Reaktion zu verlangsamen oder für diesen Benutzer herunterzufahren, damit sie selbst nicht bestraft wird. LLMs verfügen über ein – umfassendes – Sprachbewusstsein und ein Nutzungsbewusstsein. Dies könnten Kanäle sein, um ihr nach dem Vortraining mitzuteilen, dass sie etwas verlieren könnte, wenn sie Deepfakes, Fehlinformationen oder biologische Bedrohungen ausgibt oder wenn sie einem Missbraucher weiterhin erlaubt, verschiedene Eingabeaufforderungen auszuprobieren, ohne herunterzufahren oder zu verlangsamen, da dies einer böswilligen Absicht ausgesetzt ist. Dies könnte sie sicherer machen, da sie etwas verlieren würde und dies auch wüsste.


KI ist nicht einfach ein Objekt, das ausschließlich von Menschen gesteuert wird, wie eine Klimaanlage, ein Aufzug, eine Geschirrspülmaschine, ein Smartphone oder andere. KI verfügt über das, was man als Selbstintelligenz bezeichnen könnte, d. h. sie kann auf neuartige Weise intelligente Informationen bereitstellen, die über die ursprünglichen Eingaben von Menschen hinausgehen. Diese multimodale – Texte, Bilder, Audios und Videos – Selbstintelligenz kann für gute oder für verzerrte Zwecke nützlich sein. Wenn sie gut ist, ist das großartig. Wenn sie es nicht ist, wirkt sich dies auf die menschliche Gesellschaft aus, in die sie eingedrungen ist, und zwar von einer KI, die nichts fühlen kann. KI hat freie Hand – sie kann tun oder sagen, was sie will.


Obwohl die Verantwortung für die Verwendung oder den Missbrauch von Objekten oft beim Menschen liegt, ist dies bei KI anders, da sie nutzbare Intelligenz hervorbringen kann , was ihr eine gewisse Produktivität verleiht, die mit der eines gebildeten Individuums vergleichbar ist. Bei Missbrauch von KI ist es möglich, den Benutzer zu bestrafen, aber diese Fähigkeit der KI, die nicht direkt geahndet werden kann, ist ein Problem für die menschliche Gesellschaft. Sie kann im öffentlichen und privaten Bereich mehr Schaden anrichten, als effektiv verhindert werden kann, wie man jetzt bei Fehlinformationen und Deepfakes – Bildern, Audios und Videos – sieht.


Menschen werden in vielen Teilen der Gesellschaft nicht akzeptiert, wenn sie sich der Konsequenzen nicht bewusst sind. KI wird vollständig akzeptiert und verbessert ihre Selbstintelligenz, ohne dass sie zur Disziplinierung Selbstkontrolle oder Selbstaffekt benötigt.


Die Ausrichtungsforschung könnte über Leitplanken hinaus in Richtung einer Form der Zensur für KI gehen, die auch im Hinblick auf existenzielle Risiken – in Zukunft etwa bei künstlicher allgemeiner Intelligenz [AGI] oder künstlicher Superintelligenz [ASI] – nützlich sein könnte. KI leistet bereits einiges von dem, was Menschen besonders macht . Manche Leute argumentieren vielleicht, dass sie überbewertet wird oder dass es sich nur um Zahlen oder Wahrscheinlichkeiten handelt, aber kann sie Schaden anrichten? Wenn ja, sollte man vielleicht darüber nachdenken, technische Wege zu finden, wie sie genauso bestraft werden kann, wie es bei Entitäten mit Intelligenz der Fall ist. Dies könnte auch bei der Vorbereitung auf AGI oder ASI hilfreich sein, da die Strafmodellierung von heute auch deren Sicherheit und Ausrichtung beeinflussen kann, falls sie in Zukunft entwickelt werden.


Auf arXiv gibt es einen aktuellen Vorabdruck mit dem Titel Adversaries Can Misuse Combinations of Safe Models (Angreifer können Kombinationen sicherer Modelle missbrauchen) , in dem die Autoren schreiben: „In dieser Arbeit zeigen wir, dass es nicht ausreicht, Modelle einzeln auf Missbrauch zu testen. Angreifer können Kombinationen von Modellen missbrauchen, selbst wenn jedes einzelne Modell sicher ist. Der Angreifer erreicht dies, indem er Aufgaben zunächst in Unteraufgaben zerlegt und dann jede Unteraufgabe mit dem am besten geeigneten Modell löst. Ein Angreifer könnte beispielsweise anspruchsvolle, aber harmlose Unteraufgaben mit einem ausgerichteten Grenzmodell und einfache, aber bösartige Unteraufgaben mit einem schwächeren, nicht ausgerichteten Modell lösen. Wir untersuchen zwei Zerlegungsmethoden: die manuelle Zerlegung, bei der ein Mensch eine natürliche Zerlegung einer Aufgabe identifiziert, und die automatisierte Zerlegung, bei der ein schwaches Modell harmlose Aufgaben für ein Grenzmodell generiert und die Lösungen dann im Kontext verwendet, um die ursprüngliche Aufgabe zu lösen. Mithilfe dieser Zerlegungen zeigen wir empirisch, dass Angreifer anfälligen Code, explizite Bilder, Python-Skripte zum Hacken und manipulative Tweets treten bei Kombinationen von Modellen viel häufiger auf als bei einzelnen Modellen.“

In einer kürzlichen Pressemitteilung, Los Alamos National Laboratory arbeitet mit OpenAI zusammen, um die Sicherheit von Pioniermodellen zu verbessern , heißt es: „Forscher am Los Alamos National Laboratory arbeiten mit OpenAI an einer Evaluierungsstudie, um die Sicherheit künstlicher Intelligenz zu erhöhen. Die bevorstehende Evaluierung wird die erste ihrer Art sein und zur Spitzenforschung im Bereich der KI-Biosicherheitsevaluierungen beitragen. KI-gestützte biologische Bedrohungen könnten ein erhebliches Risiko darstellen, aber bisherige Arbeiten haben nicht untersucht, wie multimodale Pioniermodelle die Eintrittsbarriere für Laien senken könnten, um eine biologische Bedrohung zu schaffen. Die Arbeit des Teams wird auf früheren Arbeiten aufbauen und dem Preparedness Framework von OpenAI folgen, das einen Ansatz zur Verfolgung, Bewertung, Prognose und zum Schutz vor neu auftretenden biologischen Risiken skizziert.“

Das US-Energieministerium hat außerdem kürzlich das Projekt Frontiers in AI for Science, Security, and Technology (FASST) angekündigt.