paint-brush
Ein Blick in den Webcrawler von OpenAI und die ständigen Fehltritte der FTCvon@viggybala
1,160 Lesungen
1,160 Lesungen

Ein Blick in den Webcrawler von OpenAI und die ständigen Fehltritte der FTC

von Viggy Balagopalakrishnan11m2023/08/18
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

OpenAI startet einen Standard-Opt-in-Crawler, um das Internet zu durchsuchen, während FTC eine obskure Untersuchung zur Verbrauchertäuschung durchführt
featured image - Ein Blick in den Webcrawler von OpenAI und die ständigen Fehltritte der FTC
Viggy Balagopalakrishnan HackerNoon profile picture
0-item
1-item

OpenAI startet einen Standard-Opt-in-Crawler, um das Internet zu durchsuchen, während FTC eine obskure Untersuchung zur Verbrauchertäuschung durchführt

Letzte Woche hat Open AI (Hersteller von ChatGPT) seinen Webcrawler offiziell angekündigt – dabei handelt es sich um eine Software, die Inhalte von allen Websites im Internet auswertet, die dann für das Training von KI-Modellen verwendet werden.


Die Existenz des Crawlers ist nicht überraschend und es gibt heute mehrere legitime Webcrawler, darunter den Crawler von Google, der das gesamte Internet indiziert.


Dies ist jedoch das erste Mal, dass OpenAI seine Existenz ausdrücklich bekannt gibt und auch einen Mechanismus für Websites bereitstellt, mit dem sie sich gegen das Scraping entscheiden können.


Beachten Sie, dass der Crawler standardmäßig Opt-In ist, d. h. Sie müssen einen Codeabschnitt auf Ihrer Website explizit ändern, um den Crawler aufzufordern, Ihre Daten nicht zu extrahieren. Opt-in-/out-Standardeinstellungen bleiben hängen und bestimmen häufig das Verhalten der Mehrheit, da sich die meisten Menschen nicht die Mühe machen, Standardeinstellungen zu ändern.


Aus dem gleichen Grund hatten Apples Datenschutzänderungen für iOS14 große Auswirkungen auf die digitale Werbebranche.


OpenAI Web Crawler (Quelle: OpenAI)


Warum also überhaupt das Opt-out anbieten? Dies ist wahrscheinlich ein präventiver Schritt von OpenAI als Reaktion auf die jüngsten Klagen gegen das Unternehmen, in denen behauptet wird, dass das Urheberrecht der Inhaltseigentümer verletzt wurde (detaillierterer Artikel über Data Scraping, wenn Sie mehr erfahren möchten).


Der ChatGPT-Konkurrent Google Bard steht vor einer ähnlichen Herausforderung, aber Google hat noch keine gleichwertige Lösung angekündigt – sie haben eine Bitte um einen Kommentar dazu herausgegeben, wie man robots.txt aktualisieren kann, um dieses Problem zu beheben (geschrieben mit einer ordentlichen PR-Schreibkunst ).


In diesem Artikel befassen wir uns mit Folgendem:


  • Auswirkungen des OpenAI-Crawlers auf Inhaltseigentümer


  • Aktuelle Untersuchung der FTC zu OpenAI


  • Die heutige Rechtslandschaft, in der wir tätig sind


  • Warum der Ansatz der FTC, OpenAI in Angriff zu nehmen, (ein weiterer) Fehltritt ist

Auswirkungen des Crawlers von OpenAI für Inhaltseigentümer

Während die Ankündigung Werbetreibenden die Möglichkeit bietet, den Crawler von OpenAI am Scraping ihrer Daten zu hindern, sind ein paar Dinge nicht so toll:


  1. Standardmäßig ist die Opt-In-Funktion aktiviert, was bedeutet, dass OpenAI so lange weiterschaben kann, bis die Websites sie ausdrücklich dazu auffordern, dies nicht zu tun


  2. Es gibt auf die eine oder andere Weise keine klare rechtliche Regelung zu den Rechten von Inhaltseigentümern, wenn ihre Daten ohne Zustimmung für Modelltrainingszwecke gecrackt werden (was im Wesentlichen bei jedem der Fall wäre, der zu einer Standard-Opt-in-Einstellung gezwungen wird).


Heutzutage gibt es zwei rechtliche Konstrukte, die bestimmen, ob es für Sprachmodelle in Ordnung ist oder nicht, all diese Daten ohne Zustimmung zu nutzen – Urheberrecht und Fair Use .


Das Urheberrecht bietet Schutz für bestimmte Arten von Inhalten, es gibt jedoch auch Ausnahmen/Ausnahmen:


Der Urheberrechtsschutz besteht gemäß diesem Titel für Originalwerke der Urheberschaft, die in einem greifbaren Ausdrucksmedium fixiert sind, das jetzt bekannt ist oder später entwickelt wird und von dem aus sie entweder direkt oder mit Hilfe von a wahrgenommen, reproduziert oder auf andere Weise kommuniziert werden können Maschine oder Gerät.


Autorenwerke umfassen die folgenden Kategorien: (1) literarische Werke; (2) Musikwerke, einschließlich etwaiger Begleittexte; (3) dramatische Werke, einschließlich etwaiger Begleitmusik; (4) Pantomimen und choreografische Werke; (5) bildnerische, grafische und skulpturale Werke; (6) Spielfilme und andere audiovisuelle Werke; (7) Tonaufnahmen; und (8) architektonische Arbeiten.


(b) In keinem Fall erstreckt sich der Urheberrechtsschutz für ein Originalwerk der Urheberschaft auf Ideen, Verfahren, Prozesse, Systeme, Betriebsmethoden, Konzepte, Prinzipien oder Entdeckungen , unabhängig von der Form, in der sie beschrieben, erklärt oder illustriert werden , oder in einer solchen Arbeit verkörpert


Das Urheberrecht schützt beispielsweise die meisten Originalarbeiten (z. B. wenn Sie einen Original-Blogartikel oder ein Buch zu einem Thema geschrieben haben), schützt jedoch nicht allgemeine Ideen (z. B. können Sie nicht behaupten, Sie seien die erste Person gewesen, die darüber geschrieben hat, wie sich KI auf Datenrechte auswirkt). , und daher gehört die Idee Ihnen).


Eine weitere Ausnahme/Ausnahme vom Urheberrechtsschutz ist die faire Nutzung:


Die faire Nutzung eines urheberrechtlich geschützten Werks, einschließlich der Nutzung durch Vervielfältigung in Kopien oder Tonaufzeichnungen oder durch andere in diesem Abschnitt angegebene Mittel, für Zwecke wie Kritik, Kommentar, Berichterstattung, Unterricht (einschließlich mehrerer Kopien für den Unterricht), Wissenschaft, oder Forschung, stellt keine Verletzung des Urheberrechts dar.


Bei der Feststellung, ob die Nutzung eines Werks in einem bestimmten Fall eine faire Nutzung ist, müssen folgende Faktoren berücksichtigt werden: (1) der Zweck und die Art der Nutzung, einschließlich der Frage, ob diese Nutzung kommerzieller Natur ist oder gemeinnützigen Bildungszwecken dient ; (2) die Art des urheberrechtlich geschützten Werks; (3) Umfang und Wesentlichkeit des verwendeten Teils im Verhältnis zum gesamten urheberrechtlich geschützten Werk; und (4) die Auswirkung der Nutzung auf den potenziellen Markt oder Wert des urheberrechtlich geschützten Werks.


Wenn Sie beispielsweise Inhalte aus einer Forschungsarbeit übernommen und eine Kritik dazu verfasst haben, ist das in Ordnung und Sie verletzen nicht das Urheberrecht des Inhaltseigentümers. Es ist die gleiche Situation, wenn ich einen anderen Artikel von dieser Seite verlinke und zitierten Text aus diesem Artikel hinzufüge.


Beide Konzepte wurden entwickelt, um die Rechte der Inhaltseigentümer zu schützen und gleichzeitig den freien Informationsfluss zu ermöglichen, insbesondere im Kontext von Bildung, Forschung und Kritik.


Ich bin kein Rechtsexperte, aber basierend auf meinen Recherchen/Verständnissen der oben genannten Sprache wird dies bei KI-Modellen, die Schulungsinhalte scrapen, unscharf :


  • KI-Unternehmen extrahieren in der Regel den vollständigen Text von der Website eines Inhaltseigentümers (dies ist urheberrechtlich geschützt), trainieren die Modelle, um die „Idee“/das „Konzept“/das „Prinzip“ zu erlernen (dies ist nicht urheberrechtlich geschützt) und schließlich die Modelle spucke einen anderen Text aus. Erhält der Inhaltseigentümer in diesem Fall Urheberrechtsschutz oder nicht?


  • Stellt dies eine Verletzung des Urheberrechts des Inhaltseigentümers dar, da die trainierten Sprachmodelle nun letztendlich für kommerzielle Zwecke verwendet werden (z. B. ChatGPT Plus ist ein kostenpflichtiges Produkt) (da die Fair-Use-Ausnahme nicht mehr gilt)?


Es gibt noch keine Gerichtsurteile dazu, daher ist es schwer vorherzusagen, wo das landen wird. Meine Ansicht als Nicht-Anwalt ist, dass die zweite Möglichkeit wahrscheinlich einfacher zu erreichen ist: OpenAI hat Daten abgekratzt und daraus ein kommerzielles Produkt erstellt, und daher erhalten sie keine Ausnahme unter „Fair Use“.


Ich könnte mir vorstellen, dass die erste Frage (hat der Modellbau auf einer „Idee“ oder nur einem Originaltext basiert) jedermanns Vermutung ist.


Beachten Sie, dass beide Punkte zu Gunsten der Inhaltseigentümer ausfallen müssen, damit sie gewinnen, d. h. Inhaltseigentümer gewinnen nur, wenn beide oben genannten Ausnahmen („Ideen“-Ausnahme oder Fair-Use-Ausnahme) nicht auf OpenAI zutreffen.


Ich spreche diese Nuance an, weil im Spektrum der KI-Risiken (nicht erschöpfend) – von den Rechten der Inhaltseigentümer über die Verstärkung von Betrug und die Automatisierung von Arbeitsplätzen bis hin zu AGI/Zerstörung der Menschheit – das dringendste kurzfristige Problem die Rechte der Inhaltseigentümer sind . Dies wird durch die Flut von Klagen und die Auswirkungen auf Content-Plattformen (z. B. die Geschichte von StackOverflow ) belegt.


Während Regulierungsbehörden wie die FTC über die wirklich langfristigen Probleme nachdenken und hypothetische/kreative Wege zur Bewältigung dieser Risiken finden können, liegt ihr tatsächliches kurzfristiges Potenzial darin, Risiken anzugehen, die uns in den nächsten fünf bis zehn Jahren betreffen werden Horizont. Wie eine Urheberrechtsverletzung.


Das bringt uns zu dem, was die FTC dagegen unternimmt.

Aktuelle Untersuchung der FTC zu OpenAI

Mitte Juli gab die FTC bekannt, dass sie OpenAI untersucht. Was es interessant (und frustrierend) macht, ist der Grund, warum die FTC gegen sie ermittelt .


Gegen den Hersteller von ChatGPT wird untersucht, ob das Unternehmen gegen Verbraucherschutzgesetze verstoßen hat, indem es den persönlichen Ruf und die Daten gefährdet hat .


Macht das keinen Sinn? Du bist nicht allein. Lassen Sie uns einige weitere Hintergrundinformationen darüber erläutern, wie es dazu kam.


Die deutlichste Haltung der FTC zur KI-Regulierung kam im April zum Ausdruck: „Es gibt keine KI-Ausnahme von den geltenden Gesetzen, und die FTC wird das Gesetz energisch durchsetzen, um unfaire oder irreführende Praktiken oder unfaire Wettbewerbsmethoden zu bekämpfen.“


Dann kamen ein paar Probleme im Zusammenhang mit Verleumdung: Radiomoderator Mark Walters verklagte OpenAI, nachdem ChatGPT ihm vorgeworfen hatte, eine gemeinnützige Organisation betrogen zu haben, und ein Rechtsprofessor wurde von ChatGPT fälschlicherweise der sexuellen Belästigung beschuldigt .


Beide Szenarien sind für die beteiligten Personen beschissen, und ich habe Verständnis dafür. Es ist jedoch eine bekannte Tatsache, dass Sprachmodelle (wie GPT) und darauf aufbauende Produkte (wie ChatGPT) „halluzinieren“ und oft falsch sind.


Die erste Hälfte der Prämisse der FTC für die Untersuchung lautet : ChatGPT halluziniert und verursacht dadurch Rufschädigung.


In einer hitzigen Anhörung vor dem Kongress fragt ein Abgeordneter die FTC (zu Recht), warum sie Verleumdung und Verleumdung verfolgt, die normalerweise durch staatliche Gesetze geregelt werden. Die Vorsitzende der FTC, Lina Khan, liefert ein verworrenes Argument :


Khan antwortete, dass Verleumdung und Verleumdung nicht im Mittelpunkt der FTC-Durchsetzung stünden, dass jedoch der Missbrauch privater Daten von Personen im KI-Training eine Form von Betrug oder Täuschung im Sinne des FTC-Gesetzes darstellen könne.


„Wir konzentrieren uns auf die Frage ‚Gibt es erhebliche Verletzungen bei Menschen?‘“ Verletzungen können wie alles Mögliche aussehen“, sagte Khan.


Um das ganze Argument zusammenzufassen: Die FTC sagt, dass die Halluzination von ChatGPT falsche Informationen (einschließlich Verleumdung) hervorbringt, die dann eine Form der Verbrauchertäuschung darstellen könnten .


Darüber hinaus könnten vertrauliche private Benutzerinformationen verwendet/durchgesickert sein (basierend auf einem Fehler , den OpenAI schnell behoben hat).


Im Rahmen der Untersuchung hat die FTC OpenAI um eine lange Liste von Dingen gebeten – von Details darüber, wie ihr Modell trainiert wird, über die Datenquellen, die sie verwenden, bis hin zur Positionierung ihres Produkts bei Kunden, bis hin zu Situationen, in denen Modellveröffentlichungen aus diesem Grund ausgesetzt wurden der identifizierten Risiken.


Die Frage ist: Ist der beste Ansatz für die FTC, das wohl eines der größten KI-Unternehmen zu regulieren, insbesondere angesichts der aktuellen Rechtslandschaft?

Die heutige Rechtslandschaft, in der wir tätig sind

Um die Strategie der FTC mit OpenAI zu kritisieren, ist es hilfreich, die Rechtslandschaft zu verstehen, in der wir heute tätig sind. Wir werden nicht zu sehr ins Detail gehen, aber lassen Sie uns dies kurz am Beispiel der Geschichte des Kartellrechts tun:


  • Im 20. Jahrhundert entstanden riesige Konglomerate („Trusts“), und das Gleichgewicht zwischen öffentlicher und privater Macht verlagerte sich auf diese Unternehmen.


  • Als Reaktion darauf wurde der Sherman Act von 1890 verabschiedet, um die private Macht zu kontrollieren und den Wettbewerb aufrechtzuerhalten. Mit diesem Gesetz wurden Rechtsstreitigkeiten geführt und „Trusts“ zerschlagen, die an wettbewerbswidrigen Praktiken beteiligt waren (Raubpreise, Kartellgeschäfte, Vertriebsmonopol).


  • In den 1960er Jahren sahen sich Richter heftigen Gegenreaktionen ausgesetzt, weil sie auf der Grundlage des Geistes des Gesetzes statt nach dem Wortlaut des Gesetzes urteilten; Beispielsweise war die Auslegung des Sherman-Gesetzes zur Feststellung, ob eine Gruppe von Unternehmen „den Handel unangemessen einschränkt“, mit Subjektivität verbunden, und Richtern wurde vorgeworfen, sich an juristischem Aktivismus zu beteiligen.


  • Um Objektivität einzuführen, hat die Chicago School den Standard für das Wohlergehen der Verbraucher eingeführt: „Gerichte sollten sich ausschließlich am Wohlergehen der Verbraucher orientieren“ (z. B. ist es falsch, dass ein Monopol die Preise in offensichtlicher Weise erhöht, aber bei anderen Aktivitäten liegt die Beweislast bei den Regulierungsbehörden). einen Verbraucherschaden nachweisen.)


  • Dies ist auch heute noch der Standard und einer der Gründe, warum es der FTC und dem Justizministerium schwer fällt, große Technologiekonzerne zu Fall zu bringen. Beispielsweise kann die FTC nicht argumentieren, dass Google die Preise erhöht, da die meisten ihrer Produkte kostenlos sind, selbst wenn Google ist an anderen wettbewerbswidrigen Praktiken beteiligt.


Die Schlussfolgerung daraus ist, dass wir auch heute noch in einer Situation tätig sind, in der Rechtsstreitigkeiten stark nach dem „Buchstaben des Gesetzes“ und nicht nach dem „Geist des Gesetzes“ verhandelt werden. Dies hat zusammen mit der heutigen Zusammensetzung des Obersten Gerichtshofs der USA zu recht konservativen Auslegungen des Gesetzes geführt.


Für die FTC bedeutet dies, die Realität dieser Situation zu akzeptieren und einen Weg zu finden, Fälle zu gewinnen . Das Betriebsmodell der FTC und des DOJ (zu Recht) besteht darin, eine Handvoll großer Fälle zu verfolgen und eine strenge Durchsetzung zu verhängen, damit die letzten Unternehmen zweimal überlegen, bevor sie gegen Gesetze verstoßen.


Um dies zu erreichen, muss die FTC in einigen Punkten große Erfolge erzielen und eine erfolgreiche Strategie innerhalb der Beschränkungen der aktuellen Rechtslandschaft entwickeln.

Warum der Ansatz der FTC, sich für OpenAI einzusetzen, (ein weiterer) Fehltritt ist

Die FTC hat eine Serie von Verlusten gegen Big Tech erlebt, und ich würde behaupten, dass diese Verluste allesamt auf eine gescheiterte „Wir hassen alles Big Tech“-Strategie zurückgeführt werden können, bei der es um die Übernahme dieser Unternehmen ging.


Beispielsweise hat die FTC mit brutaler Gewalt die Microsoft-Activision-Übernahme im Wert von 69 Milliarden US-Dollar gestoppt und dabei einen Verlust erlitten (ziemlich schlimm, würde ich sagen). Die FTC argumentierte, dass die Übernahme von Activision durch Microsoft den Wettbewerb auf dem Spielemarkt zerstören würde.


Der Richter verfasste ein recht klares Urteil, in dem er alle Argumente der FTC zurückwies; Hier ist einer der Kommentare des Richters:


Es gibt keine internen Dokumente, E-Mails oder Chats, die der erklärten Absicht von Microsoft widersprechen, Call of Duty nicht exklusiv für Xbox-Konsolen zu veröffentlichen. Trotz des Abschlusses umfangreicher Ermittlungen im FTC-Verwaltungsverfahren, einschließlich der Vorlage von fast 1 Million Dokumenten und 30 Aussagen, hat die FTC kein einziges Dokument identifiziert, das der öffentlich erklärten Verpflichtung von Microsoft widerspricht, Call of Duty auf PlayStation (und Nintendo Switch) verfügbar zu machen ).


Ein weiterer Brute-Force-Fall war der Versuch der FTC, Metas Übernahme eines VR-Unternehmens Within zu blockieren, und sie verloren . Warum haben sie das verfolgt? Sie wollten die Gewässer testen, um zu sehen, ob Interesse besteht, Übernahmen zu blockieren, bevor ein bestimmter Markt groß wird, und angesichts der aktuellen Rechtslage wurde dies wenig überraschend verworfen.


Das Problem bei der Untersuchung von OpenAI durch die FTC ist ähnlich:

  1. Sie verfolgen (meiner Meinung nach) ein ziemlich triviales Thema und eine bekannte Einschränkung von Sprachmodellen – Halluzinationen; Sie sollten sich stattdessen auf tatsächliche KI-Themen konzentrieren, die in den nächsten fünf bis zehn Jahren von Bedeutung sind, wie etwa das Urheberrecht.


  2. Obwohl in der aktuellen Rechtslandschaft zahlreiche „kreative“ rechtliche Ansätze verworfen werden, versuchen sie ein anderes kreatives Argument: Halluzination → Verleumdung → Verbrauchertäuschung.


Die großzügige Interpretation ihrer Handlungen besteht darin, dass sie einen Präzedenzfall für ihre Haltung „KI ist nicht von bestehenden Gesetzen ausgenommen“ schaffen wollen und dass diese wilde Jagd ihnen eine große Menge selbst gemeldeter Daten von OpenAI einbringt (FTC veröffentlicht 20 Seiten). fragt ).


Allerdings glaube ich, dass die FTC in diesem Fall angesichts ihrer Erfolgsbilanz bei der Verfolgung immer wieder brutaler Gewalt/alles, was große Technologie nicht konkurrenzfähig macht, und der Kombination dieser mit kreativen Argumenten, die vor Gericht immer wieder zurückgewiesen werden, nicht den Vorteil des Zweifels verdient hat.

Abschluss

Ich bin absolut der Meinung, dass OpenAI reguliert werden sollte. Nicht weil ihre LLMs halluzinieren (das tun sie natürlich), sondern weil sie die Inhalte der Ersteller offenkundig ohne Erlaubnis verwenden. Nicht, weil es die Vergangenheit verändern wird, sondern weil es dazu beitragen wird, den Inhaltseigentümern eine gesunde Zukunft zu ermöglichen, in der ihre Urheberrechte nicht offenkundig verletzt werden können.


Aber die FTC wiederholt ihre Fehltritte mit dem Hammer-statt-Skalpell-Ansatz. Es gibt einen klaren Präzedenzfall für Erfolge gegen große Technologiekonzerne mit einem Skalpell-Ansatz, der bemerkenswerteste davon ist die britische Wettbewerbs- und Marktaufsichtsbehörde.


Die beiden großen Verfahren, die sie gegen Google gewonnen haben, konzentrierten sich auf spezifische wettbewerbswidrige Mechanismen: Sie hinderten Google daran, sein eigenes Produkt im AdTech-Stack zu bevorzugen , und erlaubten anderen Zahlungsanbietern In-App-Zahlungen.


Wenn die FTC ihren aktuellen Weg fortsetzt, wird ihre Verlustserie die Technologieunternehmen ermutigen, weiterhin zu tun, was sie wollen, weil sie wissen, dass sie vor Gericht gewinnen können. Es ist an der Zeit, dass die FTC über ihre Fehler nachdenkt, aus den Erfolgen anderer Regulierungsbehörden lernt und ihren Kurs korrigiert.


🚀 Wenn Ihnen dieser Artikel gefallen hat, sollten Sie meinen wöchentlichen Newsletter abonnieren. Jede Woche veröffentliche ich eine ausführliche Analyse zu einem aktuellen Technologiethema/einer aktuellen Produktstrategie in Form einer 10-minütigen Lektüre.


Am besten, Viggy.


Auch hier veröffentlicht