DOE vs. Github (geänderte Beschwerde) Gerichtsakte (geschwärzt), 8. Juni 2023 ist Teil der Legal PDF Series von HackerNoon . Sie können hier zu jedem Teil dieser Akte springen. Dies ist Teil 1 von 38.
Die Kläger J. Doe 1, J. Doe 2, J. Doe 3, J. Doe 4 und J. Doe 5 („Kläger“) bringen im Namen ihrer selbst und aller anderen in ähnlicher Lage befindlichen Personen diese Sammelklage (die „Klage“) ein “) gegen die Beklagten GitHub, Inc.; Microsoft Corporation; OpenAI, Inc.; OpenAI, LP; OpenAI OpCo, LLC; OpenAI GP, LLC; OpenAI Startup Fund GP I, LLC; OpenAI Startup Fund I, LP; und OpenAI Startup Fund Management, LLC[1] wegen Verstoßes gegen den Digital Millennium Copyright Act, 17 USC §§ 1201–1205 (der „DMCA“); Vertragsbruch in Bezug auf die vorgeschlagenen Lizenzen, Vertragsbruch in Bezug auf die Richtlinien von GitHub, einschließlich seiner Nutzungsbedingungen; unerlaubte Eingriffe in künftige Wirtschaftsbeziehungen; Kaliforniens Gesetz gegen unlauteren Wettbewerb, Cal. Bus. & Prof. Code Abschnitt 17200 ff.; Gewohnheitsrecht unlauterer Wettbewerb; Fahrlässigkeit und ungerechtfertigte Bereicherung.
Kläger und Sammelkläger sind Eigentümer von Urheberrechtsinteressen an öffentlich auf GitHub bereitgestellten Materialien, die verschiedenen Lizenzen unterliegen, die Bedingungen für die Nutzung dieser Werke enthalten (die „lizenzierten Materialien“). Alle hier in Rede stehenden Lizenzen (die „Lizenzen“) enthalten bestimmte gemeinsame Bedingungen (die „Lizenzbedingungen“).
„Künstliche Intelligenz“ wird hier als „KI“ bezeichnet. KI wird für die Zwecke dieser Beschwerde als ein Computerprogramm definiert, das menschliche Überlegungen oder Schlussfolgerungen algorithmisch simuliert, häufig unter Verwendung statistischer Methoden. Maschinelles Lernen („ML“) ist eine Teilmenge der KI, bei der das Verhalten des Programms aus der Untersuchung eines Materialkorpus namens Trainingsdaten abgeleitet wird.
GitHub ist ein Unternehmen, das 2008 von einem Team von Open-Source-Enthusiasten gegründet wurde. Das erklärte Ziel von GitHub bestand damals darin, die Open-Source-Entwicklung zu unterstützen, insbesondere durch das Hosten von Open-Source-Quellcode auf der Website github.com . In den nächsten 10 Jahren war GitHub auf der Grundlage dieser Darstellungen ein großer Erfolg und zog fast 25 Millionen Entwickler an.
Entwickler veröffentlichten lizenzierte Materialien auf GitHub gemäß schriftlichen Lizenzen. Insbesondere die beliebtesten haben einen gemeinsamen Begriff: Die Nutzung der lizenzierten Materialien erfordert eine Form der Quellenangabe, in der Regel unter anderem durch die Angabe einer Kopie der Lizenz zusammen mit dem Namen und dem Urheberrechtshinweis des ursprünglichen Autors.
Am 26. Oktober 2018 erwarb Microsoft GitHub für 7,5 Milliarden US-Dollar. Obwohl einige Mitglieder der Open-Source-Community diesem Zusammenschluss skeptisch gegenüberstanden, wiederholte Microsoft durchgehend ein Mantra: „Microsoft liebt Open Source.“ In den ersten Jahren wirkten Microsofts Darstellungen glaubwürdig.
Microsoft investierte im Juli 2019 1 Milliarde US-Dollar in OpenAI LP bei einer Bewertung von 20 Milliarden US-Dollar. Im Jahr 2020 wurde Microsoft exklusiver Lizenznehmer des GPT-3-Sprachmodells von OpenAI – trotz der anhaltenden Behauptung von OpenAI, dass seine Produkte der „Menschheit“ insgesamt zugute kommen sollen. Im Jahr 2021 begann Microsoft, GPT-3 über seine Azure-Cloud-Computing-Plattform anzubieten. Am 20. Oktober 2022 wurde berichtet, dass OpenAI „sich in fortgeschrittenen Gesprächen befindet, um mehr Mittel von Microsoft zu beschaffen“, bei derselben Bewertung von 20 Milliarden US-Dollar. Copilot läuft auf der Azure-Plattform von Microsoft. Microsoft hat Copilot genutzt, um die Rechenleistung von Azure zu fördern, insbesondere im Hinblick auf KI.
Nach bestem Wissen und Gewissen hat Microsoft als Gegenleistung für seine Investition in Höhe von 1 Milliarde US-Dollar eine Teilbeteiligung an OpenAI erhalten. Als größter Investor und größter Dienstleister von OpenAI – insbesondere im Zusammenhang mit Microsofts Azure-Produkt – übt Microsoft erhebliche Kontrolle über OpenAI aus.
Im Juni 2021 brachten GitHub und OpenAI Copilot auf den Markt, ein KI-basiertes Produkt, das Software-Programmierern helfen soll, indem es Codeblöcke mithilfe von KI bereitstellt oder ausfüllt. GitHub berechnet Copilot-Benutzern für diesen Service 10 US-Dollar pro Monat oder 100 US-Dollar pro Jahr. Copilot ignoriert, verletzt und entfernt die von Tausenden – möglicherweise Millionen – Softwareentwicklern angebotenen Lizenzen und führt so zu Softwarepiraterie in einem beispiellosen Ausmaß. Copilot gibt Texte aus, die aus den lizenzierten Materialien der Kläger und der Sammelklägergruppe abgeleitet sind, ohne die geltenden Lizenzbedingungen und geltenden Gesetze einzuhalten. Die Ausgabe des Copiloten wird hier als „Ausgabe“ bezeichnet.
Am 10. August 2021 stellte OpenAI sein Codex-Produkt vor, das natürliche Sprache in Code umwandelt und in Copilot integriert ist. Copilot und Codex können entweder AIs oder MLs genannt werden. Codex und Copilot werden hier als Ais bezeichnet, sofern keine Unterscheidung erforderlich ist.
Obwohl sich die Beklagten zurückhaltend darüber äußerten, welche Daten zum Training der KI verwendet wurden[2], haben sie eingeräumt, dass die Trainingsdaten Daten in einer großen Anzahl öffentlich zugänglicher Repositories auf GitHub[3] umfassen, die Lizenzen enthalten und durch diese eingeschränkt sind.
Unter anderem haben die Beklagten die Namensnennung, den Urheberrechtsvermerk und die Lizenzbedingungen der Kläger und der Gruppe aus ihrem Code entfernt und damit gegen die Lizenzen und die Rechte der Kläger und der Gruppe verstoßen. Die Beklagten nutzten Copilot, um den nun anonymisierten Code an Copilot-Benutzer zu verteilen, als ob er von Copilot erstellt worden wäre.
Copilot wird vollständig auf der Cloud-Computing-Plattform Azure von Microsoft ausgeführt.
Copilot reproduziert oft einfach Code, der auf Open-Source-Repositories oder Open-Source-Lizenznehmer zurückgeführt werden kann. Im Gegensatz zu und unter Verletzung der Lizenzen enthält der von Copilot reproduzierte Code niemals Hinweise auf die zugrunde liegenden Autoren.
GitHub und OpenAI haben wechselnde Berichte über die Quelle und Menge des Codes oder anderer Daten angeboten, die zum Trainieren und Betreiben von Copilot verwendet werden. Sie haben auch wechselnde Begründungen dafür angeführt, warum ein kommerzielles KI-Produkt wie Copilot von diesen Lizenzanforderungen ausgenommen werden sollte, und berufen sich dabei oft auf „faire Nutzung“.
Es ist nicht fair, erlaubt oder gerechtfertigt. Im Gegenteil: Das Ziel von Copilot besteht darin, eine große Menge an Open-Source-Lösungen zu ersetzen, indem es innerhalb einer von GitHub kontrollierten Paywall bleibt. Es verstößt gegen die Lizenzen, die Open-Source-Programmierer gewählt haben, und monetarisiert ihren Code, obwohl GitHub versprochen hat, dies niemals zu tun.
[1] GitHub, Inc. wird als „GitHub“ bezeichnet. Die Microsoft Corporation wird als „Microsoft“ bezeichnet. OpenAI, Inc.; OpenAI, LP; OpenAI OpCo, LLC; OpenAI GP, LLC; OpenAI Startup Fund GP I, LLC; OpenAI Startup Fund I, LP; und OpenAI Startup Fund Management, LLC werden hier gemeinsam als „OpenAI“ bezeichnet. Gemeinsam: GitHub, Inc., Microsoft Corporation, OpenAI, Inc.; OpenAI, LP; OpenAI GP, LLC; OpenAI Startup Fund GP I, LLC; OpenAI Startup Fund I, LP; und OpenAI Startup Fund Management, LLC werden hierin als „Beklagte“ bezeichnet.
[2] Eine KI zu „trainieren“, wie weiter unten ausführlicher beschrieben, bedeutet, ihr große Datenmengen zuzuführen, die sie anhand vorgegebener Kriterien interpretiert. Anschließend wird ihm Feedback zur Feinabstimmung seiner Ausgabe gegeben, bis eine Ausgabe mit minimalen Fehlern bereitgestellt werden kann.
[3] Repositorys sind Container für einzelne Codierungsprojekte. Hier laden GitHub-Benutzer ihren Code hoch und andere Benutzer können ihn finden. Die meisten GitHub-Benutzer verfügen über mehrere Repositorys.
Über HackerNoon Legal PDF Series: Wir stellen Ihnen die wichtigsten technischen und aufschlussreichen Public-Domain-Gerichtsanträge vor.
Dieser Gerichtsfall 4:22-cv-06823-JST, abgerufen am 8. Juni 2023 von Storage Courtlistener , ist Teil der Public Domain. Die vom Gericht erstellten Dokumente sind Werke der Bundesregierung und werden gemäß dem Urheberrecht automatisch öffentlich zugänglich gemacht und können ohne rechtliche Beschränkungen weitergegeben werden.