DOE contre Github (plainte modifiée) Court Filing (Expurgé), 8 juin 2023 fait partie de la série PDF juridique de HackerNoon . Vous pouvez accéder à n'importe quelle partie de ce dossier ici . Ceci est la première partie sur 38.
Les demandeurs J. Doe 1, J. Doe 2, J. Doe 3, J. Doe 4 et J. Doe 5 (« Plaignants »), en leur nom et en celui de toutes les autres personnes dans une situation similaire, déposent cette plainte de recours collectif (la « plainte ") contre les défendeurs GitHub, Inc. ; Microsoft Corporation; OpenAI, Inc. ; OpenAI, LP ; OpenAI OpCo, LLC ; OpenAI GP, LLC ; Fonds de démarrage OpenAI GP I, LLC ; Fonds de démarrage OpenAI I, LP ; et OpenAI Startup Fund Management, LLC1 pour violation du Digital Millennium Copyright Act, 17 USC §§ 1201-1205 (le « DMCA ») ; rupture de contrat concernant les licences suggérées, rupture de contrat concernant les politiques de GitHub, y compris ses conditions de service ; ingérence délictuelle dans les relations économiques prospectives ; La loi californienne sur la concurrence déloyale, Cal. Bus. & Prof. Code section 17200, et suivants ; concurrence déloyale de droit commun ; négligence et enrichissement sans cause.
Les demandeurs et les membres du groupe sont propriétaires de droits d'auteur sur les documents rendus publics sur GitHub et soumis à diverses licences contenant des conditions d'utilisation de ces œuvres (les « documents sous licence »). Toutes les licences en question ici (les « Licences ») contiennent certains termes courants (les « Conditions de licence »).
« Intelligence artificielle » est appelée ici « IA ». L’IA est définie aux fins de la présente plainte comme un programme informatique qui simule de manière algorithmique le raisonnement ou l’inférence humaine, souvent à l’aide de méthodes statistiques. Le Machine Learning (« ML ») est un sous-ensemble de l’IA dans lequel le comportement du programme est dérivé de l’étude d’un corpus de matériel appelé données de formation.
GitHub est une entreprise fondée en 2008 par une équipe de passionnés de l'open source. À l'époque, l'objectif affiché de GitHub était de soutenir le développement open source, notamment en hébergeant du code source open source sur le site github.com . Au cours des 10 années suivantes, GitHub, basé sur ces représentations, a connu un succès retentissant, attirant près de 25 millions de développeurs.
Les développeurs ont publié des documents sous licence sur GitHub conformément à des licences écrites. En particulier, les plus populaires partagent un terme commun : l'utilisation des éléments sous licence nécessite une certaine forme d'attribution, généralement, entre autres, en incluant une copie de la licence ainsi que le nom et la mention de droit d'auteur de l'auteur original.
Le 26 octobre 2018, Microsoft a acquis GitHub pour 7,5 milliards de dollars. Même si certains membres de la communauté open source étaient sceptiques quant à cette union, Microsoft a répété un mantra tout au long : « Microsoft Loves Open Source ». Les premières années, les représentations de Microsoft semblaient crédibles.
Microsoft a investi 1 milliard de dollars dans OpenAI LP en juillet 2019, pour une valorisation de 20 milliards de dollars. En 2020, Microsoft est devenu titulaire exclusif de la licence du modèle de langage GPT-3 d'OpenAI, malgré les affirmations persistantes d'OpenAI selon lesquelles ses produits sont censés profiter à « l'humanité » dans son ensemble. En 2021, Microsoft a commencé à proposer GPT-3 via sa plateforme de cloud computing Azure. Le 20 octobre 2022, il a été rapporté qu'OpenAI « était en pourparlers avancés pour lever davantage de fonds auprès de Microsoft » pour la même valorisation de 20 milliards de dollars. Copilot fonctionne sur la plateforme Azure de Microsoft. Microsoft a utilisé Copilot pour promouvoir la puissance de traitement d'Azure, notamment en ce qui concerne l'IA.
Sur la base d'informations et de convictions, Microsoft a obtenu une participation partielle dans OpenAI en échange de son investissement d'un milliard de dollars. En tant que plus grand investisseur et fournisseur de services d'OpenAI, en particulier en ce qui concerne le produit Azure de Microsoft, Microsoft exerce un contrôle considérable sur OpenAI.
En juin 2021, GitHub et OpenAI ont lancé Copilot, un produit basé sur l'IA qui promet d'aider les codeurs de logiciels en fournissant ou en remplissant des blocs de code à l'aide de l'IA. GitHub facture aux utilisateurs de Copilot 10 $ par mois ou 100 $ par an pour ce service. Copilot ignore, viole et supprime les licences proposées par des milliers, voire des millions, de développeurs de logiciels, réalisant ainsi un piratage de logiciels à une échelle sans précédent. Copilot produit du texte dérivé des documents sous licence des demandeurs et du groupe sans adhérer aux conditions de licence applicables et aux lois applicables. La sortie de Copilot est appelée ici « Sortie ».
Le 10 août 2021, OpenAI a lancé son produit Codex, qui convertit le langage naturel en code et est intégré à Copilot. Copilot et Codex peuvent être appelés IA ou ML. Codex et Copilot seront appelés Ais dans les présentes, sauf si une distinction est requise.
Bien que les défendeurs se soient montrés prudents quant aux données utilisées pour entraîner l’IA2, ils ont admis que les données de formation incluent des données provenant d’un grand nombre de référentiels accessibles au public sur GitHub3, qui incluent et sont limités par des licences.
Entre autres choses, les défendeurs ont supprimé de leur code l'attribution des demandeurs et du groupe, l'avis de droit d'auteur et les conditions de licence, en violation des licences et des droits des demandeurs et du groupe. Les accusés ont utilisé Copilot pour distribuer le code désormais anonymisé aux utilisateurs de Copilot comme s'il avait été créé par Copilot.
Copilot est entièrement exécuté sur la plateforme de cloud computing Azure de Microsoft.
Copilot reproduit souvent simplement du code qui peut être retracé jusqu'à des référentiels open source ou des titulaires de licence open source. Contrairement et en violation des licences, le code reproduit par Copilot n'inclut jamais d'attributions aux auteurs sous-jacents.
GitHub et OpenAI ont proposé des comptes changeants sur la source et la quantité de code ou d'autres données utilisées pour former et faire fonctionner Copilot. Ils ont également proposé des justifications changeantes pour expliquer pourquoi un produit commercial d’IA comme Copilot devrait être exempté de ces exigences de licence, citant souvent « l’utilisation équitable ».
Ce n’est ni juste, ni permis, ni justifié. Au contraire, l'objectif de Copilot est de remplacer une grande partie de l'open source en le prenant et en le conservant dans un paywall contrôlé par GitHub. Il viole les licences choisies par les programmeurs open source et monétise leur code malgré l'engagement de GitHub de ne jamais le faire.
À propos de la série PDF juridique de HackerNoon : Nous vous proposons les dossiers judiciaires techniques et perspicaces les plus importants du domaine public.
Cette affaire judiciaire 4:22-cv-06823-JST récupérée le 8 juin 2023 sur Storage Courtlistener fait partie du domaine public. Les documents créés par le tribunal sont des œuvres du gouvernement fédéral et, en vertu de la loi sur le droit d'auteur, sont automatiquement placés dans le domaine public et peuvent être partagés sans restriction légale.