paint-brush
Un regard sur le Web Crawler d'OpenAI et les faux pas continus de la FTCpar@viggybala
1,160 lectures
1,160 lectures

Un regard sur le Web Crawler d'OpenAI et les faux pas continus de la FTC

par Viggy Balagopalakrishnan11m2023/08/18
Read on Terminal Reader

Trop long; Pour lire

OpenAI lance un robot d'exploration opt-in par défaut pour gratter Internet, tandis que la FTC poursuit une obscure enquête sur la tromperie des consommateurs
featured image - Un regard sur le Web Crawler d'OpenAI et les faux pas continus de la FTC
Viggy Balagopalakrishnan HackerNoon profile picture
0-item
1-item

OpenAI lance un robot d'exploration opt-in par défaut pour gratter Internet, tandis que la FTC poursuit une obscure enquête sur la tromperie des consommateurs

La semaine dernière, Open AI (créateur de ChatGPT) a officiellement annoncé son robot d'exploration Web - il s'agit d'un logiciel qui récupère le contenu de tous les sites Web sur Internet, qui est ensuite utilisé pour la formation du modèle d'IA.


L'existence du robot d'exploration n'est pas surprenante et plusieurs robots d'exploration Web légitimes existent aujourd'hui, y compris le robot d'exploration de Google qui indexe l'intégralité d'Internet.


Cependant, c'est la première fois qu'OpenAI annonce explicitement son existence et fournit également un mécanisme permettant aux sites Web de refuser d'être supprimés.


Notez que le crawler est opt-in par défaut , c'est-à-dire que vous devez modifier explicitement un morceau de code sur votre site Web pour demander au crawler de ne pas scraper vos données. Les valeurs par défaut opt-in/out sont persistantes et déterminent souvent le comportement de la majorité, car la plupart des gens ne prennent pas la peine de modifier les valeurs par défaut.


C'est la même raison pour laquelle les changements de confidentialité iOS14 d'Apple ont eu un impact majeur sur l'industrie de la publicité numérique.


Robot d'exploration Web OpenAI (Source : OpenAI)


Alors, pourquoi même fournir l'opt-out ? Il s'agit probablement d'une décision préventive d'OpenAI en réponse aux récentes poursuites contre la société alléguant que les droits d'auteur des propriétaires de contenu ont été violés (article plus approfondi sur le grattage des données si vous voulez en savoir plus).


Le concurrent de ChatGPT, Google Bard, fait face à un défi similaire , mais Google n'a pas encore annoncé de solution équivalente .


Dans cet article, nous allons plonger dans :


  • Implications du robot d'exploration d'OpenAI pour les propriétaires de contenu


  • L'enquête actuelle de la FTC sur OpenAI


  • Le paysage juridique actuel dans lequel nous opérons


  • Pourquoi l'approche de la FTC consistant à s'attaquer à OpenAI est (encore un autre) faux pas

Implications du Crawler d'OpenAI pour les propriétaires de contenu

Bien que l'annonce offre aux annonceurs la possibilité d'empêcher le robot d'exploration d'OpenAI de récupérer leurs données, certaines choses ne sont pas géniales :


  1. C'est opt-in par défaut, ce qui signifie qu'OpenAI peut continuer à gratter jusqu'à ce que les sites leur disent explicitement de ne pas le faire


  2. Il n'y a pas eu de décision juridique claire d'une manière ou d'une autre sur les droits des propriétaires de contenu lorsque leurs données sont récupérées pour la formation de modèles sans consentement (ce qui serait essentiellement le cas de toute personne contrainte à un opt-in par défaut)


Aujourd'hui, il existe deux concepts juridiques qui déterminent s'il est acceptable ou non pour les modèles linguistiques de prendre toutes ces données sans consentement : le droit d'auteur et l'utilisation équitable .


Le droit d'auteur offre une protection à des types de contenu spécifiques, mais comporte également des exclusions/exceptions :


La protection du droit d'auteur subsiste, conformément au présent titre, sur les œuvres originales de l'esprit fixées sur tout support d'expression tangible, connu aujourd'hui ou développé ultérieurement, à partir duquel elles peuvent être perçues, reproduites ou communiquées d'une autre manière, soit directement, soit à l'aide d'un machine ou appareil.


Les œuvres d'auteur comprennent les catégories suivantes : (1) œuvres littéraires ; (2) les œuvres musicales, y compris les mots qui les accompagnent ; (3) œuvres dramatiques, y compris toute musique d'accompagnement ; (4) pantomimes et œuvres chorégraphiques; (5) œuvres picturales, graphiques et sculpturales; (6) films cinématographiques et autres œuvres audiovisuelles; (7) enregistrements sonores; et (8) les ouvrages architecturaux.


(b) En aucun cas, la protection du droit d'auteur pour une œuvre originale d'auteur ne s'étend à une idée, une procédure, un processus, un système, une méthode de fonctionnement, un concept, un principe ou une découverte , quelle que soit la forme sous laquelle il est décrit, expliqué, illustré , ou incorporés dans un tel travail


Par exemple, le droit d'auteur protège la plupart des travaux originaux (par exemple, si vous avez écrit un article de blog ou un livre original sur un sujet), mais ne protège pas les idées générales (par exemple, vous ne pouvez pas prétendre que vous avez été la première personne à écrire sur l'impact de l'IA sur les droits des données , et donc l'idée vous appartient).


Une autre exclusion/exception à la protection du droit d'auteur est l'utilisation équitable :


L'utilisation loyale d'une œuvre protégée par le droit d'auteur, y compris une telle utilisation par reproduction sous forme de copies ou d'enregistrements phonographiques ou par tout autre moyen spécifié par cet article, à des fins telles que la critique, les commentaires, les reportages, l'enseignement (y compris les copies multiples pour une utilisation en classe), l'érudition, ou la recherche, n'est pas une violation du droit d'auteur.


Pour déterminer si l'utilisation faite d'une œuvre dans un cas particulier est une utilisation loyale, les facteurs à prendre en compte doivent inclure (1) le but et le caractère de l'utilisation, y compris si cette utilisation est de nature commerciale ou à des fins éducatives à but non lucratif ; (2) la nature de l'œuvre protégée par le droit d'auteur ; (3) la quantité et l'importance de la partie utilisée par rapport à l'œuvre protégée dans son ensemble ; et (4) l'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée par le droit d'auteur.


Par exemple, si vous avez sélectionné le contenu d'un document de recherche et rédigé une critique à ce sujet, ce n'est pas grave et vous ne violez pas les droits d'auteur du propriétaire du contenu. C'est la même situation lorsque je lie un autre article de cette page et que j'ajoute du texte cité à partir de cet article.


Ces deux concepts ont été créés pour protéger les droits des propriétaires de contenu tout en permettant la libre circulation de l'information, en particulier dans le contexte de l'éducation, de la recherche et de la critique.


Je ne suis pas un expert juridique, mais d'après mes recherches/compréhension du langage ci-dessus, où cela devient flou avec les modèles d'IA qui récupèrent le contenu de la formation :


  • Les entreprises d'IA récupèrent généralement le texte intégral du site Web d'un propriétaire de contenu (ceci est protégé par le droit d'auteur), forment les modèles pour qu'ils apprennent «l'idée»/le «concept»/le «principe» (ceci n'est pas protégé par le droit d'auteur), puis les modèles finissent par cracher un texte différent. Dans ce cas, le propriétaire du contenu bénéficie-t-il ou non de la protection des droits d'auteur ?


  • Étant donné que les modèles linguistiques formés sont désormais utilisés à des fins commerciales (par exemple, ChatGPT Plus est un produit payant), est-ce une violation du droit d'auteur du propriétaire du contenu (car l'exception d'utilisation équitable ne s'applique plus) ?


Il n'y a pas encore eu de décision de justice à ce sujet, il est donc difficile de prédire où cela atterrit. Mon avis de non-avocat est que le second est probablement plus facile à obtenir : OpenAI a récupéré des données et les a utilisées pour créer un produit commercial, et par conséquent, ils ne bénéficient pas d'une exception en vertu de l'utilisation équitable.


J'imagine que le premier (le modèle s'est-il entraîné sur une «idée» ou simplement sur un texte original) est à deviner.


Notez que ces deux balles doivent être en faveur des propriétaires de contenu pour qu'ils gagnent, c'est-à-dire que les propriétaires de contenu ne gagnent que si les deux exceptions ci-dessus (exception "idée" ou exception d'utilisation équitable) ne s'appliquent pas à OpenAI.


J'évoque cette nuance car dans l'éventail des risques liés à l'IA (non exhaustif) - des droits des propriétaires de contenu à l'amplification de la fraude en passant par l'automatisation des emplois jusqu'à l'AGI / la destruction de l'humanité - le problème le plus urgent à court terme est celui des droits des propriétaires de contenu , comme en témoignent la vague de poursuites judiciaires et l'impact sur les plateformes de contenu (par exemple, l'histoire de StackOverflow ).


Alors que les régulateurs comme la FTC peuvent réfléchir aux problèmes à très long terme et proposer des moyens hypothétiques/créatifs pour faire face à ces risques, leur véritable potentiel à court terme réside dans leur capacité à faire face aux risques qui nous affecteront dans les 5 à 10 ans. horizon. Comme la violation du droit d'auteur.


Ce qui nous amène à ce que la FTC fait à ce sujet.

Enquête actuelle de la FTC sur OpenAI

À la mi-juillet, la FTC a annoncé qu'elle enquêtait sur OpenAI. Ce qui le rend intéressant (et frustrant), c'est la raison pour laquelle la FTC les enquête pour .


Le créateur de ChatGPT fait l'objet d'une enquête pour déterminer si l'entreprise a enfreint les lois sur la protection des consommateurs en mettant en danger sa réputation personnelle et ses données .


Ça n'a pas de sens ? Tu n'es pas seul. Établissons un peu plus de contexte sur la façon dont cela s'est produit.


La position la plus virulente de la FTC sur la réglementation de l'IA a été publiée en avril : "Il n'y a pas d'exemption de l'IA aux lois en vigueur, et la FTC appliquera vigoureusement la loi pour lutter contre les pratiques déloyales ou trompeuses ou les méthodes de concurrence déloyales".


Viennent ensuite quelques problèmes liés à la diffamation : l'animateur de radio Mark Walters a poursuivi OpenAI après que ChatGPT l'a accusé d'avoir fraudé une organisation à but non lucratif, et un professeur de droit a été faussement accusé par ChatGPT de harcèlement sexuel .


Ces deux scénarios sont nuls pour les personnes impliquées, et je compatis à cela. Cependant, c'est un fait connu que les modèles de langage (comme GPT) et les produits construits dessus (comme ChatGPT) "hallucinent" et sont souvent incorrects.


La première moitié de la prémisse de la FTC pour l'enquête est que - ChatGPT hallucine et crée donc une atteinte à la réputation.


Lors d'une audience animée du Congrès, un représentant demande (à juste titre) à la FTC pourquoi elle s'en prend à la diffamation et à la diffamation, qui sont généralement traitées par les lois de l'État. La présidente de la FTC, Lina Khan, donne un argument alambiqué :


Khan a répondu que la diffamation et la diffamation ne sont pas au centre de l'application de la FTC, mais que l'utilisation abusive des informations privées des personnes dans la formation à l'IA pourrait être une forme de fraude ou de tromperie en vertu de la loi FTC.


"Nous nous concentrons sur, 'Y a-t-il des blessures importantes chez les gens?' Les blessures peuvent ressembler à toutes sortes de choses », a déclaré Khan.


Pour lier l'argument complet - FTC dit que l'hallucination de ChatGPT produit des informations incorrectes (y compris la diffamation), qui pourraient alors être une forme de tromperie du consommateur .


De plus, des informations privées sensibles sur les utilisateurs pourraient avoir été utilisées/divulguées (sur la base d'un bogue qu'OpenAI a rapidement corrigé).


Dans le cadre de l'enquête, la FTC a demandé une longue liste de choses à OpenAI - des détails sur la façon dont leur modèle est formé aux sources de données qu'ils utilisent, en passant par la façon dont ils positionnent leur produit auprès des clients et les situations où les versions de modèles ont été interrompues parce que des risques identifiés.


La question est la suivante : la meilleure approche pour la FTC est-elle de réglementer ce qui sera sans doute l'une des plus grandes sociétés d'IA, en particulier compte tenu du paysage juridique actuel ?

Le paysage juridique actuel dans lequel nous opérons

Pour critiquer la stratégie de la FTC avec OpenAI, il est utile de comprendre le paysage juridique dans lequel nous opérons aujourd'hui. Nous n'entrerons pas trop dans les détails, mais faisons cela brièvement avec l' histoire de l'anti-trust comme exemple :


  • Dans les années 1900, des conglomérats massifs ("trusts") ont vu le jour et l'équilibre du pouvoir public-privé s'est déplacé vers ces entreprises.


  • En réponse, le Sherman Act de 1890 a été adopté pour ajouter des contrôles sur le pouvoir privé et préserver la concurrence; cette loi a été utilisée pour poursuivre et démanteler les « trusts » qui se livraient à des pratiques anticoncurrentielles (prix d'éviction, cartels, monopole de distribution).


  • Vers les années 1960, les juges ont fait face à de nombreuses réactions négatives pour avoir jugé sur la base de l'esprit de la loi au lieu de la lettre de la loi; par exemple, interpréter la loi Sherman pour déterminer si un ensemble d'entreprises « restreignent déraisonnablement le commerce » impliquait de la subjectivité, et les juges étaient accusés de se livrer à l'activisme judiciaire.


  • Pour introduire l'objectivité, l'école de Chicago a lancé la norme de bien-être des consommateurs - "les tribunaux doivent être guidés exclusivement par le bien-être des consommateurs" (par exemple, un monopole augmentant les prix de manière flagrante est une erreur mais, pour d'autres activités, la charge de la preuve incombe aux régulateurs pour prouver le préjudice subi par le consommateur.)


  • Cela continue d'être la norme aujourd'hui et c'est l'une des raisons pour lesquelles la FTC et le DOJ ont du mal à éliminer les grandes technologies - par exemple, la FTC ne peut pas faire valoir que Google augmente les prix puisque la plupart de leurs produits sont gratuits, même si Google se livre à d'autres pratiques anticoncurrentielles.


La conclusion à retenir est que nous continuons à opérer aujourd'hui dans un paysage où les affaires sont fortement plaidées sur la « lettre de la loi » et non sur « l'esprit de la loi ». Ceci, ainsi que la composition de la Cour suprême des États-Unis aujourd'hui, a abouti à des interprétations assez conservatrices de la loi.


Ce que cela signifie pour la FTC, c'est d'embrasser la réalité de ce paysage et de trouver un moyen de gagner des procès . Le modèle de fonctionnement de la FTC et du DOJ (à juste titre) consiste à s'attaquer à une poignée de grosses affaires et à imposer une application stricte afin que la longue queue des entreprises réfléchisse à deux fois avant d'enfreindre les lois.


Pour que cela se produise, la FTC doit gagner gros sur quelques questions, et elle a besoin d'une stratégie gagnante dans les limites du paysage juridique actuel .

Pourquoi l'approche de la FTC consistant à s'attaquer à OpenAI est (encore un autre) faux pas

La FTC a connu une série de pertes contre Big Tech, et je dirais que les pertes peuvent toutes être attribuées à une stratégie ratée «nous détestons tout ce qui concerne les grandes technologies», un marteau et non un scalpel pour affronter ces entreprises.


Par exemple, la FTC a adopté une approche de force brute pour arrêter l'acquisition de Microsoft-Activision de 69 milliards de dollars et a perdu (assez mal, je dirais). La FTC a fait valoir que l'acquisition d'Activision par Microsoft tuerait la concurrence sur le marché des jeux.


Le juge a rédigé une décision assez brutale rejetant tous les arguments de la FTC ; voici un des commentaires du juge :


Il n'y a pas de documents internes, d'e-mails ou de chats contredisant l'intention déclarée de Microsoft de ne pas rendre Call of Duty exclusif aux consoles Xbox. Malgré l'achèvement d'une enquête approfondie dans le cadre de la procédure administrative de la FTC, y compris la production de près d'un million de documents et de 30 dépositions, la FTC n'a identifié aucun document qui contredirait l'engagement public de Microsoft de rendre Call of Duty disponible sur PlayStation (et Nintendo Switch ).


Un autre cas de force brute a été la tentative de la FTC de bloquer l'acquisition par Meta d'une société de réalité virtuelle Within, et ils ont perdu . Pourquoi ont-ils poursuivi cela? Ils voulaient tester les eaux pour voir s'il y avait un appétit pour bloquer les acquisitions avant qu'un marché particulier ne devienne important, et compte tenu du paysage juridique actuel, il a été rejeté sans surprise.


Le problème avec l'enquête de la FTC sur OpenAI est similaire :

  1. Ils s'attaquent à (ce qui, à mon avis) est un problème assez trivial et une limitation connue des modèles de langage - les hallucinations ; ils devraient plutôt se concentrer sur les problèmes réels d'IA qui comptent dans un horizon de 5 à 10 ans, comme le droit d'auteur.


  2. Bien que de multiples approches juridiques « créatives » soient rejetées dans le paysage juridique actuel, ils tentent un autre argument créatif : hallucination → diffamation → tromperie du consommateur.


L'interprétation généreuse de leurs actions est qu'ils veulent créer un précédent pour leur position "l'IA n'est pas exemptée des lois existantes" et que cette chasse à l'oie sauvage leur rapporte une grande quantité de données autodéclarées d'OpenAI (la FTC publie 20 pages de demande ).


Cependant, compte tenu de leurs antécédents en matière de poursuites répétées de la force brute/tout ce qui concerne la grande technologie est une approche non compétitive + combinant ceux avec des arguments créatifs qui sont rejetés à plusieurs reprises devant les tribunaux, je pense que la FTC n'a pas gagné le bénéfice du doute dans cette affaire.

Conclusion

Je pense absolument qu'OpenAI devrait être réglementé. Non pas parce que leurs LLM hallucinent (bien sûr, ils le font) mais parce qu'ils utilisent de manière flagrante le contenu des créateurs sans autorisation. Non pas parce que cela changera le passé, mais parce que cela aidera les propriétaires de contenu à se préparer à un avenir sain où leurs droits d'auteur ne pourront pas être violés de manière flagrante.


Mais la FTC répète ses faux pas avec l'approche du marteau et non du scalpel. Il existe un précédent clair de succès contre les grandes technologies avec une approche scalpel, le plus notable étant l'Autorité britannique de la concurrence et des marchés.


Les deux grandes affaires qu'ils ont remportées contre Google se sont concentrées sur des mécanismes anticoncurrentiels spécifiques : empêcher Google d'accorder un traitement préférentiel à son propre produit dans la pile AdTech et autoriser d'autres fournisseurs de paiement pour les paiements intégrés.


Si la FTC continue sur sa voie actuelle, sa série de pertes va encourager les entreprises technologiques à continuer de faire ce qu'elles veulent, car elles savent qu'elles peuvent gagner devant les tribunaux. Il est temps que la FTC réfléchisse à ses échecs, apprenne des succès des autres régulateurs et corrige le cours.


🚀 Si vous avez aimé cette pièce, pensez à vous abonner à ma newsletter hebdomadaire . Chaque semaine, je publie une analyse approfondie sur un sujet technologique actuel/une stratégie produit sous la forme d'une lecture de 10 minutes.


Meilleur, Viggy.


Également publié ici