Na semana passada, a Open AI (criadora do ChatGPT) anunciou oficialmente seu rastreador da web - este é um software que extrai conteúdo de todos os sites da Internet, que é usado para treinamento de modelos de IA.
A existência do rastreador não é surpreendente e vários rastreadores da web legítimos existem hoje, incluindo o rastreador do Google que indexa toda a Internet.
No entanto, esta é a primeira vez que o OpenAI anunciou explicitamente sua existência e também forneceu um mecanismo para os sites optarem por não serem raspados.
Observe que o rastreador é opcional por padrão , ou seja, você precisa alterar explicitamente um trecho de código em seu site para solicitar que o rastreador não raspe seus dados. Os padrões opt-in/out são rígidos e geralmente determinam qual é o comportamento da maioria porque a maioria das pessoas não se esforça para alterar os padrões.
É a mesma razão pela qual as mudanças de privacidade do iOS14 da Apple tiveram um grande impacto na indústria de publicidade digital.
Então, por que fornecer o opt-out? Este é provavelmente um movimento preventivo da OpenAI em resposta a processos recentes contra a empresa, alegando que os direitos autorais dos proprietários de conteúdo foram infringidos (artigo mais profundo sobre extração de dados, se você quiser pesquisar mais).
O concorrente do ChatGPT, Google Bard, enfrenta um desafio semelhante, mas o Google ainda não anunciou uma solução equivalente - eles enviaram um pedido de comentário sobre como atualizar o robots.txt para resolver esse problema (escrito com alguma caligrafia de relações públicas ).
Neste artigo, vamos mergulhar em:
Embora o anúncio forneça uma opção para os anunciantes impedirem que o rastreador da OpenAI extraia seus dados, algumas coisas não são boas:
É opcional por padrão, o que significa que o OpenAI pode continuar raspando até que os sites digam explicitamente para não fazer isso.
Não houve uma decisão legal clara de uma forma ou de outra sobre os direitos dos proprietários de conteúdo quando seus dados são copiados para treinamento de modelo sem consentimento (o que seria essencialmente o caso de qualquer pessoa que é forçada a um opt-in padrão)
Hoje, existem duas construções legais que determinam se os modelos de linguagem podem ou não obter todos esses dados sem consentimento — direitos autorais e uso justo .
Os direitos autorais fornecem proteção a tipos específicos de conteúdo, mas também possuem restrições/exceções:
A proteção dos direitos autorais subsiste, de acordo com este título, em obras originais de autoria fixadas em qualquer meio tangível de expressão, agora conhecido ou desenvolvido posteriormente, a partir do qual possam ser percebidas, reproduzidas ou comunicadas de outra forma, diretamente ou com o auxílio de um máquina ou dispositivo.
As obras de autoria incluem as seguintes categorias: (1) obras literárias; (2) obras musicais, incluindo quaisquer palavras acompanhantes; (3) obras dramáticas, incluindo qualquer acompanhamento musical; (4) pantomimas e trabalhos coreográficos; (5) obras pictóricas, gráficas e escultóricas; (6) filmes e outras obras audiovisuais; (7) gravações de som; e (8) obras arquitetônicas.
(b) Em nenhum caso a proteção de direitos autorais para um trabalho de autoria original se estende a qualquer ideia, procedimento, processo, sistema, método de operação, conceito, princípio ou descoberta , independentemente da forma em que é descrito, explicado, ilustrado , ou incorporado em tal trabalho
Por exemplo, direitos autorais protegem a maioria dos trabalhos originais (por exemplo, se você escreveu um artigo de blog ou livro original sobre um tópico), mas não protege ideias amplas (por exemplo, você não pode alegar que foi a primeira pessoa a escrever sobre como a IA afeta os direitos de dados , e, portanto, a ideia pertence a você).
Outra exclusão/exceção da proteção de direitos autorais é o uso justo:
O uso justo de um trabalho protegido por direitos autorais, incluindo o uso por reprodução em cópias ou gravações de áudio ou por qualquer outro meio especificado por essa seção, para fins de crítica, comentário, reportagem de notícias, ensino (incluindo várias cópias para uso em sala de aula), bolsa de estudos, ou pesquisa, não é uma violação de direitos autorais.
Ao determinar se o uso feito de uma obra em qualquer caso particular é um uso justo, os fatores a serem considerados devem incluir (1) o propósito e o caráter do uso, incluindo se tal uso é de natureza comercial ou é para fins educacionais sem fins lucrativos ; (2) a natureza do trabalho protegido por direitos autorais; (3) a quantidade e substancialidade da parte utilizada em relação ao trabalho protegido por direitos autorais como um todo; e (4) o efeito do uso sobre o mercado potencial ou o valor do trabalho protegido por direitos autorais.
Por exemplo, se você pegou o conteúdo de um trabalho de pesquisa e escreveu uma crítica sobre ele, tudo bem e você não está infringindo os direitos autorais do proprietário do conteúdo. É a mesma situação quando vinculo outro artigo desta página e adiciono o texto citado desse artigo.
Ambos os conceitos foram criados para proteger os direitos dos proprietários de conteúdo e, ao mesmo tempo, permitir o livre fluxo de informações, especialmente no contexto de educação, pesquisa e crítica.
Não sou um especialista jurídico, mas com base em minha pesquisa/compreensão da linguagem acima, onde isso fica confuso com modelos de IA que extraem conteúdo de treinamento é:
Ainda não houve decisões judiciais sobre isso, então é difícil prever onde isso chegará. Minha opinião não advogada é que o segundo é provavelmente mais fácil de conseguir: OpenAI extraiu dados e os usou para criar um produto comercial e, portanto, eles não recebem uma exceção sob o Fair Use.
Eu imagino que o primeiro (o modelo treinou em uma “ideia” ou apenas no texto original) é uma incógnita.
Observe que ambos os marcadores precisam estar a favor dos proprietários de conteúdo para que eles ganhem, ou seja, os proprietários de conteúdo só ganham se ambas as exceções acima (exceção de “ideia” ou exceção de Uso Justo) não se aplicarem ao OpenAI.
Trago essa nuance porque, no espectro de riscos de IA (não exaustivo) - dos direitos dos proprietários de conteúdo para amplificar a fraude para empregos sendo automatizados para AGI / destruição da humanidade - a questão de curto prazo mais urgente são os direitos dos proprietários de conteúdo , como evidenciado pela enxurrada de ações judiciais e o impacto nas plataformas de conteúdo (por exemplo, a história do StackOverflow ).
Embora reguladores como a FTC possam refletir sobre os problemas realmente de longo prazo e apresentar maneiras hipotéticas/criativas de lidar com esses riscos, seu potencial real de curto prazo reside na capacidade de enfrentar riscos que nos afetarão nos próximos 5 a 10 anos. horizonte. Como violação de direitos autorais.
O que nos leva ao que a FTC está fazendo a respeito.
Em meados de julho, a FTC anunciou que está investigando a OpenAI. O que o torna interessante (e frustrante) é o motivo pelo qual a FTC os está investigando .
O criador do ChatGPT está sendo investigado para avaliar se a empresa infringiu alguma lei de proteção ao consumidor ao colocar em risco a reputação e os dados pessoais .
Não faz sentido? Você não está sozinho. Vamos apresentar mais alguns antecedentes sobre como isso aconteceu.
A postura mais expressiva da FTC sobre a regulamentação da IA foi divulgada em abril: “Não há isenção de IA nas leis dos livros, e a FTC aplicará vigorosamente a lei para combater práticas injustas ou enganosas ou métodos de concorrência desleais”.
Em seguida, surgiram alguns problemas relacionados à difamação: o apresentador de rádio Mark Walters processou a OpenAI depois que o ChatGPT o acusou de fraudar uma organização sem fins lucrativos e um professor de direito foi falsamente acusado pelo ChatGPT de assédio sexual .
Ambos os cenários são péssimos para as pessoas envolvidas, e eu simpatizo com isso. No entanto, é um fato conhecido que os modelos de linguagem (como o GPT) e os produtos construídos sobre eles (como o ChatGPT) “alucinam” e geralmente estão incorretos.
A primeira metade da premissa da FTC para a investigação é que - ChatGPT alucina e, portanto, cria danos à reputação.
Em uma acalorada audiência no Congresso, um representante (com razão) pergunta à FTC por que eles estão indo atrás de difamação e difamação, que normalmente são tratadas por leis estaduais. A presidente da FTC, Lina Khan, apresenta um argumento complicado :
Khan respondeu que calúnia e difamação não são foco da aplicação da FTC, mas que o uso indevido de informações privadas das pessoas no treinamento de IA pode ser uma forma de fraude ou engano sob a Lei da FTC.
“Estamos focados em 'Há danos substanciais às pessoas?' A lesão pode parecer com todo tipo de coisa”, disse Khan.
Para encerrar o argumento completo - a FTC está dizendo que a alucinação do ChatGPT produz informações incorretas (incluindo difamação), que podem ser uma forma de enganar o consumidor .
Além disso, informações confidenciais do usuário podem ter sido usadas/vazadas (com base em um bug que o OpenAI corrigiu rapidamente).
Como parte da investigação, a FTC pediu uma longa lista de coisas da OpenAI - desde detalhes sobre como seu modelo é treinado até quais fontes de dados eles usam, como eles posicionam seus produtos para os clientes até situações em que os lançamentos de modelos foram pausados porque dos riscos identificados.
A questão é: a melhor abordagem para a FTC é regular o que provavelmente será uma das maiores empresas de IA, especialmente devido ao cenário jurídico atual?
Para criticar a estratégia da FTC com a OpenAI, é útil entender o cenário jurídico em que operamos hoje. Não entraremos em muitos detalhes, mas vamos fazer isso brevemente com a história do antitruste como exemplo:
A conclusão disso é que continuamos a operar hoje em um cenário onde os casos são fortemente litigados com base na “letra da lei” e não no “espírito da lei”. Isso, junto com a composição da Suprema Corte dos EUA hoje, resultou em interpretações bastante conservadoras da lei.
O que isso significa para a FTC é abraçar a realidade desse cenário e descobrir uma maneira de ganhar casos . O modelo operacional da FTC e do DOJ (com razão) é ir atrás de um punhado de grandes casos e estabelecer uma aplicação severa para que a cauda longa das empresas pense duas vezes antes de infringir as leis.
Para que isso aconteça, a FTC precisa ganhar muito em algumas questões e precisa de uma estratégia vencedora dentro das restrições do cenário jurídico atual .
A FTC teve uma série de perdas contra a Big Tech, e eu diria que todas as perdas podem ser atribuídas a uma estratégia fracassada de “odiamos tudo que é grande tecnologia”, estratégia de martelo e não bisturi de enfrentar essas empresas.
Por exemplo, a FTC adotou uma abordagem de força bruta para impedir a aquisição de $ 69 bilhões da Microsoft-Activision e perdeu (muito mal, eu diria). A FTC argumentou que a Microsoft adquirindo a Activision acabaria com a concorrência no mercado de jogos.
O juiz redigiu uma decisão bastante contundente descartando todos os argumentos da FTC; aqui está um dos comentários do juiz:
Não há documentos internos, e-mails ou bate-papos que contradigam a intenção declarada da Microsoft de não tornar Call of Duty exclusivo para consoles Xbox. Apesar da conclusão da extensa descoberta no processo administrativo da FTC, incluindo a produção de quase 1 milhão de documentos e 30 depoimentos, a FTC não identificou um único documento que contradiga o compromisso declarado publicamente da Microsoft de disponibilizar Call of Duty no PlayStation (e Nintendo Switch ).
Outro caso de força bruta foi a tentativa da FTC de bloquear a aquisição pela Meta de uma empresa de VR Within, e eles perderam . Por que eles perseguiram isso? Eles queriam testar as águas para ver se havia apetite para bloquear aquisições antes que um determinado mercado se tornasse grande e, devido ao cenário legal atual, isso foi descartado sem surpresa.
O problema com a investigação da OpenAI pela FTC é semelhante:
Eles estão indo atrás (o que na minha opinião) é uma questão bastante trivial e uma conhecida limitação dos modelos de linguagem – alucinações; em vez disso, eles deveriam se concentrar em problemas reais de IA que importam no horizonte de 5 a 10 anos, como direitos autorais.
Apesar de várias abordagens legais “criativas” serem descartadas no atual cenário jurídico, eles estão tentando outro argumento criativo: alucinação → difamação → engano do consumidor.
A interpretação generosa de suas ações é que eles querem estabelecer um precedente para sua postura de “IA não está isenta de leis existentes” e que essa busca inútil lhes dá uma grande quantidade de dados auto-relatados da OpenAI (FTC emite 20 páginas de pergunta ).
No entanto, dado seu histórico de buscar repetidamente a força bruta/qualquer coisa de grande tecnologia é uma abordagem não competitiva + combinando-os com argumentos criativos que estão sendo repetidamente rejeitados nos tribunais, acredito que a FTC não ganhou o benefício da dúvida neste caso.
Eu absolutamente acho que o OpenAI deve ser regulamentado. Não porque seus LLMs alucinam (é claro que sim), mas porque estão usando descaradamente o conteúdo dos criadores sem permissão. Não porque mudará o passado, mas porque ajudará a preparar os proprietários de conteúdo para um futuro saudável, onde seus direitos autorais não podem ser violados de forma flagrante.
Mas a FTC está repetindo seus erros com a abordagem do martelo e não do bisturi. Há um claro precedente de sucesso contra a grande tecnologia com uma abordagem de bisturi, sendo o mais notável a Autoridade de Mercados e Concorrência do Reino Unido.
Os dois grandes casos que eles ganharam contra o Google se concentraram em mecanismos anticompetitivos específicos: impedir o Google de fornecer tratamento preferencial a seu próprio produto na pilha AdTech e permitir que outros provedores de pagamento façam pagamentos no aplicativo.
Se a FTC continuar em seu caminho atual, sua série de perdas vai encorajar as empresas de tecnologia a continuar fazendo o que quiserem, porque sabem que podem vencer no tribunal. É hora de a FTC refletir sobre suas falhas, aprender com os sucessos de outros reguladores e corrigir o curso.
🚀 Se você gostou desta peça, considere assinar minha newsletter semanal . Toda semana, publico uma análise aprofundada sobre um tópico de tecnologia/estratégia de produto atual na forma de uma leitura de 10 minutos.
Atenciosamente, Viggy.
Também publicado aqui