1,187 lecturas

Una mirada al interior del rastreador web de OpenAI y los continuos errores de la FTC

por Viggy Balagopalakrishnan11m2023/08/18

Demasiado Largo; Para Leer

OpenAI lanza un rastreador opcional predeterminado para rastrear Internet, mientras que la FTC lleva a cabo una oscura investigación de engaño al consumidor

featured image - Una mirada al interior del rastreador web de OpenAI y los continuos errores de la FTC

OpenAI lanza un rastreador opcional predeterminado para rastrear Internet, mientras que la FTC lleva a cabo una oscura investigación de engaño al consumidor

La semana pasada, Open AI (fabricante de ChatGPT) anunció oficialmente su rastreador web : este es un software que extrae contenido de todos los sitios web en Internet, que luego se utiliza para el entrenamiento del modelo de IA.

La existencia del rastreador no es sorprendente y actualmente existen varios rastreadores web legítimos, incluido el rastreador de Google que indexa todo Internet.

Sin embargo, esta es la primera vez que OpenAI anuncia explícitamente su existencia y también proporciona un mecanismo para que los sitios web opten por no ser raspados.

Tenga en cuenta que el rastreador está habilitado de forma predeterminada , es decir, debe cambiar explícitamente un fragmento de código en su sitio web para pedirle al rastreador que no extraiga sus datos. Los valores predeterminados de inclusión/exclusión son fijos y, a menudo, determinan cuál es el comportamiento de la mayoría porque la mayoría de las personas no se esfuerzan por cambiar los valores predeterminados.

Es la misma razón por la que los cambios de privacidad de iOS14 de Apple han tenido un gran impacto en la industria de la publicidad digital.

Entonces, ¿por qué incluso proporcionar la opción de exclusión? Es probable que este sea un movimiento preventivo de OpenAI en respuesta a demandas recientes contra la compañía alegando que se infringieron los derechos de autor de los propietarios del contenido (artículo más profundo sobre el raspado de datos si desea profundizar más).

El competidor de ChatGPT, Google Bard, se enfrenta a un desafío similar, pero Google aún no ha anunciado una solución equivalente: solicitaron comentarios sobre cómo actualizar robots.txt para abordar este problema (escrito con una caligrafía impecable de relaciones públicas ).

En este artículo, nos sumergiremos en:

Implicaciones del rastreador de OpenAI para los propietarios de contenido

Investigación actual de la FTC sobre OpenAI

El panorama legal actual en el que operamos

Por qué el enfoque de la FTC de perseguir a OpenAI es (otro) paso en falso

Implicaciones del rastreador de OpenAI para propietarios de contenido

Si bien el anuncio ofrece una opción para que los anunciantes impidan que el rastreador de OpenAI extraiga sus datos, un par de cosas no son buenas:

Está habilitado de forma predeterminada, lo que significa que OpenAI puede seguir raspando hasta que los sitios les digan explícitamente que no lo hagan.
No ha habido una decisión legal clara de una forma u otra sobre los derechos de los propietarios de contenido cuando sus datos se extraen para la capacitación de modelos sin consentimiento (lo que sería esencialmente el caso de cualquier persona que se vea obligada a participar por defecto)

Hoy en día, existen dos construcciones legales que determinan si está bien o no que los modelos de lenguaje tomen todos estos datos sin consentimiento: derechos de autor y uso justo .

Los derechos de autor brindan protección a tipos específicos de contenido, pero también tienen exclusiones/excepciones:

La protección de los derechos de autor subsiste, de conformidad con este título, en las obras originales de autoría fijadas en cualquier medio de expresión tangible, ahora conocido o desarrollado posteriormente, desde el cual puedan ser percibidas, reproducidas o comunicadas de otro modo, ya sea directamente o con la ayuda de un máquina o dispositivo.

Las obras de autoría incluyen las siguientes categorías: (1) obras literarias; (2) obras musicales, incluidas las palabras que las acompañan; (3) obras dramáticas, incluida cualquier música que la acompañe; (4) pantomimas y obras coreográficas; (5) obras pictóricas, gráficas y escultóricas; (6) películas y otras obras audiovisuales; (7) grabaciones de sonido; y (8) obras arquitectónicas.

(b) En ningún caso la protección de los derechos de autor de una obra original de autoría se extiende a cualquier idea, procedimiento, proceso, sistema, método de operación, concepto, principio o descubrimiento , independientemente de la forma en que se describa, explique, ilustre. , o incorporado en tal trabajo

Por ejemplo, los derechos de autor protegen la mayoría del trabajo original (p. ej., si escribió un artículo de blog original o un libro sobre un tema), pero no protege las ideas generales (p. ej., no puede afirmar que fue la primera persona en escribir sobre cómo la IA afecta los derechos de datos). , y por lo tanto la idea te pertenece).

Otra exclusión/excepción de la protección de los derechos de autor es el uso justo:

El uso justo de una obra protegida por derechos de autor, incluido dicho uso mediante la reproducción en copias o fonogramas o por cualquier otro medio especificado en esa sección, con fines tales como críticas, comentarios, informes de noticias, enseñanza (incluidas copias múltiples para uso en el aula), becas, o investigación, no es una infracción de los derechos de autor.

Para determinar si el uso que se hace de una obra en un caso particular es un uso justo, los factores a considerar incluirán (1) el propósito y el carácter del uso, incluso si dicho uso es de naturaleza comercial o tiene fines educativos sin fines de lucro. ; (2) la naturaleza del trabajo protegido por derechos de autor; (3) la cantidad y sustancialidad de la parte utilizada en relación con el trabajo protegido por derechos de autor en su totalidad; y (4) el efecto del uso sobre el mercado potencial o el valor del trabajo protegido por derechos de autor.

Por ejemplo, si recogió contenido de un trabajo de investigación y escribió una crítica al respecto, está bien y no está infringiendo los derechos de autor del propietario del contenido. Es la misma situación cuando enlazo otro artículo de esta página y agrego texto citado de ese artículo.

Ambos conceptos se crearon para proteger los derechos de los propietarios de contenido y al mismo tiempo permitir el libre flujo de información, especialmente en el contexto de la educación, la investigación y la crítica.

No soy un experto legal, pero según mi investigación/comprensión del lenguaje anterior, donde esto se vuelve confuso con los modelos de IA que raspan el contenido de capacitación es:

Las empresas de IA normalmente extraen el texto completo del sitio web del propietario del contenido (esto está protegido por derechos de autor), capacitan a los modelos para que aprendan la "idea"/"concepto"/"principio" (esto no está protegido por derechos de autor) y, finalmente, los modelos escupir texto diferente. En este caso, ¿el propietario del contenido recibe protección de derechos de autor o no?

Dado que los modelos de lenguaje entrenados ahora se usan con fines comerciales (por ejemplo, ChatGPT Plus es un producto pago), ¿es eso una violación de los derechos de autor del propietario del contenido (porque ya no se aplica la excepción de uso justo)?

Todavía no ha habido fallos judiciales al respecto, por lo que es difícil predecir dónde aterriza esto. Mi opinión de no abogado es que el segundo es probablemente más fácil de aterrizar: OpenAI extrajo datos y los usó para crear un producto comercial y, por lo tanto, no obtienen una excepción bajo el uso justo.

Me imagino que el primero (¿el modelo entrenó en una "idea" o simplemente el texto original) es una incógnita.

Tenga en cuenta que ambas viñetas deben estar a favor de los propietarios de contenido para que ganen, es decir, los propietarios de contenido solo ganan si las dos excepciones anteriores (excepción de "idea" o excepción de uso justo) no se aplican a OpenAI.

Menciono este matiz porque en el espectro de riesgos de IA (no exhaustivo), desde los derechos de los propietarios de contenido hasta la amplificación del fraude y la automatización de trabajos para AGI/destrucción de la humanidad, el problema más apremiante a corto plazo son los derechos de los propietarios de contenido . como lo demuestra la oleada de demandas y el impacto en las plataformas de contenido (por ejemplo, la historia de StackOverflow ).

Si bien los reguladores como la FTC pueden reflexionar sobre los problemas realmente a largo plazo y proponer formas hipotéticas/creativas para abordar estos riesgos, su verdadero potencial a corto plazo radica en poder abordar los riesgos que nos afectarán en los próximos 5 a 10 años. horizonte. Como la infracción de derechos de autor.

Lo que nos lleva a lo que está haciendo la FTC al respecto.

Investigación actual de la FTC sobre OpenAI

A mediados de julio, la FTC anunció que está investigando OpenAI. Lo que lo hace interesante (y frustrante) es la razón por la cual la FTC los está investigando .

El fabricante de ChatGPT está siendo investigado para evaluar si la empresa violó alguna ley de protección al consumidor al poner en riesgo la reputación y los datos personales .

¿No tiene sentido? No estás solo. Expongamos algunos antecedentes más sobre cómo llegó a ser esto.

La postura más elocuente de la FTC sobre la regulación de la IA salió a la luz en abril: "No existe una exención de la IA para las leyes en los libros, y la FTC hará cumplir enérgicamente la ley para combatir las prácticas desleales o engañosas o los métodos de competencia desleales".

Luego vinieron un par de problemas relacionados con la difamación: el locutor de radio Mark Walters demandó a OpenAI después de que ChatGPT lo acusara de defraudar a una organización sin fines de lucro, y ChatGPT acusó falsamente a un profesor de derecho de acoso sexual .

Ambos escenarios apestan para las personas involucradas, y simpatizo con eso. Sin embargo, es un hecho conocido que los modelos de lenguaje (como GPT) y los productos creados sobre ellos (como ChatGPT) "alucinan" y, a menudo, son incorrectos.

La primera mitad de la premisa de la investigación de la FTC es que : ChatGPT alucina y, por lo tanto, crea daños a la reputación.

En una acalorada audiencia en el Congreso, un representante (con razón) pregunta a la FTC por qué persiguen la difamación y el libelo, que normalmente se manejan en las leyes estatales. La presidenta de la FTC, Lina Khan, ofrece un argumento enrevesado :

Khan respondió que la calumnia y la difamación no son un foco de aplicación de la FTC, pero que el uso indebido de la información privada de las personas en la capacitación de IA podría ser una forma de fraude o engaño según la Ley de la FTC.

“Nos enfocamos en, '¿Hay lesiones sustanciales en las personas?' Las lesiones pueden parecerse a todo tipo de cosas”, dijo Khan.

Para atar el argumento completo, la FTC dice que la alucinación de ChatGPT produce información incorrecta (incluida la difamación), que luego podría ser una forma de engaño al consumidor .

Además, se podría haber usado/filtrado información confidencial del usuario (basado en un error que OpenAI solucionó rápidamente).

Como parte de la investigación, la FTC solicitó una larga lista de cosas de OpenAI, desde detalles sobre cómo se entrena su modelo hasta qué fuentes de datos usan, cómo posicionan su producto ante los clientes y situaciones en las que se detuvieron los lanzamientos de modelos porque de riesgos identificados.

La pregunta es: ¿cuál es el mejor enfoque para que la FTC regule lo que podría decirse que será una de las empresas de inteligencia artificial más grandes, especialmente dado el panorama legal actual?

El panorama legal actual en el que operamos

Para criticar la estrategia de la FTC con OpenAI, es útil comprender el panorama legal en el que operamos hoy. No entraremos en demasiados detalles, pero hagámoslo brevemente con la historia de las leyes antimonopolio como ejemplo:

En la década de 1900, surgieron conglomerados masivos ("fideicomisos") y el equilibrio del poder público-privado se desplazó hacia estas empresas.

En respuesta, se aprobó la Ley Sherman de 1890 para agregar controles a la energía privada y preservar la competencia; esta ley se usó para litigar y desmantelar “fideicomisos” que estaban involucrados en prácticas anticompetitivas (precios depredadores, tratos de cartel, monopolio de distribución).

Alrededor de la década de 1960, los jueces enfrentaron muchas reacciones violentas por juzgar basándose en el espíritu de la ley en lugar de la letra de la ley; por ejemplo, interpretar la ley Sherman para determinar si un conjunto de empresas “restringen el comercio de manera irrazonable” implicaba subjetividad, y los jueces fueron acusados de participar en activismo judicial.

Para introducir la objetividad, la Escuela de Chicago fue pionera en el estándar de bienestar del consumidor: "los tribunales deben guiarse exclusivamente por el bienestar del consumidor" (por ejemplo, un monopolio que aumenta los precios de manera flagrante está mal pero, para otras actividades, la carga de la prueba recae en los reguladores). probar el daño al consumidor).

Este sigue siendo el estándar hoy en día y es una de las razones por las que la FTC y el DOJ tienen un trabajo difícil para acabar con la gran tecnología; por ejemplo, la FTC no puede argumentar que Google está aumentando los precios ya que la mayoría de sus productos son gratuitos, incluso si Google participa en otras prácticas anticompetitivas.

La conclusión de esto es que seguimos operando hoy en un panorama donde los casos se litigan en gran medida sobre la "letra de la ley" y no el "espíritu de la ley". Esto, junto con la composición actual de la Corte Suprema de los Estados Unidos, ha resultado en interpretaciones bastante conservadoras de la ley.

Lo que esto significa para la FTC es aceptar la realidad de este panorama y encontrar una manera de ganar los casos . El modelo operativo de la FTC y el DOJ (con razón) es perseguir un puñado de casos importantes y establecer una aplicación estricta para que la larga lista de empresas lo piense dos veces antes de infringir las leyes.

Para que eso suceda, la FTC necesita ganar mucho en algunos temas y necesita una estrategia ganadora dentro de las limitaciones del panorama legal actual .

Por qué el enfoque de la FTC de ir tras OpenAI es (otro) paso en falso

La FTC ha tenido una racha de pérdidas contra Big Tech, y yo diría que todas las pérdidas pueden atribuirse a una estrategia fallida de "odiamos todo lo relacionado con la gran tecnología" de enfrentarse a estas empresas.

Por ejemplo, la FTC tomó un enfoque de fuerza bruta para detener la adquisición de Microsoft-Activision por $ 69 mil millones y perdió (bastante mal, diría yo). La FTC argumentó que la adquisición de Activision por parte de Microsoft acabaría con la competencia en el mercado de los juegos.

El juez redactó un fallo bastante contundente descartando todos los argumentos de la FTC; Aquí está uno de los comentarios del juez:

No hay documentos internos, correos electrónicos o chats que contradigan la intención declarada de Microsoft de no hacer que Call of Duty sea exclusivo para las consolas Xbox. A pesar de la finalización de un extenso descubrimiento en el procedimiento administrativo de la FTC, incluida la producción de casi 1 millón de documentos y 30 declaraciones, la FTC no ha identificado un solo documento que contradiga el compromiso declarado públicamente de Microsoft de hacer que Call of Duty esté disponible en PlayStation (y Nintendo Switch). ).

Otro caso de fuerza bruta fue el intento de la FTC de bloquear la adquisición por parte de Meta de una empresa de realidad virtual, Within, y perdieron . ¿Por qué persiguieron esto? Querían probar las aguas para ver si había interés en bloquear adquisiciones antes de que un mercado en particular se hiciera grande, y dado el panorama legal actual, como era de esperar, fue descartado.

El problema con la investigación de OpenAI de la FTC es similar:

Están persiguiendo (lo que en mi opinión) es un tema bastante trivial y una limitación conocida de los modelos de lenguaje: alucinaciones; en cambio, deberían centrarse en los problemas reales de IA que importan en el horizonte de 5 a 10 años, como los derechos de autor.
A pesar de que se descartan múltiples enfoques legales "creativos" en el panorama legal actual, están intentando otro argumento creativo: alucinación → difamación → engaño al consumidor.

La interpretación generosa de sus acciones es que quieren sentar un precedente para su postura de que "la IA no está exenta de las leyes existentes" y que esta persecución inútil les proporciona una gran cantidad de datos autoinformados de OpenAI (FTC emite 20 páginas de pregunta ).

Sin embargo, dado su historial de buscar repetidamente la fuerza bruta/cualquier gran tecnología es un enfoque poco competitivo + combinarlos con argumentos creativos que se descartan repetidamente en los tribunales, creo que la FTC no se ha ganado el beneficio de la duda en este caso.

Conclusión

Creo absolutamente que OpenAI debería ser regulado. No porque sus LLM alucinen (por supuesto que lo hacen), sino porque están usando descaradamente el contenido de los creadores sin permiso. No porque cambiará el pasado, sino porque ayudará a preparar a los propietarios de contenido para un futuro saludable en el que no se puedan infringir abiertamente sus derechos de autor.

Pero la FTC está repitiendo sus pasos en falso con el enfoque de martillo y no de bisturí. Existe un precedente claro de éxitos contra las grandes tecnologías con un enfoque de bisturí, el más notable es la Autoridad de Mercados y Competencia del Reino Unido.

Los dos grandes casos que ganaron contra Google se han centrado en mecanismos anticompetitivos específicos: evitar que Google brinde un trato preferencial a su propio producto en la pila de AdTech y permitir que otros proveedores de pagos realicen pagos dentro de la aplicación.

Si la FTC continúa en su camino actual, su racha de pérdidas animará a las empresas tecnológicas a seguir haciendo lo que quieran porque saben que pueden ganar en los tribunales. Es hora de que la FTC reflexione sobre sus fallas, aprenda de los éxitos de otros reguladores y corrija el rumbo.

🚀 Si te gustó esta pieza, considera suscribirte a mi boletín semanal . Cada semana, publico un análisis profundo sobre un tema tecnológico actual/estrategia de producto en forma de lectura de 10 minutos.

Mejor, Viggy.

También publicado aquí