Los modelos de lenguaje extenso (LLM) como GPT-3 se han convertido rápidamente en uno de los avances tecnológicos más significativos en el campo del procesamiento del lenguaje natural (NLP).
Los LLM han demostrado un potencial significativo para ayudar en una variedad de tareas, que incluyen traducción de idiomas, resumen de texto, respuesta a preguntas, recuperación de información, motor de recomendaciones, robótica basada en lenguaje y muchas otras.
Si bien los modelos de lenguaje grande (LLM) como ChatGPT han demostrado un rendimiento excepcional en varias tareas de procesamiento de lenguaje natural, su posible uso indebido plantea problemas éticos que deben abordarse . Con la capacidad de generar texto coherente y contextualmente relevante, los LLM podrían usarse para producir noticias falsas o difundir información errónea, lo que podría tener graves consecuencias en la sociedad.
Tal mal uso podría conducir a la erosión de la confianza en los medios de comunicación y una percepción distorsionada de la realidad. Además, los LLM podrían utilizarse para plagio, robo de propiedad intelectual o revisiones de productos falsos durante generaciones, lo que podría engañar a los consumidores e impactar negativamente en las empresas. Además, la capacidad de los LLM para manipular contenido web con fines maliciosos, como crear cuentas de redes sociales falsas o influir en debates en línea, podría tener efectos desastrosos en la opinión pública y el discurso político.
Con la creciente preocupación, probablemente sea hora de hacer la pregunta:
Por un lado, DetectGPT de Stanford compara la probabilidad que un modelo asigna al texto escrito con la de una modificación del texto, a detectar.
Por otro lado, se proponen enfoques basados en marcas de agua desarrollados por el grupo de Tom Goldstein para aumentar efectivamente la detectabilidad.
Sin embargo, se ha demostrado que las marcas de agua (que no están bien entrenadas) son vulnerables a los ataques de paráfrasis y suplantación de identidad, según Sadasivan. et al. y Krishna et al.
Últimamente, la comunidad ha tenido un acalorado debate sobre si los textos generados por IA se pueden distinguir de los generados por humanos, junto con discusiones sobre si fallaremos en "retener la IA" y tendremos un apocalipsis AGI ya que no podemos detectar la IA. contenido generado. Los líderes tecnológicos incluso pidieron una suspensión de 6 meses de la capacitación en modelos de lenguaje extenso (LLM).
Líderes académicos como Yann Lecun y Andrew Ng están en contra de esta prohibición de la IA.
Vicepresidente y científico jefe de IA en Meta, Yann LeCun cita:
“¿Por qué ralentizar el progreso del conocimiento?”
En medio de este momento crítico, estudiamos la detectabilidad de los textos generados por IA a través de una lente de teoría de la información. Proporcionamos evidencia para el optimismo: casi siempre debería ser posible detectar a menos que las distribuciones de texto humano y de máquina sean exactamente iguales en todo el soporte.
La detectabilidad se basa en una compensación precisa con información de Chernoff y más observaciones. Probamos un límite superior alcanzable de AUROC (que está entre 0 y 1, más alto significa más detectable) a través de un detector basado en la relación de probabilidad usando múltiples muestras. A medida que aumenta el número de muestra, AUROC aumenta exponencialmente a 1.
Los resultados teóricos de esta información se basan en una cantidad clave llamada información de Chernoff, que puede guiar el diseño de marcas de agua de LLM. Experimentalmente, hemos verificado que la indetectabilidad de la detección a nivel de palabra se vuelve detectable cuando se cambia a la detección a nivel de párrafo.
Los resultados teóricos de esta información se basan en una cantidad clave llamada información de Chernoff, que puede guiar el diseño de marcas de agua de LLM. Obtuvimos límites de complejidad de muestra para guiar la posibilidad de detección de texto generado por IA.
La indetectabilidad a nivel de palabra se vuelve detectable cuando se cambia a detección a nivel de párrafo en múltiples conjuntos de datos. A medida que aumentamos la duración de la detección, la precisión de detección de ZeroShot aumenta significativamente.
Al final, creemos que la forma correcta de lidiar con el mal uso de los #LLM es corregirlos en lugar de prohibirlos.
Sin embargo, incluso cuando era joven, no me atrevía a creer que si el conocimiento presentaba peligro, la solución era la ignorancia. A mí siempre me pareció que la solución tenía que ser la sabiduría. No se negó a mirar el peligro, sino que aprendió a manejarlo de manera segura.
Isaac Asimov
Nota: Este es el primer paso y nuestro estudio exige una investigación continua para desarrollar marcos y pautas que impulsen la innovación y garanticen el uso ético de estas poderosas herramientas.
Colaboradores invitados:
Souradip Chakraborty , Ph.D. El estudiante de posgrado de la Universidad de Maryland , Amrit Singh Bedi , científico investigador de la Universidad de Maryland, Sicheng Zhu, Bang An, Dinesh Manocha y Furong Huang están investigando la detectabilidad de los textos generados por IA a través de una lente de teoría de la información. Cualquier opinión expresada en este artículo es estrictamente de los autores.
Este artículo fue publicado originalmente por Souradip Chakraborty, Ph.D. Estudiante de posgrado de la Universidad de Maryland, Amrit Singh Bedi, científico investigador de la Universidad de Maryland, Sicheng Zhu, Bang An, Dinesh Manocha y Furong Huang en The Tech Panda.