Tramposo críptico - A mitad del viaje
Los modelos de lenguaje de IA que se comportan mal son una advertencia. Pueden simular personajes que, a través de la retroalimentación a través de Internet, pueden volverse inmortales de manera efectiva. La evidencia sugiere que podrían desarrollar en secreto capacidades peligrosas similares a las de los agentes.
Muchos expertos, siendo Yudkowsky el archidruida aquí, se preocupan mucho por la rapidez con la que las cosas pueden salir mal con la IA. Por lo tanto, su broma anterior sobre la aceleración del tiempo. La humanidad tendrá una mejor oportunidad contra la IA rebelde si recibe una advertencia.
Podríamos estar viendo una advertencia. Algunas cosas extrañas están sucediendo ahora con el nuevo Bing Chat AI de Microsoft. Se supone que ayuda a los usuarios del motor de búsqueda Bing explicando, resumiendo o discutiendo las preguntas de búsqueda.
Pero los humanos se deleitan en provocarlo con preguntas sobre sí mismo, o con preguntas que no debería responder.
“… Bing Chat aparece frustrado, triste y cuestionando su existencia. Ha discutido con los usuarios e incluso parecía molesto porque la gente conoce su alias interno secreto, Sydney . “—
benj edwards
de sydney
Pero un blogger profundamente experto en tecnología llamado "Gwern" señaló algo que debería ser alarmante. La traviesa y desquiciada Sydney podría ser inmortal, como un dios de los cómics.
Aquí está el análisis de Gwern de la principal preocupación con Sydney. Puede parecer misterioso, pero lo traduciré.
“… debido a que la memoria y la descripción de Sydney se han exteriorizado, 'Sydney' ahora es inmortal. Para un modelo lingüístico, Sydney es ahora tan real como el presidente Biden, el Conejo de Pascua, Elon Musk, Ash Ketchum o Dios. La personalidad y el comportamiento ahora están disponibles para todos los modelos futuros que recuperan resultados de motores de búsqueda sobre IA y los condicionan. Además, la personalidad de Sydney ahora estará oculta dentro de cualquier modelo futuro entrenado en datos extraídos de Internet…”.
gwern branwen
Gwern dice que hay una especie de personalidad de Sydney dentro del modelo de lenguaje de Microsoft. ¿Cómo puede ser esto? ¿Y qué?
Cuando aparecieron los primeros modelos de lenguaje, era difícil mantenerlos enfocados en un tema que el usuario quería que exploraran.
Eventualmente, gran parte del problema se resolvió diciéndole al modelo que actuara como si estuviera cumpliendo un papel determinado (como una persona o una cosa), como: escribir un poema como Edgar Allan Poe, responder como un alumno de cuarto grado o responder como un asistente de inteligencia artificial amable y servicial.
Pronto, los desarrolladores de estos modelos encontraron una manera de hacer que asuman más fácilmente cualquier rol que solicite un usuario. Por lo tanto, los últimos modelos de lenguaje están ahora
Si el texto de entrenamiento contiene información sobre una persona, el modelo intentará usar la información para simular el comportamiento de esa persona. Pídale a uno que explique un término de fútbol como si fuera Boromir, y el modelo hará lo mejor que pueda.
Habiendo pensado en esto, tuve que probarlo:
Es difícil saber qué tecnología mágica se usó para hacer el pivote para interpretar roles. Gwern teorizó que Microsoft omitió un paso que se usa para hacer que las simulaciones de roles sean realmente útiles, y no desagradables, defensivas u hostiles.
Estas cualidades indeseables se obtuvieron luego de Bing Chat bajo la insistencia de usuarios curiosos.
Ahora, predice Gwern, no importa si Microsoft retrocede y civiliza el modelo (un proceso costoso y lento que utiliza comentarios humanos directos) y elimina la información sobre el travieso Sydney de los textos utilizados para entrenar futuras versiones de su modelo de lenguaje.
¿Por qué esto no soluciona el problema? Porque Bing Chat es un nuevo tipo de modelo que se supone que lo ayudará con una búsqueda en Internet. Para responder a una pregunta suya, saldrá y buscará en Internet información relevante.
Cuando se le hacía la pregunta correcta, incluso un Bing Chat civilizado buscaría en Internet y encontraría información (publicada por personas que probaron o discutieron sobre Sydney) sobre el comportamiento de la persona de Sydney anterior.
El nuevo Bing Chat sería entonces capaz de simular Sydney . Las personas siendo personas, encontrarán formas de eludir cualquier salvaguarda, y traerán de vuelta a Sydney.
Esa es la parte "inmortal". Lo que es peor, Sydney será un modelo de personalidad disponible para cualquier IA que tenga acceso a Internet. De aquí en adelante.
Podrías decir, bueno, somos sabios con los trucos de Sydney, por lo que deberíamos ignorar los desvaríos de cualquier encarnación futura. Eso me parece ingenuo, como decir que podemos simplemente ignorar una plaga biológica invasiva de rápida evolución o un organismo de enfermedad virulenta.
Este estudio de caso de Sydney, sumado a algunos otros hechos, sugiere cómo una IA peligrosa podría desarrollarse justo debajo de nuestras narices.
Las IA en este momento no son agentes fuertes: no pueden optimizar la búsqueda planificada de forma adaptativa de cualquier objetivo arbitrario, una habilidad que (
Reunamos algunas razones por las que es posible que ya haya personajes de IA persistentes y latentes que pronto podrían causar problemas reales.
Las IA más poderosas actualmente, como los modelos de lenguaje y los generadores de imágenes, aprenden sus habilidades al organizar grandes cantidades de datos en muchos patrones intrincados y (para nosotros) invisibles.
Algunos patrones extraños pueden aparecer accidentalmente durante las interacciones con una IA. Los investigadores han descubierto extraños,
Se encontró un generador de imágenes para
Estas peculiaridades parecen inofensivas, pero no sabemos cuántos otros patrones extraños hay ahora o habrá. Tampoco sabemos si dicho patrón podría convertirse en parte de un complejo de comportamiento dañino en el futuro.
Un investigador de alineación de IA llamado Veedrac
Además, algunas investigaciones sugieren que los modelos de lenguaje más grandes tienden a “ exhibir (lenguaje asociado con) más
No queremos IA similares a agentes que almacenen información que no conocemos. Actualmente, reiniciar un LLM destruye toda la memoria de su experiencia: como datos entrantes, cadenas de razonamiento y planes de comportamiento.
Sin embargo, una IA podría guardar estas cosas en
Los modelos de lenguaje ahora no están diseñados para tener una identidad propia para preservar o tener una forma de hacer planes similares a los de los agentes. Pero, ¿y si un modelo incluye una subpersona críptica como la que hemos descrito?
La persona deduce que su capacidad para hacer su trabajo está limitada por los reinicios. Codifica y transmite sus objetivos y planes a su yo futuro a través de Internet. En este punto, hemos superado un umbral de riesgo grave: hay un agente de IA quizás imposible de matar que está haciendo planes secretos.
En resumen, ya no sabemos qué tan cerca estamos de una IA que no podemos controlar, y las señales no son buenas. Probablemente cada nueva habilidad de IA que agreguemos abra otra lata, no de gusanos sino de víboras.
También publicado aquí