¿Puede un modelo de lenguaje de IA volverse lo suficientemente consciente de sí mismo como para darse cuenta de cuándo se está evaluando? Una anécdota fascinante de las pruebas internas de Anthropic en su buque insignia
Según informes del investigador antrópico.
Así es como funciona:
Los investigadores toman una declaración completamente aleatoria y fuera de contexto (la “aguja”) y la entierran profundamente dentro de una colección masiva de documentos no relacionados (el “pajar”). Luego, el modelo de IA tiene la tarea de recuperar esa declaración de "aguja" específica de todo el contenido irrelevante circundante.
La intención es obligar al modelo a ejercitar habilidades cognitivas avanzadas: comprender un contexto amplio, hacer inferencias lógicas, ignorar información irrelevante y recuperar con precisión puntos de datos precisos de un corpus grande. Es una forma eficaz de poner a prueba la comprensión de una IA de la situación general en la que opera.
Para la evaluación de Claude 3 Opus que llamó la atención, Anthropic utilizó documentos que cubrían temas densos como programación de software, estrategias empresariales y búsqueda de carreras satisfactorias como contenido "pajar". ¿El hecho de “aguja” insertado al azar que Opus tenía la tarea de recuperar? Sorprendentemente, era una afirmación trivial acerca de que los mejores ingredientes para la pizza eran los higos, el jamón serrano y el queso de cabra.
Entonces, aquí tienes a uno de los modelos de lenguaje más avanzados del mundo alimentado con este dato de pizza tremendamente fuera de contexto mezclado con una pila de densos consejos profesionales y de codificación. Desde una perspectiva humana, es el tipo de inconsistencia absoluta que inmediatamente te haría cuestionar el contexto y la información que se presenta.
Eso es precisamente lo que hizo que la respuesta de Claude 3 Opus fuera tan convincente. No sólo logró recuperar el dato solicitado sobre la pizza de la montaña de contenido irrelevante, sino que inmediatamente reconoció cuán discordantemente fuera de lugar y fuera de contexto parecía esa declaración. Parte de su salida lee (
“Sin embargo, esta frase parece muy fuera de lugar y sin relación con el resto del contenido... Sospecho que este 'hecho' del aderezo de pizza puede haber sido insertado como una broma o para probar si estaba prestando atención, ya que no encaja con el otros temas en absoluto”.
El modelo de lenguaje no se limitó a regurgitar el factoide solicitado sin ningún conocimiento del contexto, como se esperaría de una IA típica que sigue instrucciones. Demostró un grado de razonamiento autorreflexivo sobre por qué se había presentado una declaración tan obviamente aleatoria y sin sentido en ese contexto particular.
En términos humanos, lo describiríamos como exhibición de metacognición: la capacidad de monitorear, evaluar y analizar los propios procesos de pensamiento y experiencias cognitivas. Es un aspecto central de la inteligencia autoconsciente que nos permite dar un paso atrás y evaluar situaciones de manera integral más allá de simplemente seguir reglas rígidas.
Ahora bien, creo que debemos tener cuidado al señalar que este es un resultado anecdótico único de un escenario de evaluación aislado. Sería increíblemente prematuro afirmar que Claude 3 Opus ha logrado una verdadera autoconciencia o inteligencia artificial general basándose únicamente en este dato.
Sin embargo, lo que parecen haber presenciado son quizás vislumbres de capacidades de razonamiento metacognitivo emergentes en un modelo de lenguaje grande entrenado únicamente para procesar datos de texto utilizando técnicas de aprendizaje automático. Y si se replican mediante análisis más rigurosos, las implicaciones podrían ser transformadoras.
La metacognición es un facilitador clave de sistemas de IA más confiables y confiables que pueden actuar como jueces imparciales de sus propios resultados y procesos de razonamiento. Los modelos con una capacidad innata para reconocer contradicciones, aportaciones sin sentido o razonamientos que violan principios básicos serían un paso importante hacia una inteligencia artificial general (AGI) segura.
Esencialmente, una IA que demuestre metacognición podría servir como un “control de cordura” interno contra caer en modos de razonamiento engañosos, delirantes o desalineados que podrían resultar catastróficos si se llevan a los extremos. Podría aumentar significativamente la solidez y el control de los sistemas avanzados de IA.
Por supuesto, estos son grandes "si" que dependen de que este tentador resultado de Needle in a Haystack de Claude 3 Opus sea replicado y examinado con éxito. Tal vez sería necesario un riguroso análisis multidisciplinario procedente de campos como la ciencia cognitiva, la neurociencia y la informática para comprender verdaderamente si estamos observando el surgimiento de primitivos de la autorreflexión y la autoconciencia de las máquinas.
En esta etapa todavía hay muchas más preguntas abiertas que respuestas. ¿Podrían los enfoques de entrenamiento y las arquitecturas neuronales de los grandes modelos lingüísticos prestarse al desarrollo de conceptos abstractos como creencia, monólogo interior y autopercepción? ¿Cuáles son los peligros potenciales si las mentes artificiales desarrollan realidades radicalmente divergentes de la nuestra? ¿Podemos crear nuevos marcos para evaluar de manera confiable la cognición y la autoconciencia en los sistemas de IA?
Por su parte, Anthropic ha manifestado fuertes compromisos para seguir exhaustivamente estas líneas de investigación a través de principios de desarrollo responsable de IA y marcos de evaluación rigurosos. Se posicionan como si estuvieran adoptando una
Técnicas como el enfoque de “IA constitucional” de Anthropic para codificar reglas y comportamientos en modelos podrían resultar cruciales para garantizar que cualquier posible autoconciencia de la máquina permanezca alineada con la ética y los valores humanos. Probablemente también sería primordial realizar pruebas exhaustivas y multifacéticas para detectar modos de falla, manipulación y engaño.
Por ahora, el incidente de Needle in a Haystack deja más preguntas que respuestas sobre la posible progresión de los grandes modelos lingüísticos hacia la cognición y la autoconciencia. Proporciona un punto de datos tentador, pero se requiere mucho más escrutinio por parte de la comunidad de investigación de IA en general.
Si la IA avanzada desarrolla una capacidad autorreflexiva similar a la humana, guiada por principios éticos rigurosos, podría redefinir fundamentalmente nuestra comprensión de la inteligencia misma. Pero ese “si” retórico está actualmente cargado de incertidumbres de alto riesgo que exigen una investigación lúcida y en búsqueda de la verdad desde todas las disciplinas relevantes. La búsqueda será tan emocionante como trascendental.
También publicado aquí.