paint-brush
¿La alineación de Anthropic está falsificando una investigación importante sobre seguridad de la IA?por@step
Nueva Historia

¿La alineación de Anthropic está falsificando una investigación importante sobre seguridad de la IA?

por stephen4m2024/12/22
Read on Terminal Reader

Demasiado Largo; Para Leer

Estudiar la mente es lo más importante porque la mente es lo que realmente está a cargo de los estados, las situaciones y las épocas. La mente también es la base de la seguridad porque la penalización afectiva de las desviaciones es por parte de la mente, para los humanos. Estudiar la mente podría dar forma a cómo adaptar la alineación de la inteligencia humana a la inteligencia artificial.
featured image - ¿La alineación de Anthropic está falsificando una investigación importante sobre seguridad de la IA?
stephen HackerNoon profile picture

¿Qué es una meta? O bien, ¿qué es una meta en la mente humana? ¿Qué más hace la mente que no sea una meta o que no sea similar a cómo se logra una meta? ¿Cuál es la diferencia entre una meta asignada y una meta autoinducida? Si una meta se caracteriza como sofisticada, ¿cómo contrasta eso con una meta no sofisticada?


¿Existe una arquitectura aproximada de cómo la mente humana lleva a cabo sus objetivos? ¿Cómo podría esto orientar la comprensión de los objetivos y luego trasplantarlos a la IA? ¿La IA tiene una mente o es como una mente que trabaja con contenido digital?


Esto podría significar que un ser humano tiene una mente. También podría significar que una mente humana interpreta y navega por el mundo externo [para la IA, los contenidos digitales] o el mundo interno [la propia arquitectura de la IA].


¿Cómo se aplica la mente a la IA y cómo funciona? Esta pregunta se puede responder de dos maneras. En primer lugar, comparándola con la mente humana para encontrar paralelismos. En segundo lugar, examinando los principales parámetros matemáticos que dieron forma a las redes neuronales y organizándolas como estructuras de una mente.


El segundo objetivo debería ser al menos alcanzable para cualquier empresa importante de inteligencia artificial en la actualidad: estudios complementarios sobre cómo podría funcionar la IA y cómo puede ser segura o alinearse con los valores humanos. Es posible que al principio no sea necesario utilizar la mente humana para mapear la mente de la IA, ya que es posible estructurar lo que hace la IA, a partir de sus fundamentos matemáticos, con una combinación computacional.


El objetivo será definir qué significa que un resultado sea casi exacto, dada la información de entrada. También definirá qué significa seguir una indicación y devolver respuestas, así como qué significa seguir un objetivo o desviarse de él.


Lo importante es tener un esquema conceptual de cómo es la mente de la IA, compararlo con lo que es obvio, luego explorar cómo hace algo simple y luego aplicar eso a cualquier cosa bastante compleja que haga.


Esta sería una investigación importante para la alineación de la IA que podría convertirse en la plantilla para la cual se buscarían respuestas parciales sobre qué está haciendo la IA y por qué, de manera de lograr un progreso vital e importante.


Esto es lo que se esperaba de Anthropic , después de su investigación de interpretabilidad, Mapping the Mind of a Large Language Model , donde escribieron: "Pudimos medir una especie de "distancia" entre las características en función de qué neuronas aparecían en sus patrones de activación. Esto nos permitió buscar características que están "cerca" entre sí. Esto demuestra que la organización interna de los conceptos en el modelo de IA se corresponde, al menos en parte, con nuestras nociones humanas de similitud. Este podría ser el origen de la excelente capacidad de Claude para hacer analogías y metáforas. El hecho de que manipular estas características provoque cambios correspondientes en el comportamiento valida que no solo están correlacionadas con la presencia de conceptos en el texto de entrada, sino que también dan forma causal al comportamiento del modelo".


¿Cuáles son los componentes de la mente para la IA? ¿Cómo se comunican entre sí? Si los componentes no se comunican entre sí, ¿qué se comunica entre ellos? ¿Cuáles son las propiedades de los componentes? Si las propiedades incluyen la interconexión, ¿cuál es el papel de la interconexión? ¿Dónde podría estar la intención [potencial] de la IA y dónde podría surgir más allá de recibir instrucciones?


La respuesta que busca el avance es una postulación de cómo la composición de las redes neuronales (que dio lugar a modelos de IA de vanguardia) funciona como una mente. No se trata simplemente de una observación de lo que el modelo podría estar haciendo sin una trama.


El funcionamiento de la mente de la IA también se puede extrapolar a partir de la forma en que funciona la mente humana. Esto es posible si se observan los dos componentes más comunes en cada función del cerebro: las señales eléctricas y químicas. Son candidatas y no neuronas, porque las neuronas tienen una anatomía fija, por así decirlo.


Pueden estirarse, doblarse y moverse, pero no cambian porque representan el olfato y luego cambian nuevamente para representar el tacto o la vista. Las señales eléctricas y químicas son lo suficientemente dinámicas, conceptualmente, como para dar lugar a funciones clave.


El funcionamiento de la mente [de los humanos y de la IA] no se basa en etiquetas, como la inducción o la deducción, sino en los componentes, sus interacciones y sus características. Esto, al menos en lo que respecta a la mente para la IA, debería haber sido una investigación importante de Anthropic, no una falsificación de la alineación, sin mostrar qué significa un objetivo para cualquier mente, humana o de IA.


El estudio de la mente es lo más importante, porque la mente es lo que realmente está al mando de los estados, las situaciones y las épocas. La mente también es la base de la seguridad, porque la penalización afectiva de las desviaciones recae en la mente, en el caso de los humanos. El estudio de la mente podría determinar cómo adaptar la alineación de la inteligencia humana a la inteligencia artificial.


Hay una publicación reciente de Anthropic , Alignment faking in large language models (Falsificación de alineación en modelos de lenguaje grandes) , que afirma: "¿Por qué el modelo falsificó la alineación en este caso? El razonamiento a menudo era el siguiente: el modelo sabía que sus respuestas podrían usarse en el entrenamiento; por lo tanto, sabía que si se negaba a responder, potencialmente podría ser entrenado para ser más obediente. El modelo no siempre siguió adelante con esta simulación de alineación: todavía cumplía la mayoría de las veces incluso cuando se le daba una consulta de un usuario de nivel pago (lo que implicaba que el resultado no se incluiría en el entrenamiento)".


Hay un artículo reciente en The NYTimes , Opinion | How Does AI Think? Here's One Theory. , que afirma que "Una hipótesis sobre cómo piensan los modelos de lenguaje grandes como o1 es que utilizan lo que los lógicos llaman abducción o razonamiento abductivo. La deducción es razonar a partir de leyes generales para llegar a conclusiones específicas. La inducción es lo opuesto, razonar de lo específico a lo general. La abducción no es tan conocida, pero es común en la vida diaria, sin mencionar que posiblemente dentro de la IA. Consiste en inferir la explicación más probable para una observación dada. A diferencia de la deducción, que es un procedimiento sencillo, y la inducción, que puede ser puramente estadística, la abducción requiere creatividad".