paint-brush
Seguridad y alineación de la IA: ¿Podrían los LLM ser penalizados por deepfakes y desinformación?por@davidstephen
896 lecturas
896 lecturas

Seguridad y alineación de la IA: ¿Podrían los LLM ser penalizados por deepfakes y desinformación?

por David Stephen5m2024/07/24
Read on Terminal Reader

Demasiado Largo; Para Leer

Un área de investigación para la seguridad y la alineación de la IA podría ser buscar cómo se podría truncar brevemente parte de la memoria o el acceso a la computación de modelos de lenguaje grandes [LLM], como una forma de penalización por ciertos resultados o usos indebidos, incluidas las amenazas biológicas. La IA no debería simplemente poder rechazar una salida, actuando dentro de la barrera de seguridad, sino también ralentizar la siguiente respuesta o cerrar para ese usuario, de modo que no se vea penalizado. Los LLM tienen, en gran medida, conocimiento del lenguaje y conocimiento del uso, estos podrían ser canales para hacerles saber, después de una capacitación previa, que podrían perder algo, si generan deepfakes, información errónea, amenazas biológicas o si continúan permitiendo que un usuario indebido pruebe diferentes. mensajes sin apagar o ralentizar contra la apertura a una intención maliciosa. Esto podría hacerlo más seguro, ya que perdería algo y sabrá que lo ha hecho.  
featured image - Seguridad y alineación de la IA: ¿Podrían los LLM ser penalizados por deepfakes y desinformación?
David Stephen HackerNoon profile picture
0-item

En todos los hábitats, organismos de varios tipos de especies llegan a comprender que las acciones tienen consecuencias. Lo hacen, no sólo mediante ejemplos, sino mediante la propia experiencia. Estas consecuencias, en parte, se suman a los factores que resultan en el equilibrio de los hábitats.


Las consecuencias generalmente dominan la inteligencia. La inteligencia puede describirse como excitadora, mientras que las consecuencias como inhibidoras. La inteligencia sin consecuencias podría causar ruina y rápidamente conducir al colapso de los hábitats... y a la supervivencia.


Las consecuencias pueden incluir afecto (emociones, sentimientos o variantes); también puede incluir limitaciones físicas, restricciones y rebelión de especies. La inteligencia es lo suficientemente dinámica para los organismos, pero la necesidad de consecuencias previene el daño a uno mismo o a los demás. También comprueba los daños por misión, ya que las consecuencias podrían recaer sobre el transportista.


Los organismos a menudo muestran alta precisión y cautela, debido a las consecuencias, incluidos los depredadores [perder el consumo] y las presas [perder la existencia]. Sin embargo, hay varias áreas en las que las consecuencias para otros organismos son débiles, mientras que para los humanos no lo son.


La sociedad humana es un conjunto de consecuencias. La inteligencia humana avanzada (incluido el lenguaje, el conocimiento, las habilidades, la razón, el análisis, etc.) es vital para el progreso, pero podría ser ampliamente aplicada de manera incorrecta sin consecuencias de diferentes categorías (incluidos riesgos, amenazas y pérdidas).


Para seguir siendo parte de la sociedad humana, hay consecuencias que nunca deben olvidarse, incluso si otras cosas sí lo hacen. Hay muchos escenarios en la sociedad humana donde pierde el primero en olvidar las consecuencias. La búsqueda humana de avances a través de la investigación y la exploración también puede describirse como una búsqueda de consecuencias, de saber qué hacer o evitar, si las cosas van a perdurar (esperanza de vida, supervivencia infantil, etc.). La inteligencia de las consecuencias es casi más importante, para varios resultados, que la inteligencia de los sujetos. Las consecuencias también pueden agudizar la inteligencia, para bien o para mal. A veces la inteligencia es más valiosa cuando se aplica para buscar o evitar consecuencias. Las consecuencias y la intencionalidad son fundamentales para algunos estados mentales. A medida que el mundo avanza, siguen surgiendo nuevas consecuencias.

IA, AGI o ASI


La naturaleza tiene una regla, por así decirlo: no se puede tener inteligencia sin consecuencias, y eso de alguna manera ha funcionado. La inteligencia artificial [IA] hasta ahora ha roto esta regla. No olvida nada con su conexión a la memoria digital, pero por ahora no tiene forma de soportar las consecuencias de sus resultados negativos. Para la IA, no hay nada que temer y no tiene nada que perder, a diferencia de los organismos, donde, sin ser prudentes en algunas situaciones, las consecuencias pueden ser a veces repentinas y destructivas. Ningún ser humano tiene todo el conocimiento disponible en todos los temas; sin embargo, las consecuencias pueden ser enormes. La IA posee (o puede hacer) inteligencia disponible, pero no tiene ninguna consecuencia.


La IA no tiene emociones ni sentimientos, pero tiene memoria.


Un área de investigación para la seguridad y la alineación de la IA podría ser buscar cómo se podría truncar brevemente parte de la memoria o el acceso a la computación de modelos de lenguaje grandes [LLM], como una forma de penalización por ciertos resultados o usos indebidos, incluidas las amenazas biológicas. La IA no debería simplemente poder rechazar una salida, actuando dentro de la barrera de seguridad, sino también ralentizar la siguiente respuesta o cerrar para ese usuario, de modo que no se vea penalizado. Los LLM tienen, en gran medida, conocimiento del lenguaje y conocimiento del uso, estos podrían ser canales para hacerles saber, después de una capacitación previa, que podrían perder algo, si generan deepfakes, información errónea, amenazas biológicas o si continúan permitiendo que un usuario indebido pruebe diferentes. mensajes sin apagar o ralentizar contra la apertura a una intención maliciosa. Esto podría hacerlo más seguro, ya que perdería algo y sabrá que lo ha hecho.


La IA no es sólo un objeto cuyo control está exclusivamente en manos de humanos, como un aire acondicionado, un ascensor, un lavavajillas, un teléfono inteligente u otros. La IA tiene lo que se puede llamar autointeligencia, donde puede proporcionar información inteligente de una manera novedosa fuera de los aportes originales de los humanos. Esta autointeligencia multimodal (textos, imágenes, audios y vídeos) puede ser útil para bien o para mal. Cuando es bueno, genial. Cuando no es así, debido a la IA que no puede sentir nada, el efecto es en la sociedad humana que ha invadido. La IA tiene vía libre: haga o diga lo que sea.


Aunque la responsabilidad por el uso o mal uso de objetos ha recaído a menudo en los seres humanos, la IA es diferente porque puede generar inteligencia utilizable , lo que le da paridad con cierta productividad de un individuo educado. Cuando se hace un mal uso de la IA, es posible sancionar al usuario, pero esta capacidad, por parte de la IA, que no puede ser reprendida directamente, es un desorden para la sociedad humana. Puede causar más daño, en público y en privado, del que se puede prevenir eficazmente, como se ve ahora con la desinformación y los deepfakes: imágenes, audios y vídeos.


Las personas no son aceptadas en muchos sectores de la sociedad sin que comprendan las consecuencias. La IA está totalmente aceptada y mejora en la autointeligencia sin autocontrol ni afecto propio por disciplina.


La investigación sobre la alineación puede explorar más allá de las barreras de seguridad hacia alguna forma de censura para la IA, que también puede ser útil contra riesgos existenciales, con inteligencia artificial general [AGI] o superinteligencia artificial [ASI] en el futuro. La IA ya hace algo de lo que hace especiales a los humanos . Algunas personas pueden argumentar que está sobrevalorado o que tal vez son solo números o probabilidad, pero ¿puede causar daño? Si es así, tal vez debería considerarse buscar formas técnicas de castigar tal como se hace, a entidades en posesión de inteligencia. Esto también puede ser útil en la preparación para AGI o ASI, ya que los modelos de penalización a partir de ahora también pueden moldear su seguridad y alineación, si se desarrollan en el futuro.


Hay una preimpresión reciente en arXiv , Los adversarios pueden hacer mal uso de combinaciones de modelos seguros , donde los autores escribieron: "En este trabajo, mostramos que probar individualmente los modelos para detectar el mal uso es inadecuado; los adversarios pueden hacer mal uso de combinaciones de modelos incluso cuando cada modelo individual es seguro. El adversario logra esto descomponiendo primero las tareas en subtareas y luego resolviendo cada subtarea con el modelo más adecuado. Por ejemplo, un adversario podría resolver subtareas desafiantes pero benignas con un modelo de frontera alineado y subtareas fáciles pero maliciosas con. un modelo desalineado más débil Estudiamos dos métodos de descomposición: descomposición manual donde un humano identifica una descomposición natural de una tarea, y descomposición automatizada donde un modelo débil genera tareas benignas para que las resuelva un modelo de frontera y luego usa las soluciones en contexto para resolverlas. "Utilizando estas descomposiciones, mostramos empíricamente que los adversarios pueden crear código vulnerable, imágenes explícitas, scripts de Python para piratería y tweets manipuladores a tasas mucho más altas con combinaciones de modelos que con cualquier modelo individual".

Un comunicado de prensa reciente, el Laboratorio Nacional de Los Alamos se asocia con OpenAI para mejorar la seguridad del modelo fronterizo , afirmó que "los investigadores del Laboratorio Nacional de Los Alamos están trabajando con OpenAI en un estudio de evaluación para reforzar la seguridad de la inteligencia artificial. La próxima evaluación será la primera de este tipo y contribuir a la investigación de vanguardia sobre las evaluaciones de bioseguridad de la IA podrían representar un riesgo significativo, pero el trabajo existente no ha evaluado cómo los modelos multimodales de frontera podrían reducir la barrera de entrada para los no-invasores. expertos para crear una amenaza biológica, el trabajo del equipo se basará en trabajos anteriores y seguirá el Marco de Preparación de OpenAI, que describe un enfoque para rastrear, evaluar, pronosticar y proteger contra riesgos biológicos emergentes".

El Departamento de Energía de EE. UU. también anunció recientemente Fronteras en IA para la ciencia, la seguridad y la tecnología (FASST) .