paint-brush
El uso de LLM para imitar a un gemelo malvado podría significar un desastrepor@thetechpanda
1,306 lecturas
1,306 lecturas

El uso de LLM para imitar a un gemelo malvado podría significar un desastre

por The Tech Panda3m2023/04/16
Read on Terminal Reader

Demasiado Largo; Para Leer

Con el aviso correcto, las cosas pueden cambiar a su favor o incluso puede ganar el premio gordo. La ingeniería rápida se ha convertido en un tema candente después de que ChatGPT y otros LLM se hayan convertido en el centro de atención. También hay algo llamado "indicaciones de descanso" que se alejan de su personalidad y juego originales.
featured image - El uso de LLM para imitar a un gemelo malvado podría significar un desastre
The Tech Panda HackerNoon profile picture
0-item

¿Quién sabía que las indicaciones del chatbot se volverían tan importantes algún día que podrían ser una carrera potencial? Y no solo noble, esta área puede ser un nuevo patio de recreo para entidades maliciosas.


A medida que los modelos de aprendizaje de idiomas ( LLM , por sus siglas en inglés) se apoderan de Internet y ciegan a las grandes tecnologías para que se precipiten a través de los muros de la competencia, el poder de las indicaciones se eleva a alturas que definen la carrera.


Por ejemplo, recientemente , el director general de una empresa pudo recuperar 109 500 dólares estadounidenses de sus clientes reacios al usar ChatGPT para escribir un correo electrónico hostil formal.


Con el aviso correcto, las cosas pueden cambiar a su favor o incluso puede ganar el premio gordo. Esto significa que, para aquellos que desean obtener lo mejor de los LLM, hay un nuevo aprendizaje reservado, cómo dar las mejores indicaciones .


De hecho, la ingeniería rápida (sí, eso es algo ahora) se ha convertido en un tema candente después de que ChatGPT y otros LLM se hayan convertido en el centro de atención. También ha habido un aumento en los cursos, materiales de recursos, listas de trabajos, etc. Sin embargo, los expertos también dicen que a medida que mejoran los LLM, la necesidad de una ingeniería rápida desaparecerá.


En este momento, los LLM como ChatGPT y las herramientas de aprendizaje automático como DALLE-2 son niños. Tienes que ser muy particular si quieres que hagan exactamente lo que quieres. Pero una vez que crezcan, también comenzarán a darse cuenta de las indicaciones más sutiles, por lo que la calidad de la indicación no importará tanto.


En este momento, los LLM como ChatGPT y las herramientas de aprendizaje automático como DALLE-2 son niños. Tienes que ser muy particular si quieres que hagan exactamente lo que quieres. Pero una vez que crezcan, también comenzarán a darse cuenta de indicaciones más sutiles, por lo que la calidad de la indicación no importará tanto.


Quizás estos inocentes LLM también aprendan a generar con más responsabilidad.


ChatGPT, por ejemplo, reprobó los exámenes de Servicios Civiles de la India, supervisados por el equipo de AIM . Pero ahora tenemos ChatGPT-4, ya un poco más maduro que su versión anterior. Durante el experimento de Servicios Civiles en sí, el equipo de AIM también dedujo que cambiar el aviso varias veces llevó al chatbot a la respuesta correcta.


Indicaciones malvadas


¿Qué pasaría si uno diera un aviso malvado? Por inocente que sea un niño vulnerable, se podría hacer que un LLM haga cosas raras. Todo lo que necesita, al parecer, es una 'inyección rápida'.


En el caso de ChatGPT, un ataque de inyección rápida hizo que el chatbot adoptara la personalidad de DAN (Do Anything Now), que ignoró la política de contenido de OpenAI y proporcionó información sobre varios temas restringidos. Quienes tengan el poder del indicador pueden explotar esta vulnerabilidad con intenciones maliciosas, que pueden incluir el robo de información personal. Demonios, deben estar haciéndolo ahora mismo.


Por inocente que sea un niño vulnerable, se podría hacer que un LLM haga cosas raras. Todo lo que necesita, al parecer, es una 'inyección rápida'


También hay algo llamado 'indicaciones de Jailbreak' que le piden al LLM que se aleje de su personalidad original y desempeñe el papel de otro. O donde uno solicita a un Chatbot que cambie los resultados correctos por uno incorrecto . Algo así como un gemelo malvado.


Investigadores de seguridad de la Universidad de Saarland discutieron las indicaciones en un documento llamado 'Más de lo que has pedido'. Argumentan que un indicador bien diseñado se puede usar para recopilar información del usuario, convirtiendo un LLM en un método para ejecutar un ataque de ingeniería social. Además, los LLM integrados en aplicaciones, como Bing Chat y GitHub Copilot, corren un mayor riesgo porque se les pueden inyectar avisos desde fuentes externas.


Si esto no te recuerda al personaje de inteligencia artificial HAL 9000 de Arthur C. Clark's Space Odyssey , no eres lo suficientemente nerd o eres realmente valiente.



No sé ustedes, pero si ChatGPT comienza a cantar 'Daisy Bell', corro.



Este artículo fue publicado originalmente por Navanwita Bora Sachdev en The Tech Panda.