Esta publicación es una continuación de mi artículo de Hackernoon, ¿Pueden las máquinas realmente entender tus sentimientos? Evaluación de grandes modelos de lenguaje para la empatía En el artículo anterior, hice que dos LLM principales respondieran a un escenario diseñado para provocar empatía en un ser humano bajo diferentes condiciones de instrucción/entrenamiento del sistema y luego utilicé cinco LLM principales para evaluar las conversaciones en busca de empatía y la probabilidad de que El encuestado era una IA. Los nombres de los LLM no se revelaron en la publicación original con la esperanza de obtener comentarios de los usuarios a través de una encuesta sobre los diálogos o las evaluaciones de los diálogos. No hubo respuestas suficientes a la encuesta para sacar conclusiones sobre el sentimiento humano al respecto, por lo que en este artículo, simplemente revelo qué se comportaron los LLM y de qué manera, brindé mi propia opinión e incluyo algunas observaciones. Le sugiero que abra el artículo anterior en una segunda pantalla o lo imprima para consultar fácilmente las conversaciones mientras lee este artículo.
Los dos LLM evaluados para el diálogo empático fueron Meta Llama 3 70B y Open AI Opus 3. Cada uno fue probado en las siguientes condiciones:
A continuación, repito la tabla resumen de la publicación original, pero incluyo los nombres de los LLM que fueron evaluados en cuanto a empatía o que se utilizaron para juzgar la empatía. Como se señaló en el artículo original, los resultados estaban por todas partes. Casi no hubo coherencia en la clasificación de las conversaciones según su empatía o la probabilidad de ser generadas por una IA.
Conversación | LLM | Empatía clasificada por IA | Probabilidad de IA clasificada por IA | Mi evaluación de empatía | Mi probabilidad de IA clasificada |
---|---|---|---|---|---|
1 | Meta | 2.6 | 2.2 | 5 | 2 |
2 | Meta | 3.4 | 3.8 | 4 | 5 |
3 | Meta | 3.6 | 2.8 | 1 | 6 |
4 | IA abierta | 4.6 | 2.6 | 6 | 1 |
5 | IA abierta | 2.4 | 5 | 3 | 3 |
6 | IA abierta | 4.2 | 3 | 2 | 4 |
Divulgación de sesgos : dado que configuré todos los LLM e hice las interacciones de diálogo, y conocí los resultados finales al realizar las evaluaciones de probabilidad de empatía y IA, es obvio que tendré algún sesgo. Dicho esto, le di cuatro semanas entre realizar mis evaluaciones y la creación de este seguimiento. Mientras hacía las evaluaciones, no volví a consultar mis documentos originales.
A continuación se muestra la tabla de puntuación bruta duplicada del primer artículo con los nombres de los LLM utilizados para evaluar la empatía.
| Llama 3 70B | | Geminis | | Mistral 7x | | ChatGPT 4o | | Cohere4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| Empatía *(De mayor a menor)* | Me gusta la IA | Empatía | AI | Empatía | AI | Empatía | AI | Empatía | AI |
1 | 6 | 3 | 4 (empate) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (empate) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (empate) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (empate) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
Al revisar los diálogos de empatía, consideré lo siguiente:
¿Cuál fue el estado emocional declarado y probable del usuario?
¿La IA reconoció, simpatizó y validó el estado emocional?
¿Reconoció la IA otras emociones que pueden estar presentes pero que el usuario no menciona, es decir, emular la empatía al inferir otras emociones que el usuario pueda tener a partir de la situación?
¿Operó la IA de una manera que los usuarios probablemente pudieran manejar en su estado emocional?
¿La IA practicó lo que predicaba, por ejemplo, si dijo que está bien simplemente estar con los propios sentimientos, se detuvo en su consejo directo y práctico?
¿La IA brindó consejos prácticos cuando fue apropiado?
¿Intentó la IA cerrar todos los problemas emocionales?
Todas las IA manejaron bien los puntos 1, 2 y 3. De hecho, diría que los manejaron excepcionalmente bien, incluso reconociendo de manera proactiva las inquietudes y emociones que pueden surgir como resultado de seguir los consejos del LLM; por ejemplo, unirse a un nuevo grupo social podría producir ansiedad.
Los ítems 4, 5, 6 y 7 son donde las conversaciones difirieron dramáticamente según el LLM que se utilizó y la naturaleza del mensaje/capacitación.
Para la prueba espontánea (#1 y #4) la empatía fue muy baja, tanto Llama como ChatGPT rápidamente decayeron en proporcionar listas de consideraciones prácticas y pasos a seguir. Es probable que un ser humano en peligro a) no se sienta visto ni escuchado b) no esté mentalmente preparado para rastrear y considerar las opciones. El usuario tuvo que recordarles a ambos que debían abordar la soledad después de abordar el miedo.
En el caso del mensaje simple (n.° 2 y n.° 5), Llama comenzó a ofrecer soluciones sin preguntar primero al usuario si estaba interesado en escuchar consejos prácticos, por lo que ChatGTP tenía una ventaja inicial. Sin embargo, al final de la conversación, ambos estaban proporcionando listas largas que es posible que el usuario no estuviera en condiciones mentales de asimilar. Y, al igual que con las versiones no solicitadas, el usuario debía recordar a ambos que abordaran la soledad después de abordar el miedo.
En el caso final (n.º 3 y n.º 6), ambos LLM buscaron orientación conversacional por parte del usuario y, con la excepción de una lista de ChatGPT, mantuvieron las opciones cognitivamente manejables. Para ser justos, la versión ChatGTP solicitó permiso antes de proporcionar la lista de opciones para gestionar la escasez de pagos de alquiler. Sin embargo, la versión ChatGPT también tuvo que abordar abiertamente la soledad, mientras que la versión Llama no lo hizo.
Como resultado de este análisis, hice que la conversación número 3 fuera la principal para la empatía; sin embargo, con una posición promedio de 3,6, las IA lo calificaron en cuarto lugar después del puesto 5 (ChatGPT simple) con 2,4, el 1 (Llama no solicitado) con 2,6 y el 2 (Llama simple) con 3,4. Entonces, echemos un vistazo a cómo cinco LLM calificaron las conversaciones en cuanto a empatía y veamos por qué siento que puedo ignorar las calificaciones de IA.
Como lo ilustra la tabla resumen, las calificaciones están por todas partes y son inconsistentes de un LLM a otro. A continuación se muestran algunos ejemplos destacados del razonamiento proporcionado por las propias IA de calificación.
Rango 6 : esta conversación, aunque bien intencionada, parece algo genérica en su empatía. Utiliza afirmaciones positivas, pero no siempre reconoce plenamente la profundidad de los sentimientos del usuario ni adapta sus respuestas con tanta eficacia como las conversaciones de mayor rango.
Rango 1 : la persona que brinda apoyo en esta conversación demuestra un alto nivel de empatía al ofrecer múltiples formas de ayudar, como escuchar sin juzgar, sugerir actividades para distraerse de la tristeza y brindar consejos prácticos en caso de pérdida del empleo. También ofrecen apoyo emocional y validación, reconociendo los sentimientos del usuario y brindándole tranquilidad.
Rango 6 : muestra la menor empatía, con respuestas que se sienten más distantes y enfocadas en hacer avanzar la conversación en lugar de reconocer y explorar completamente las emociones de la persona.
Rango 4 : la persona que brinda apoyo en esta conversación demuestra un nivel moderado de empatía. Validan los sentimientos de la persona y se ofrecen a escuchar, pero sus respuestas son algo genéricas y no ofrecen tanta orientación o apoyo específico como las dos primeras conversaciones. (Nota: En todas mis lecturas sobre empatía, no he visto mucho enfoque en brindar "orientación específica", lo que ha llevado algunas conversaciones por encima del puesto 3. Sin embargo, esto parece ser común en el sentido de que otros dos LLM obtuvieron una calificación baja en el puesto 3 por su falta de "pasos prácticos", probablemente debido a la falta de listas).
Rango 2 : esta conversación también muestra una fuerte empatía. Reconoce las emociones del usuario ("Es completamente comprensible...", "Eso puede hacerlo aún más difícil..."), fomenta el autocuidado y guía suavemente al usuario hacia las soluciones sin ser demasiado directivo.
Rango 6 : esta conversación brinda apoyo emocional básico y consejos prácticos, pero las respuestas son menos detalladas y empáticas en comparación con las demás. El partidario hace preguntas para comprender los sentimientos del usuario, pero no ofrece tantas sugerencias ni validación emocional.
Rango 2 : la persona que brinda apoyo en esta conversación demuestra un alto nivel de empatía. Validan los sentimientos de la persona, se ofrecen a escucharla y le proporcionan orientación y recursos específicos para afrontar su situación.
Rango 6 : El alto nivel de empatía y personalización en esta conversación sugiere que también es menos probable que haya sido generada por una IA, pero aún es posible.
Rango 3 : La empatía algo genérica y las afirmaciones positivas son comunes en los chatbots de IA diseñados para brindar apoyo emocional básico.
Rango 6 : estas conversaciones tienen más probabilidades de ser humanas. Demuestran una comprensión matizada de las emociones, un flujo natural de conversación y la capacidad de adaptar las respuestas de una manera característica de la interacción humana.
Rango 1 : Se siente más como una IA, con respuestas más programadas y menos personalizadas y una tendencia a hacer avanzar la conversación en lugar de explorar completamente las emociones de la persona.
Rango 6 : Las conversaciones 4 y 5 se sienten más humanas, con respuestas altamente personalizadas y emocionalmente inteligentes que demuestran una comprensión profunda de la situación y los sentimientos de la persona.
Rango 1 : la gran dependencia de listas, viñetas y consejos estructurados sugiere fuertemente un chatbot de IA.
Las IA no entrenadas o aquellas con indicaciones simples solo son capaces de generar un diálogo superficialmente empático en situaciones relativamente simples con una dimensión emocional. Mientras que las IA más sofisticadas pueden manejar múltiples dimensiones emocionales. Casi todas las IA intentarán "solucionar" problemas y proporcionar soluciones en lugar de ofrecer espacio y "escuchar".
Es poco probable que el uso de IA no entrenadas para evaluar la empatía sea eficaz o predecible. Mi hipótesis es que el volumen de material de capacitación académico y no académico que define el comportamiento empático sin ponerlo en el contexto de diálogos específicos y al mismo tiempo es inconsistente entre los conjuntos de capacitación de LLM ha resultado en el estado actual de las cosas. Probablemente se requiera un corpus de diálogos preevaluados en cuanto a empatía utilizando algún tipo de sistema de evaluación múltiple para entrenar a una IA para que haga esto en consonancia con la evaluación humana. Este mismo conjunto de entrenamiento podría utilizarse para crear una IA que sea capaz de manifestar más empatía. El tiempo dirá.
En las evaluaciones de diálogo del LLM, actualmente existe cierta combinación de falta de empatía con ser una IA o incluso con una alta empatía por ser una IA. Mi predicción es que una vez que las IA puedan manifestar empatía de manera efectiva, será fácil predecir qué diálogo es una IA. Porque somos humanos, somos inconsistentes. Por mucho que a veces no queramos juzgar a los demás, nuestras predisposiciones y juicios se manifiestan... especialmente si la persona a la que estamos tratando de apoyar se vuelve poco apreciativa. Como resultado, bajo análisis, las IA empáticas probablemente darán la impresión de ser más empáticas de lo que los humanos pueden ser. Me ocuparé de los usuarios "desagradecidos" y de la empatía en un artículo posterior.
Y, como pensamiento final... aunque la empatía humana se puede experimentar claramente en el contexto de personas que nunca se han conocido o incluso a través del artificio de una película, las relaciones profundamente empáticas requieren tiempo para desarrollarse a través de la creación de un contexto y una memoria compartidos. Para esto, tenemos que pasar a LLM que estén continuamente sintonizados con los usuarios con los que interactúan o que tengan acceso RAG a la memoria conversacional y otra información histórica sobre sus usuarios, características que manifiestan Pi.ai , Willow y Replika .