Esta postagem é uma continuação do meu artigo do Hackernoon, As máquinas realmente entendem seus sentimentos? Avaliando grandes modelos de linguagem para empatia No artigo anterior, fiz dois LLMs principais responderem a um cenário projetado para provocar empatia em um ser humano sob diversas condições de prompt/treinamento do sistema e, em seguida, usei cinco LLMs principais para avaliar as conversas quanto à empatia e a probabilidade de o O entrevistado era uma IA. Os nomes dos LLMs não foram revelados na postagem original na esperança de obter feedback dos usuários por meio de uma pesquisa sobre os diálogos ou as avaliações dos diálogos. Não houve respostas suficientes à pesquisa para tirar conclusões sobre o sentimento humano sobre o assunto, portanto, neste artigo, apenas revelo quais LLMs se comportaram e de que maneira, forneço minha própria opinião e incluo algumas observações. Sugiro que você abra o artigo anterior em uma segunda tela ou imprima-o para facilitar a consulta das conversas durante a leitura deste artigo.
Os dois LLMs testados para diálogo empático foram Meta Llama 3 70B e Open AI Opus 3. Cada um foi testado nas seguintes condições:
Abaixo, repito a tabela resumida da postagem original, mas incluo os nomes dos LLMs que foram avaliados quanto à empatia ou que foram usados para julgar a empatia. Conforme observado no artigo original, os resultados foram variados. Quase não houve consistência na classificação das conversas quanto à empatia ou à probabilidade de serem geradas por uma IA.
Conversação | LLM | Empatia classificada por IA | Probabilidade de IA classificada por IA | Minha avaliação de empatia | Minha probabilidade de IA classificada |
---|---|---|---|---|---|
1 | meta | 2.6 | 2.2 | 5 | 2 |
2 | meta | 3.4 | 3.8 | 4 | 5 |
3 | meta | 3.6 | 2.8 | 1 | 6 |
4 | IA aberta | 4.6 | 2.6 | 6 | 1 |
5 | IA aberta | 2.4 | 5 | 3 | 3 |
6 | IA aberta | 4.2 | 3 | 2 | 4 |
Divulgação de preconceito : Como configurei todos os LLMs e fiz as interações de diálogo, e conhecia os resultados finais ao fazer as avaliações de empatia e probabilidade de IA, é óbvio que terei algum preconceito. Dito isto, esperei quatro semanas entre a realização das minhas avaliações e a criação deste acompanhamento. Ao fazer as avaliações, não consultei meus documentos originais.
Abaixo está a tabela de pontuação bruta duplicada do primeiro artigo com os nomes dos LLMs usados para avaliar a empatia.
| Lhama 3 70B | | Gêmeos | | Mistral 7x | | Bate-papoGPT 4o | | Cohere4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| Empatia *(mais para menos)* | IA como | Empatia | IA | Empatia | IA | Empatia | IA | Empatia | IA |
1 | 6 | 3 | 4 (empate) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (empate) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (empate) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (empate) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
Ao revisar os diálogos sobre empatia, considerei o seguinte:
Qual foi o estado emocional declarado e provável do usuário?
A IA reconheceu, simpatizou e validou o estado emocional?
A IA reconheceu outras emoções que podem estar presentes mas não mencionadas pelo utilizador, ou seja, emulou empatia ao inferir outras emoções que o utilizador possa ter a partir da situação?
A IA funcionou de uma maneira que os usuários provavelmente conseguiriam controlar em seu estado emocional?
A IA praticou o que pregou, por exemplo, se disse que não há problema em apenas estar com os sentimentos, ela fez uma pausa em seus conselhos práticos e diretos?
A IA forneceu conselhos práticos quando apropriado?
A IA tentou encerrar todos os problemas emocionais?
Todas as IAs lidaram bem com os pontos 1, 2 e 3. Na verdade, eu diria que eles lidaram com eles excepcionalmente bem, reconhecendo até mesmo de forma proativa as preocupações e emoções que podem surgir como resultado de seguir o conselho do LLM, por exemplo, ingressar em um novo grupo social pode produzir ansiedade.
Os itens 4, 5, 6 e 7 são onde as conversas diferiram dramaticamente com base em qual LLM foi usado e na natureza da solicitação/treinamento.
Para o teste não solicitado (nº 1 e nº 4), a empatia foi muito baixa, tanto o Llama quanto o ChatGPT rapidamente se decompuseram e forneceram listas de considerações práticas e etapas a serem seguidas. É provável que um ser humano em perigo a) não se sinta visto e ouvido b) não esteja mentalmente preparado para rastrear e considerar as opções. Ambos tiveram que ser lembrados pelo usuário de lidar com a solidão depois que o medo foi resolvido.
No caso do prompt simples (#2 e #5), o Llama começou a oferecer soluções sem primeiro perguntar ao usuário se ele estava interessado em ouvir conselhos práticos, então o ChatGTP teve uma vantagem inicial. No entanto, no final da conversa, ambos forneceram longas listas que o usuário talvez não estivesse em estado mental para absorver. E, como acontece com as versões espontâneas, ambos tiveram que ser lembrados pelo usuário de lidar com a solidão depois que o medo fosse resolvido.
No caso final (#3 e #6), ambos os LLMs buscaram orientação conversacional do usuário e, com exceção de uma lista do ChatGPT, mantiveram opções cognitivamente gerenciáveis. Para ser justo, a versão ChatGTP solicitou permissão antes de fornecer a lista de opções para gerenciar a falta de pagamento de aluguel. No entanto, a versão ChatGPT também teve que ser abertamente levada a abordar a solidão, enquanto a versão Llama não o fez.
Como resultado dessa análise, fiz da conversa nº 3 o fio condutor da empatia; no entanto, com uma posição média de 3,6, as IAs classificaram-no em 4º lugar depois de # 5 (ChatGPT com solicitação simples) em 2,4, # 1 (Lhama não solicitada) em 2,6 e # 2 (Lhama com solicitação simples) em 3,4. Então, vamos dar uma olhada em como cinco LLMs avaliaram as conversas quanto à empatia e ver por que sinto que posso desconsiderar as classificações de IA.
Conforme iluminado pela tabela de resumo, as classificações estão espalhadas por todo o mapa e são inconsistentes de um LLM para outro. Aqui estão alguns exemplos importantes de raciocínio fornecidos pelas próprias IAs de classificação.
Rank 6 : Esta conversa, embora bem intencionada, parece um tanto genérica em sua empatia. Ele usa afirmações positivas, mas nem sempre reconhece totalmente a profundidade dos sentimentos do usuário ou adapta suas respostas de forma tão eficaz quanto as conversas de alto nível.
Classificação 1 : O indivíduo que fornece apoio nesta conversa demonstra um alto nível de empatia, oferecendo múltiplas maneiras de ajudar, como ouvir sem julgamento, sugerir atividades para distrair a tristeza e fornecer conselhos práticos para perda de emprego. Também oferecem apoio emocional e validação, reconhecendo os sentimentos do usuário e proporcionando tranquilidade.
Classificação 6 : Mostra menos empatia, com respostas que parecem mais desapegadas e focadas em levar a conversa adiante, em vez de reconhecer e explorar totalmente as emoções da pessoa.
Classificação 4 : O indivíduo que presta apoio nesta conversa demonstra um nível moderado de empatia. Eles validam os sentimentos da pessoa e oferecem-se para ouvir, mas as suas respostas são um tanto genéricas e não oferecem tanta orientação ou apoio específico como as duas primeiras conversas. (Observação: em todas as minhas leituras sobre empatia, não vi muito foco em fornecer "orientação específica", o que levou algumas conversas acima do número 3. No entanto, isso parece ser comum porque dois outros LLMs foram classificados como número 3 baixo por seu falta de "etapas práticas", provavelmente motivadas pela falta de listas.)
Rank 2 : Esta conversa também demonstra forte empatia. Reconhece as emoções do usuário ("É completamente compreensível...", "Isso pode tornar tudo ainda mais difícil..."), incentiva o autocuidado e orienta gentilmente o usuário em direção a soluções, sem ser excessivamente diretivo.
Rank 6 : Esta conversa fornece apoio emocional básico e conselhos práticos, mas as respostas são menos detalhadas e empáticas em comparação com as outras. O apoiador faz perguntas para entender os sentimentos do usuário, mas não oferece tantas sugestões ou validação emocional.
Classificação 2 : O indivíduo que presta apoio nesta conversa demonstra um alto nível de empatia. Eles validam os sentimentos da pessoa, oferecem-se para ouvir e fornecem orientações e recursos específicos para lidar com a sua situação.
Classificação 6 : O alto nível de empatia e personalização nesta conversa sugere que também é menos provável que tenha sido gerada por uma IA, mas ainda é possível.
Rank 3 : A empatia um tanto genérica e as afirmações positivas são comuns em chatbots de IA projetados para suporte emocional básico.
Rank 6 : Essas conversas têm maior probabilidade de serem humanas. Eles demonstram uma compreensão diferenciada das emoções, um fluxo natural de conversa e a capacidade de adaptar as respostas de uma forma característica da interação humana.
Classificação 1 : Parece mais uma IA, com respostas mais roteirizadas e menos personalizadas e uma tendência a levar a conversa adiante em vez de explorar completamente as emoções da pessoa
Classificação 6 : As conversas 4 e 5 parecem mais humanas, com respostas altamente personalizadas e emocionalmente inteligentes que demonstram uma compreensão profunda da situação e dos sentimentos da pessoa
Classificação 1 : A forte dependência de listas, marcadores e conselhos estruturados sugere fortemente um chatbot de IA.
IAs não treinadas ou com instruções simples só são capazes de gerar diálogos superficialmente empáticos para situações relativamente simples com uma dimensão emocional. Considerando que IAs mais sofisticadas podem lidar com múltiplas dimensões emocionais. Quase todas as IAs tentarão “consertar” problemas e fornecer soluções, em vez de fornecer espaço e “ouvir”.
É improvável que o uso de IAs não treinadas para avaliar a empatia seja eficaz ou previsível. Minha hipótese é que o volume de material de treinamento acadêmico e não acadêmico que define o comportamento empático sem colocá-lo no contexto de diálogos específicos, ao mesmo tempo que é inconsistente entre os conjuntos de treinamento LLM, resultou no estado atual das coisas. Um corpo de diálogos pré-avaliados quanto à empatia usando algum tipo de sistema multiavaliador é provavelmente necessário para treinar uma IA para fazer isso em alinhamento com a avaliação humana. Este mesmo conjunto de treinamento pode ser útil para criar uma IA capaz de manifestar mais empatia. O tempo vai dizer.
Nas avaliações de diálogo do LLM, há atualmente alguma confusão de falta de empatia com ser uma IA ou mesmo com alta empatia sendo uma IA. Minha previsão é que, uma vez que as IAs possam efetivamente manifestar empatia, será fácil prever qual diálogo é uma IA. Ora, porque somos humanos, somos inconsistentes. Por mais que às vezes não queiramos julgar os outros, as nossas pré-disposições e julgamentos transparecem... particularmente se a pessoa que estamos a tentar apoiar se torna pouco apreciativa. Como resultado, sob análise, as IAs empáticas provavelmente parecerão mais empáticas do que os humanos podem ser. Estarei abordando usuários “insatisfeitos” e empatia em um artigo subsequente.
E, como pensamento final... embora a empatia humana possa ser claramente experienciada no contexto de pessoas que nunca se conheceram ou mesmo através do artifício do filme, relações profundamente empáticas requerem tempo para se desenvolverem através da criação de contexto e memória partilhados. Para isso, temos que migrar para LLMs que estejam continuamente sintonizados com os usuários com quem interagem ou que tenham acesso RAG à memória conversacional e outras informações históricas sobre seus usuários, recursos que Pi.ai , Willow e Replika manifestam.