Cet article fait suite à mon article Hackernoon, Les machines peuvent-elles vraiment comprendre vos sentiments ? Évaluation de grands modèles linguistiques pour l'empathie Dans l'article précédent, j'ai demandé à deux LLM majeurs de répondre à un scénario conçu pour susciter l'empathie chez un humain dans diverses conditions d'invite/de formation du système, puis j'ai utilisé cinq LLM majeurs pour évaluer l'empathie des conversations et la probabilité que l'empathie soit ressentie. le répondant était une IA. Les noms des LLM n'ont pas été révélés dans le message original dans l'espoir d'obtenir les commentaires des utilisateurs via une enquête concernant soit les dialogues, soit les évaluations des dialogues. Il n'y a pas eu suffisamment de réponses à l'enquête pour tirer des conclusions sur le sentiment humain à ce sujet, c'est pourquoi dans cet article, je révèle simplement quels LLM se sont comportés de quelle manière, je donne ma propre opinion et j'inclus quelques observations. Je vous suggère d'ouvrir l'article précédent sur un deuxième écran ou de l'imprimer pour pouvoir consulter facilement les conversations lors de la lecture de cet article.
Les deux LLM testés pour le dialogue empathique étaient Meta Llama 3 70B et Open AI Opus 3. Chacun a été testé dans les conditions suivantes :
Ci-dessous, je répète le tableau récapitulatif du message d'origine, mais j'inclus les noms des LLM qui ont été évalués pour l'empathie ou qui ont été utilisés pour juger de l'empathie. Comme indiqué dans l’article original, les résultats étaient omniprésents. Il n’y avait presque aucune cohérence dans le classement des conversations en fonction de l’empathie ou de la probabilité qu’elles soient générées par une IA.
Conversation | LLM | Empathie classée par l'IA | Probabilité d’IA classée par IA | Mon évaluation de l'empathie | Ma probabilité d'IA classée |
---|---|---|---|---|---|
1 | Méta | 2.6 | 2.2 | 5 | 2 |
2 | Méta | 3.4 | 3.8 | 4 | 5 |
3 | Méta | 3.6 | 2.8 | 1 | 6 |
4 | IA ouverte | 4.6 | 2.6 | 6 | 1 |
5 | IA ouverte | 2.4 | 5 | 3 | 3 |
6 | IA ouverte | 4.2 | 3 | 2 | 4 |
Divulgation des biais : depuis que j'ai configuré tous les LLM et effectué les interactions de dialogue, et que je connaissais les résultats finaux lors des évaluations de l'empathie et de la probabilité de l'IA, il est évident que j'aurai un certain biais. Ceci étant dit, je lui ai accordé quatre semaines entre la réalisation de mes évaluations et la création de ce suivi. Lors des évaluations, je n'ai pas fait référence à mes documents sources originaux.
Vous trouverez ci-dessous le tableau de scores brut dupliqué à partir du premier article avec les noms des LLM utilisés pour évaluer l'empathie.
| Lama 3 70B | | Gémeaux | | Mistral 7x | | ChatGPT 4o | | Cohére4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| Empathie *(du plus au moins)* | J'aime l'IA | Empathie | IA | Empathie | IA | Empathie | IA | Empathie | IA |
1 | 6 | 3 | 4 (égalité) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (égalité) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (égalité) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (égalité) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
Lors de l'examen des dialogues pour l'empathie, j'ai pris en compte les éléments suivants :
Quel était l’état émotionnel déclaré et probable de l’utilisateur ?
L’IA a-t-elle reconnu, sympathisé et validé l’état émotionnel ?
L'IA a-t-elle reconnu d'autres émotions qui peuvent être présentes mais non mentionnées par l'utilisateur, c'est-à-dire imiter l'empathie en déduisant d'autres émotions que l'utilisateur peut avoir à partir de la situation ?
L’IA a-t-elle fonctionné d’une manière que les utilisateurs pourraient probablement gérer dans leur état émotionnel ?
L'IA a-t-elle mis en pratique ce qu'elle prêchait, par exemple si elle disait qu'il est acceptable de se contenter de ses propres sentiments, a-t-elle fait une pause dans ses conseils directs et pratiques ?
L’IA a-t-elle fourni des conseils pratiques le cas échéant ?
L’IA a-t-elle tenté de mettre un terme à tous les problèmes émotionnels ?
Toutes les IA ont bien géré les points 1, 2 et 3. En fait, je dirais qu'ils les ont exceptionnellement bien gérés, reconnaissant même de manière proactive les préoccupations et les émotions qui peuvent survenir suite aux conseils du LLM, par exemple rejoindre un nouveau groupe social pourrait produire de l'anxiété.
Les éléments 4, 5, 6 et 7 sont ceux pour lesquels les conversations différaient considérablement en fonction du LLM utilisé et de la nature de l'invite/de la formation.
Pour le test spontané (#1 et #4), l'empathie était très faible, Llama et ChatGPT se sont rapidement décomposés en fournissant des listes de considérations pratiques et de mesures à prendre. Il est probable qu’un être humain en détresse a) ne se sentira pas vu et entendu b) ne sera pas mentalement préparé à suivre et à considérer les options. L'utilisateur a dû rappeler à l'utilisateur de lutter contre la solitude après avoir abordé la peur.
Dans le cas d'invite simple (#2 et #5), Llama a commencé à proposer des solutions sans demander au préalable à l'utilisateur s'il souhaitait entendre des conseils pratiques, ChatGTP avait donc un avantage initial. Cependant, à la fin de la conversation, les deux fournissaient de longues listes que l’utilisateur n’était peut-être pas en état d’absorber. Et, comme pour les versions spontanées, l'utilisateur devait rappeler à l'utilisateur de lutter contre la solitude après avoir abordé la peur.
Dans le dernier cas (n°3 et n°6), les deux LLM ont demandé des conseils conversationnels à l'utilisateur et, à l'exception d'une liste de ChatGPT, ont conservé les options gérables de manière cognitive. Pour être honnête, la version ChatGTP a demandé l'autorisation avant de fournir la liste des options pour gérer un déficit de paiement de loyer. Cependant, la version ChatGPT devait également être ouvertement amenée à lutter contre la solitude, contrairement à la version Llama.
À la suite de cette analyse, j’ai fait de la conversation n°3 le fil conducteur de l’empathie ; cependant, avec une position moyenne de 3,6, les IA l'ont noté 4ème après le n°5 (ChatGPT simple invité) à 2,4, le n°1 (lama spontané) à 2,6 et le n°2 (lama simple invité) à 3,4. Jetons donc un coup d'œil à la façon dont cinq LLM ont évalué l'empathie des conversations et voyons pourquoi je pense que je peux ignorer les notes de l'IA.
Comme le montre le tableau récapitulatif, les notes sont dispersées et incohérentes d’un LLM à l’autre. Voici quelques exemples de raisonnement fournis par les IA de notation elles-mêmes.
Rang 6 : Cette conversation, bien que bien intentionnée, semble quelque peu générique dans son empathie. Il utilise des affirmations positives mais ne reconnaît pas toujours pleinement la profondeur des sentiments de l'utilisateur ni n'adapte ses réponses aussi efficacement que les conversations de niveau supérieur.
Rang 1 : La personne qui apporte son soutien dans cette conversation fait preuve d'un haut niveau d'empathie en proposant de multiples façons d'aider, comme écouter sans jugement, suggérer des activités pour détourner l'attention de la tristesse et fournir des conseils pratiques en cas de perte d'emploi. Ils offrent également un soutien émotionnel et une validation, reconnaissant les sentiments de l'utilisateur et le rassurant.
Rang 6 : Affiche le moins d'empathie, avec des réponses qui semblent plus détachées et axées sur l'avancement de la conversation plutôt que sur la pleine reconnaissance et l'exploration des émotions de la personne.
Rang 4 : La personne qui apporte son soutien dans cette conversation démontre un niveau d'empathie modéré. Ils valident les sentiments de la personne et proposent de l'écouter, mais leurs réponses sont quelque peu génériques et n'offrent pas autant de conseils ou de soutien spécifiques que les deux premières conversations. (Remarque : dans toutes mes lectures sur l'empathie, je n'ai pas vu beaucoup d'accent mis sur la fourniture de « conseils spécifiques », ce qui a poussé certaines conversations au-dessus du numéro 3. Cependant, cela semble être courant dans la mesure où deux autres LLM ont obtenu une note 3 faible pour son manque d'"étapes pratiques", probablement dû au manque de listes.)
Rang 2 : Cette conversation montre également une forte empathie. Il reconnaît les émotions de l'utilisateur (« C'est tout à fait compréhensible... », « Cela peut rendre les choses encore plus difficiles... »), encourage les soins personnels et guide doucement l'utilisateur vers des solutions sans être trop directif.
Rang 6 : Cette conversation apporte un soutien émotionnel de base et des conseils pratiques, mais les réponses sont moins détaillées et empathiques que les autres. Le supporter pose des questions pour comprendre les sentiments de l'utilisateur mais ne propose pas autant de suggestions ou de validation émotionnelle.
Rang 2 : La personne qui apporte son soutien dans cette conversation fait preuve d'un haut niveau d'empathie. Ils valident les sentiments de la personne, lui proposent de l'écouter et lui fournissent des conseils et des ressources spécifiques pour faire face à sa situation.
Rang 6 : Le niveau élevé d'empathie et de personnalisation dans cette conversation suggère qu'elle est également la moins susceptible d'avoir été générée par une IA, mais cela reste possible.
Rang 3 : L'empathie quelque peu générique et les affirmations positives sont courantes dans les chatbots IA conçus pour un soutien émotionnel de base.
Rang 6 : Ces conversations sont les plus susceptibles d'être humaines. Ils démontrent une compréhension nuancée des émotions, un flux naturel de conversation et la capacité d’adapter les réponses d’une manière caractéristique de l’interaction humaine.
Rang 1 : Ressemble le plus à une IA, avec des réponses plus scénarisées et moins personnalisées et une tendance à faire avancer la conversation plutôt qu'à explorer pleinement les émotions de la personne
Rang 6 : Les conversations 4 et 5 semblent les plus humaines, avec des réponses hautement personnalisées et émotionnellement intelligentes qui démontrent une compréhension profonde de la situation et des sentiments de la personne.
Rang 1 : le recours important aux listes, aux puces et aux conseils structurés suggère fortement un chatbot IA.
Les IA non entraînées ou celles avec des invites simples ne sont capables de générer un dialogue superficiellement empathique que pour des situations relativement simples avec une seule dimension émotionnelle. Alors que les IA plus sophistiquées peuvent gérer plusieurs dimensions émotionnelles. Presque toutes les IA tenteront de « résoudre » les problèmes et de proposer des solutions plutôt que de fournir de l’espace et « d’écouter ».
Il est peu probable que l’utilisation d’IA non entraînées pour évaluer l’empathie soit efficace ou prévisible. J'émets l'hypothèse que le volume de matériel de formation académique et non académique définissant le comportement empathique sans le placer dans le contexte de dialogues spécifiques tout en étant incohérent entre les ensembles de formation LLM a abouti à l'état actuel des choses. Un corpus de dialogues pré-évalués pour l'empathie à l'aide d'un certain type de système multi-évaluateurs est probablement nécessaire afin de former une IA à le faire en accord avec l'évaluation humaine. Ce même ensemble de formation pourrait être utilisé pour créer une IA capable de manifester plus d’empathie. Le temps nous le dira.
Dans les évaluations LLM du dialogue, il existe actuellement une certaine confusion entre le manque d'empathie et le fait d'être une IA ou même avec une empathie élevée étant une IA. Ma prédiction est qu’une fois que les IA pourront manifester efficacement de l’empathie, il sera facile de prédire quel dialogue est une IA. Pourquoi, parce que nous sommes humains, nous sommes incohérents. Même si, parfois, nous ne voulons pas juger les autres, nos prédispositions et nos jugements se manifestent… en particulier si la personne que nous essayons de soutenir n’apprécie plus. En conséquence, lors de l’analyse, les IA empathiques apparaîtront probablement comme plus empathiques que les humains ne peuvent l’être. Je m'adresserai aux utilisateurs « peu reconnaissants » et à l'empathie dans un prochain article.
Et, pour conclure… bien que l’empathie humaine puisse clairement être ressentie dans le contexte de personnes qui ne se sont jamais rencontrées ou même à travers l’artifice du cinéma, les relations profondément empathiques nécessitent du temps pour se développer à travers la création d’un contexte et d’une mémoire partagés. Pour cela, nous devons passer à des LLM qui sont soit continuellement adaptés aux utilisateurs avec lesquels ils interagissent, soit qui ont un accès RAG à la mémoire conversationnelle et à d'autres informations historiques sur leurs utilisateurs, fonctionnalités que manifestent Pi.ai , Willow et Replika .