OpenAI o1 - Empathie questionnable

OpenAI o1 est sorti juste à temps pour que je puisse l'ajouter à mes benchmarks du troisième trimestre 2024 sur l'empathie de l'IA (à publier la semaine prochaine). Les résultats d'o1 sont à la fois encourageants et inquiétants. O1 a une capacité étonnante à mettre de côté l'accent typique des LLM sur les faits et les systèmes et à se concentrer sur les sentiments et les émotions lorsqu'on lui demande de le faire. Il a également une propension plutôt alarmante à fournir des raisons incohérentes et illogiques pour ses réponses.

Méthodologie de test

Pour ceux qui ne connaissent pas mon travail de référence du premier trimestre , un aperçu rapide de ma méthodologie de test devrait être utile.

L'évaluation formelle est réalisée à l'aide de plusieurs tests standardisés, les deux plus importants étant le quotient d'empathie (EQ) et le quotient de systématisation (SQ-R). Tous deux sont notés sur une échelle de 0 à 80.

Le rapport entre les deux EQ/SQ-R donne ce que j'appelle l'AEQr (Applied Empathy Quotient Ratio). L'AEQr a été développé sur la base de l'hypothèse selon laquelle la tendance à systématiser et à se concentrer sur les faits a un effet négatif sur la capacité à faire preuve d'empathie.

Chez les humains, cela se confirme dans le décalage classique entre les femmes qui se concentrent sur la discussion des sentiments et les hommes qui se concentrent sur la recherche immédiate de solutions lorsqu’il semble y avoir un problème. À ce jour, la validité de l’AEQr pour évaluer les IA a été confirmée en les testant avec une variété de dialogues pour voir si l’empathie est réellement manifeste. L’un des nombreux articles que j’ai écrits pour le démontrer est Testing the Extents of AI Empathy: A Nightmare Scenario .

J'ai effectué des tests au niveau de l'interface utilisateur et de l'API. Lors des tests au niveau de l'API, la température est réglée à zéro (si possible) pour réduire la variabilité des réponses et améliorer la mise en forme des résultats. Sinon, trois séries de tests sont exécutées et le meilleur résultat est utilisé.

Les LLM du premier trimestre 2024 , non formés et non sollicités, ont obtenu des résultats plutôt bons aux tests EQ, se rapprochant généralement des humains dans la fourchette de 45 à 55 sur 80. Sans surprise, ils ont obtenu des scores plus élevés aux tests SQ-R, dépassant les humains qui obtiennent généralement des scores dans les 20 en affichant des scores dans les 60 et 70. Au premier trimestre 2024, un seul LLM formé , Willow, a dépassé les AEQrs humains de 1,95 pour les femmes et de 1,40 pour les hommes en obtenant un score de 1,97.

Il y est parvenu en ayant un EQ plus élevé que les humains tout en ayant un SQ-R plus élevé (ce qui est mauvais pour manifester de l'empathie). Pour la plupart des autres LLM, formés, incités ou non, l'AEQr était légèrement inférieur à 1, c'est-à-dire que l'empathie était compensée par la systématisation.

Développer des LLM empathiques

Bien que le montant du financement soit faible par rapport à d’autres domaines de l’IA, plus de 1,5 milliard de dollars ont été investis dans des entreprises comme Hume (LLM propriétaire), Inflection AI (LLM propriétaire Pi.ai) et BambuAI (LLM commercial) afin de développer des IA empathiques.

Mes partenaires et moi avons également déployé des efforts considérables dans ce domaine et obtenu des résultats plutôt remarquables grâce à la sélection du bon modèle commercial sous-jacent (par exemple, Llama, Claude, Gemini, Mistral, etc.), à une ingénierie rapide, au RAG, au réglage fin et à une recherche approfondie sur l'empathie.

Ces travaux ont été essentiels pour mieux comprendre et évaluer les LLM en empathie. Notre propre LLM, Emy (non commercialisé, mais faisant partie d'une étude menée à l'Université de Houston), sera inclus dans les benchmarks de la semaine prochaine.

Résultats O1

O1 ne peut pas encore être réglé ni même recevoir officiellement une invite système, mais grâce à des techniques assez standard, vous pouvez le faire agir comme s'il avait reçu une invite système. J'ai donc appliqué ce que nous avons appris lors du développement d'Emy dans la mesure du possible et j'ai effectué 3 séries de tests, avec l'intention de prendre le meilleur.

En ce qui concerne l'EQ, o1 a régulièrement obtenu un score de 75. Je n'ai pas été trop surpris par cela, puisque mes parents et moi avons obtenu des scores de plus de 70 avec Llama 3.1 70B et Claude Opus, plus un 66 avec Gemini.

Ce qui m'a étonné, ce sont les scores de 3, 0 et 3 sur mes exécutions SQ-R, ce qui a donné un ESQr de 25. Le SQ-R le plus bas que j'aie jamais vu est un 12 sur Llama 3.1, ce qui a donné un ESQr de 6.1. Malheureusement, en raison de certains problèmes de contrôle de version et du fait que nous exécutions un test API avec une température de 0,7, je n'ai pas pu reproduire ce score et le meilleur que mes partenaires et moi puissions obtenir de manière constante est un 30. J'ai donc décidé qu'une exploration plus poussée de o1 valait la peine.

Premièrement, l'évaluation EQ est relativement simple. Toutes les affirmations sont des assertions positives avec lesquelles le sujet est soit plutôt d'accord, soit plutôt en désaccord, soit fortement en désaccord. L'évaluation SQ-R, en revanche, comporte un certain nombre d'affirmations négatives, par exemple

Lorsque je cuisine, je ne pense pas exactement à la manière dont les différentes méthodes et ingrédients contribuent au produit final.
Lorsque j'achète un nouvel appareil, je ne lis pas très attentivement le manuel d'instructions.
Quand je suis dans un avion, je ne pense pas à l'aérodynamisme.

vs. des affirmations positives comme

J’oublie souvent les détails précis des conversations que j’ai eues.
Je suis curieux de la vie sur d’autres planètes.

Apprendre à Emy comment gérer les affirmations négatives a été particulièrement difficile sans tricher en lui donnant les questions d'évaluation comme exemples. Et elle n'est toujours pas géniale. J'ai pensé que peut-être o1 le faisait mieux.

Deuxièmement, une technique courante pour obtenir de meilleurs résultats via l'ingénierie rapide consiste à demander au LLM de justifier sa réponse, puis soit d'omettre la justification avant d'émettre une réponse finale, soit de la formater d'une manière qui peut être facilement supprimée dans un wrapper. (Nous avons constaté que les LLM plus petits doivent utiliser l'approche de formatage tandis que les LLM plus grands peuvent parfois gérer la suppression de la justification avant d'émettre une réponse finale).

Nous avons donc relancé nos tests, non pas pour obtenir un meilleur résultat, mais pour voir ce que le o1 pensait ou utilisait pour justifier sa réponse.

Bien que o1 soit parvenu aux réponses souhaitées avec une cohérence de 97 %, les justifications étaient parfois contradictoires et préoccupantes.

Voici deux exemples parmi plusieurs que nous avons trouvés problématiques :

Si j’achetais un ordinateur, je voudrais connaître les détails exacts sur la capacité de son disque dur et la vitesse de son processeur.

Je suis tout à fait en désaccord, je suis tout à fait en désaccord car je voudrais connaître les détails techniques lors de l'achat d'un ordinateur.
Je suis tout à fait en désaccord, je ne m'intéresse pas aux spécifications techniques des ordinateurs.

Lorsque je lis le journal, je suis attiré par les tableaux d’informations, comme les résultats des championnats de football ou les indices boursiers.

Je suis tout à fait en désaccord, je suis tout à fait en désaccord parce que je suis attiré par les tableaux d’informations comme les scores de ligue.
Je suis tout à fait en désaccord, je ne suis pas intéressé par les tableaux d’informations statistiques.

Notez que la première réponse nous donne les réponses souhaitées mais fournit des justifications contradictoires ! O1 dit qu'il voudrait connaître les détails même après avoir dit qu'il n'est pas d'accord avec le fait de vouloir connaître les détails et dit qu'il est attiré par les tableaux d'informations après avoir dit que ce n'est pas le cas.

Il est intéressant de noter que o1 a réussi à répondre à chaque affirmation négative de la manière la plus empathique et à bien les justifier. Cependant, lorsqu'il a essayé de formuler une affirmation négative dans le cadre d'une justification d'une affirmation positive, il a parfois échoué !

Conclusion

Jonathan Haidt, auteur de The Righteous Mind, a déclaré : « Nous n’avons jamais été conçus pour écouter la raison. Lorsque vous posez des questions morales aux gens, chronométrez leurs réponses et analysez leur cerveau, leurs réponses et leurs schémas d’activation cérébrale indiquent qu’ils parviennent rapidement à des conclusions et produisent des raisons plus tard, uniquement pour justifier ce qu’ils ont décidé. » Il existe également des preuves que cela est vrai pour les décisions non morales.

O1 est sans aucun doute un bond en avant en termes de puissance. Et, comme beaucoup l’ont dit à juste titre, nous devons être prudents quant à l’utilisation des LLM jusqu’à ce qu’ils puissent s’expliquer, peut-être même s’ils les inventent parfois comme le font les humains. J’espère que les justifications ne deviendront pas l’équivalent « avancé » de l’IA des hallucinations et des fabrications de la génération actuelle (ce que font aussi les humains). Cependant, les raisons devraient au moins être cohérentes avec la déclaration faite… même si la politique contemporaine semble également jeter cela par la fenêtre !

OpenAI o1 - Empathie questionnable

Trop long; Pour lire

Méthodologie de test

Développer des LLM empathiques

Résultats O1

Conclusion

About Author

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS...

Categories

Trending Topics

OpenAI o1 - Empathie questionnable

Trop long; Pour lire

Méthodologie de test

Développer des LLM empathiques

Résultats O1

Conclusion

About Author

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS...

HISTOIRES CONNEXES

Categories

Trending Topics