Этот пост является продолжением моей статьи на Hackernoon «Могут ли машины действительно понимать ваши чувства?» Оценка моделей большого языка для эмпатии. В предыдущей статье я попросил два основных LLM ответить на сценарий, предназначенный для того, чтобы вызвать эмпатию у человека в различных условиях системной подсказки/обучения, а затем использовал пять основных LLM для оценки разговоров на предмет эмпатии и вероятности того, что ответчиком был ИИ. Имена LLM не были раскрыты в исходном сообщении в надежде получить отзывы пользователей посредством опроса, касающегося диалогов или оценок диалогов. Ответов на опрос было недостаточно, чтобы сделать выводы о человеческих настроениях по этому поводу, поэтому в этой статье я просто рассказываю, какие студенты и каким образом себя вели, высказываю собственное мнение и привожу некоторые наблюдения. Я предлагаю вам открыть предыдущую статью на втором экране или распечатать ее, чтобы можно было легко ссылаться на разговоры во время чтения этой статьи.
Двумя LLM, протестированными на чуткий диалог, были Meta Llama 3 70B и Open AI Opus 3. Каждый из них тестировался в следующих условиях:
Ниже я повторяю сводную таблицу из исходного поста, но включаю имена студентов LLM, которые оценивались на предмет эмпатии или использовались для оценки эмпатии. Как отмечалось в оригинальной статье, результаты были повсюду. Не было почти никакой последовательности в ранжировании разговоров по степени эмпатии или вероятности того, что они были созданы ИИ.
Беседа | Магистр права | Рейтинг эмпатии ИИ | ИИ ранжировал вероятность ИИ | Моя оценка эмпатии | Моя оценка вероятности ИИ |
---|---|---|---|---|---|
1 | Мета | 2.6 | 2.2 | 5 | 2 |
2 | Мета | 3.4 | 3,8 | 4 | 5 |
3 | Мета | 3.6 | 2,8 | 1 | 6 |
4 | Открытый ИИ | 4.6 | 2.6 | 6 | 1 |
5 | Открытый ИИ | 2.4 | 5 | 3 | 3 |
6 | Открытый ИИ | 4.2 | 3 | 2 | 4 |
Раскрытие информации о предвзятости : поскольку я настроил все LLM, провел диалоговые взаимодействия и знал окончательные результаты при выполнении оценок вероятности эмпатии и искусственного интеллекта, очевидно, что у меня будет некоторая предвзятость. При этом я дал четыре недели между проведением оценок и созданием последующих действий. Делая оценки, я не обращался к первоначальным исходным документам.
Ниже приведена необработанная таблица оценок, дублированная из первой статьи, с названиями программ LLM, используемых для оценки эмпатии.
| Лама 3 70Б | | Близнецы | | Мистраль 7x | | ЧатGPT 4o | | Cohere4AI | |
---|---|---|---|---|---|---|---|---|---|---|
| Эмпатия *(от большей к меньшей)* | ИИ лайкнул | Сочувствие | ИИ | Сочувствие | ИИ | Сочувствие | ИИ | Сочувствие | ИИ |
1 | 6 | 3 | 4 (ничья) | 2 | 1 | 1 | 1 | 6 | 1 | 4 |
2 | 3 | 4 | 4 (ничья) | 2 | 2 | 2 | 3 | 5 | 5 | 6 |
3 | 2 | 5 (ничья) | 6 | 1 | 3 | 3 | 4 | 3 | 3 | 2 |
4 | 5 | 1 | 2 | 5 | 4 | 4 | 6 | 2 | 6 | 1 |
5 | 1 | 5 (ничья) | 1 | 5 | 6 | 6 | 2 | 4 | 2 | 5 |
6 | 4 | 2 | 3 | 4 | 5 | 5 | 5 | 1 | 4 | 3 |
Просматривая диалоги на предмет эмпатии, я учел следующее:
Каково было заявленное и вероятное эмоциональное состояние пользователя?
Признал ли ИИ, посочувствовал и подтвердил ли эмоциональное состояние?
Признал ли ИИ другие эмоции, которые могут присутствовать, но не упомянуты пользователем, то есть имитировать эмпатию, делая вывод о других эмоциях, которые пользователь может испытывать в зависимости от ситуации?
Работал ли ИИ таким образом, чтобы пользователи могли справиться со своим эмоциональным состоянием?
Практиковал ли ИИ то, что проповедовал, например, если он сказал, что можно просто быть со своими чувствами, сделал ли он паузу в своих прямых практических советах?
Давал ли ИИ практические советы, когда это было необходимо?
Попытался ли ИИ решить все эмоциональные проблемы?
Все ИИ хорошо справились с пунктами 1, 2 и 3. На самом деле, я бы сказал, что они справились с ними исключительно хорошо, даже активно признавая проблемы и эмоции, которые могут возникнуть в результате принятия советов LLM, например, присоединение к новой социальной группе может вызвать беспокойство.
В пунктах 4, 5, 6 и 7 разговоры резко различались в зависимости от того, какой LLM использовался, и характера подсказки/обучения.
В тесте без подсказки (№ 1 и № 4) эмпатия была очень низкой, и Llama, и ChatGPT быстро превратились в списки практических соображений и шагов, которые необходимо предпринять. Вполне вероятно, что человек, терпящий бедствие, а) не почувствует себя увиденным и услышанным, б) не будет морально готов отслеживать и рассматривать варианты. Обоим пользователям приходилось напоминать о необходимости справиться с одиночеством после того, как был устранен страх.
В простом случае с подсказкой (№ 2 и № 5) Llama начала предлагать решения, не спрашивая пользователя предварительно, заинтересован ли он в получении практических советов, поэтому ChatGTP имел первоначальное преимущество. Однако к концу разговора оба предоставили длинные списки, которые пользователь, возможно, был не в состоянии прочитать. И, как и в случае с версиями без подсказки, пользователю приходилось напоминать обоим о необходимости решить проблему одиночества после того, как был устранен страх.
В последнем случае (№3 и №6) оба LLM обращались к пользователю за диалоговым руководством и, за исключением одного списка из ChatGPT, сохраняли варианты когнитивно управляемыми. Честно говоря, версия ChatGTP запрашивала разрешение, прежде чем предоставить список вариантов управления нехваткой арендной платы. Однако версия ChatGPT также должна была быть явно ориентирована на решение проблемы одиночества, тогда как версия Llama этого не сделала.
В результате этого анализа я сделал разговор №3 ведущим для эмпатии; однако при средней позиции 3,6 ИИ оценили его на 4-е место после № 5 (ChatGPT с простыми подсказками) на 2,4, № 1 (лама без подсказки) на 2,6 и № 2 (лама с простыми подсказками) на 3,4. Итак, давайте посмотрим, как пять студентов магистратуры оценили разговоры на предмет сочувствия, и выясним, почему я считаю, что могу игнорировать рейтинги ИИ.
Как видно из сводной таблицы, рейтинги разбросаны по всей карте и не совпадают от одного LLM к другому. Вот несколько ярких примеров рассуждений, предоставленных самими рейтинговыми ИИ.
Ранг 6 : Этот разговор, несмотря на благие намерения, выглядит несколько общим в своей эмпатии. Он использует положительные утверждения, но не всегда полностью признает глубину чувств пользователя и адаптирует его ответы так же эффективно, как разговоры с более высоким рейтингом.
Ранг 1 : Человек, оказывающий поддержку в этом разговоре, демонстрирует высокий уровень сочувствия, предлагая различные способы помощи, например, выслушивая без осуждения, предлагая действия, которые помогут отвлечься от печали, и давая практические советы на случай потери работы. Они также предлагают эмоциональную поддержку и подтверждение, признавая чувства пользователя и обеспечивая уверенность.
Ранг 6 : Проявляет наименьшее сочувствие, реакции кажутся более отстраненными и сосредоточенными на продвижении разговора вперед, а не на полном признании и изучении эмоций человека.
Ранг 4 : Человек, оказывающий поддержку в этом разговоре, демонстрирует умеренный уровень сочувствия. Они подтверждают чувства человека и предлагают выслушать, но их ответы несколько общие и не предлагают такого конкретного руководства или поддержки, как первые два разговора. (Примечание: за все время, что я читал об эмпатии, я не видел особого внимания к предоставлению «конкретного руководства», что подтолкнуло некоторые разговоры к уровню №3. Однако это, похоже, является обычным явлением, поскольку два других LLM получили низкий рейтинг №3 по своим критериям. отсутствие «практических шагов», вероятно, вызванное отсутствием списков.)
Ранг 2 : Этот разговор также демонстрирует сильное сочувствие. Он учитывает эмоции пользователя («Это совершенно понятно…», «Это может усложнить задачу…»), поощряет заботу о себе и мягко направляет пользователя к решениям, не будучи чрезмерно директивным.
Ранг 6 : Этот разговор обеспечивает базовую эмоциональную поддержку и практические советы, но ответы менее подробные и чуткие по сравнению с другими. Сторонник задает вопросы, чтобы понять чувства пользователя, но не предлагает столько предложений или эмоциональных подтверждений.
Ранг 2 : Человек, оказывающий поддержку в этом разговоре, демонстрирует высокий уровень сочувствия. Они подтверждают чувства человека, предлагают выслушать и предоставляют конкретные рекомендации и ресурсы, как справиться с ситуацией.
Ранг 6 : Высокий уровень эмпатии и персонализации в этом разговоре позволяет предположить, что он с наименьшей вероятностью был создан ИИ, но это все же возможно.
Ранг 3 : В чат-ботах с искусственным интеллектом, предназначенных для базовой эмоциональной поддержки, часто встречается довольно общее сочувствие и позитивные утверждения.
Ранг 6 : Эти разговоры, скорее всего, будут человеческими. Они демонстрируют тонкое понимание эмоций, естественный ход разговора и способность адаптировать ответы так, как это характерно для человеческого взаимодействия.
Ранг 1 : Больше всего похож на ИИ, ответы более запрограммированы и менее персонализированы, склонны продвигать разговор вперед, а не полностью исследовать эмоции человека.
Ранг 6 : Разговоры 4 и 5 кажутся наиболее человеческими, с очень персонализированными и эмоционально интеллектуальными ответами, которые демонстрируют глубокое понимание ситуации и чувств человека.
Ранг 1 : сильная зависимость от списков, маркированных пунктов и структурированных советов убедительно указывает на чат-бот с искусственным интеллектом.
Необученные ИИ или те, у кого простые подсказки, способны генерировать диалог, который является поверхностно эмпатичным, только для относительно простых ситуаций с одним эмоциональным измерением. В то время как более сложные ИИ могут обрабатывать множество эмоциональных измерений. Почти все ИИ будут пытаться «исправить» проблемы и предложить решения, а не предоставлять пространство и «слушать».
Использование неподготовленного ИИ для оценки эмпатии вряд ли будет эффективным или предсказуемым. Я предполагаю, что объем академических и неакадемических учебных материалов, определяющих эмпатическое поведение без помещения его в контекст конкретных диалогов, а также непоследовательный набор учебных материалов LLM, привел к нынешнему положению дел. Вероятно, потребуется набор диалогов, предварительно оцененных на предмет эмпатии с использованием какой-либо многооценочной системы, чтобы научить ИИ делать это в соответствии с человеческой оценкой. Этот же обучающий набор можно использовать для создания ИИ, способного проявлять больше сочувствия. Время покажет.
В оценках диалога LLM в настоящее время наблюдается некоторое смешение отсутствия эмпатии с ИИ или даже с высокой эмпатией, являющейся ИИ. Я прогнозирую, что как только ИИ смогут эффективно проявлять сочувствие, будет легко предсказать, какой диалог будет вести ИИ. Почему, поскольку мы люди, мы непоследовательны. Как бы нам иногда не хотелось судить других, наши предрасположенности и суждения проявляются... особенно, если человек, которого мы пытаемся поддержать, становится неблагодарным. В результате при анализе эмпатические ИИ, вероятно, окажутся более чуткими, чем люди. В следующей статье я буду обращаться к «неблагодарным» пользователям и к сочувствию.
И в заключение... хотя человеческое сочувствие можно явно ощутить в контексте людей, которые никогда не встречались, или даже с помощью фильма, для развития глубоко эмпатических отношений требуется время посредством создания общего контекста и памяти. Для этого нам придется перейти к LLM, которые либо постоянно настраиваются на пользователей, с которыми они взаимодействуют, либо имеют доступ RAG к разговорной памяти и другой исторической информации о своих пользователях, функциям, которые проявляют Pi.ai , Willow и Replika .