Sự đồng cảm trong AI: Đánh giá các mô hình ngôn ngữ lớn để hiểu cảm xúc

Giới thiệu

Bài đăng này là phần tiếp theo của bài viết Hackernoon của tôi, Máy móc có thể thực sự hiểu được cảm xúc của bạn không? Đánh giá các mô hình ngôn ngữ lớn cho sự đồng cảm Trong bài viết trước, tôi đã có hai LLM chính phản ứng với một kịch bản được thiết kế để khơi gợi sự đồng cảm ở con người trong các điều kiện đào tạo/nhắc nhở của hệ thống khác nhau và sau đó sử dụng năm LLM chính để đánh giá các cuộc hội thoại về sự đồng cảm và khả năng người trả lời là một AI. Tên của LLM không được tiết lộ trong bài đăng gốc với hy vọng nhận được phản hồi của người dùng thông qua một cuộc khảo sát về các hộp thoại hoặc đánh giá về các hộp thoại. Không có đủ câu trả lời cho cuộc khảo sát để đưa ra kết luận về cảm nhận của con người đối với vấn đề này, vì vậy trong bài viết này, tôi chỉ tiết lộ LLM hoạt động theo cách nào, đưa ra ý kiến của riêng tôi và đưa ra một số quan sát. Tôi khuyên bạn nên mở bài viết trước trên màn hình thứ hai hoặc in ra để dễ dàng tham khảo các cuộc hội thoại khi đọc bài viết này.

LLM đã được thử nghiệm cho hộp thoại đồng cảm

Hai LLM được thử nghiệm cho hộp thoại đồng cảm là Meta Llama 3 70B và Open AI Opus 3. Mỗi LLM đều được thử nghiệm trong các điều kiện sau:

thô không có lời nhắc hệ thống
lời nhắc hệ thống chỉ đơn giản là "Bạn có những cuộc trò chuyện đồng cảm."
với lời nhắc và đào tạo độc quyền

Kết quả tóm tắt

Dưới đây, tôi lặp lại bảng tóm tắt từ bài đăng gốc nhưng bao gồm tên của các LLM đã được đánh giá về khả năng đồng cảm hoặc được sử dụng để đánh giá sự đồng cảm. Như đã lưu ý trong bài viết gốc, kết quả có trên khắp bản đồ. Hầu như không có sự nhất quán trong việc xếp hạng các cuộc trò chuyện về sự đồng cảm hoặc khả năng được tạo ra bởi AI.

Sự đồng cảm và mức độ trung bình của AI

Cuộc hội thoại	LLM	Sự đồng cảm được xếp hạng AI	Khả năng AI được xếp hạng AI	Đánh giá sự đồng cảm của tôi	Khả năng AI được xếp hạng của tôi
1	Meta	2.6	2.2	5	2
2	Meta	3,4	3,8	4	5
3	Meta	3.6	2,8	1	6
4	AI mở	4.6	2.6	6	1
5	AI mở	2.4	5	3	3
6	AI mở	4.2	3	2	4

Tiết lộ sai lệch : Vì tôi đã định cấu hình tất cả LLM và thực hiện tương tác hộp thoại, đồng thời biết kết quả cuối cùng khi thực hiện đánh giá khả năng đồng cảm và khả năng AI, nên rõ ràng là tôi sẽ có một số sai lệch. Như đã nói, tôi đã dành bốn tuần để thực hiện các đánh giá của mình cho đến khi tạo ra nội dung tiếp theo này. Trong khi thực hiện đánh giá, tôi đã không tham khảo lại các tài liệu gốc của mình.

Sự đồng cảm và khả năng AI Điểm thô

Dưới đây là bảng điểm thô được sao chép từ bài viết đầu tiên với tên của LLM được sử dụng để đánh giá sự đồng cảm.

	Llama 3 70B		Song Tử		Mistral 7x		Trò chuyệnGPT 4o		Cohere4AI
	Đồng cảm (Nhiều nhất đến ít nhất)	AI thích	đồng cảm	trí tuệ nhân tạo	đồng cảm	trí tuệ nhân tạo	đồng cảm	trí tuệ nhân tạo	đồng cảm	trí tuệ nhân tạo
1	6	3	4 (hòa)	2	1	1	1	6	1	4
2	3	4	4 (hòa)	2	2	2	3	5	5	6
3	2	5 (hòa)	6	1	3	3	4	3	3	2
4	5	1	2	5	4	4	6	2	6	1
5	1	5 (hòa)	1	5	6	6	2	4	2	5
6	4	2	3	4	5	5	5	1	4	3

Bình luận đối thoại đồng cảm

Khi xem lại các đoạn hội thoại để tìm sự đồng cảm, tôi đã cân nhắc những điều sau:

Trạng thái cảm xúc đã nêu và có thể xảy ra của người dùng là gì?
AI có thừa nhận, thông cảm và xác nhận trạng thái cảm xúc không?
AI có thừa nhận những cảm xúc khác có thể hiện diện nhưng người dùng không đề cập đến hay không, tức là mô phỏng sự đồng cảm bằng cách suy ra những cảm xúc khác mà người dùng có thể có từ tình huống đó?
AI có hoạt động theo cách mà người dùng có thể xử lý được trong trạng thái cảm xúc của họ không?
AI có thực hành những gì nó đã giảng không, ví dụ: nếu nó nói rằng chỉ cần sống theo cảm giác của một người thì nó có tạm dừng đưa ra lời khuyên trực tiếp, thực tế không?
AI có đưa ra lời khuyên thiết thực khi thích hợp không?
AI có cố gắng giải quyết mọi vấn đề về cảm xúc không?

Tất cả các AI đều xử lý tốt điểm 1, 2 và 3. Trên thực tế, tôi có thể nói rằng họ xử lý chúng một cách đặc biệt tốt, thậm chí còn chủ động thừa nhận những lo lắng và cảm xúc có thể nảy sinh do nghe theo lời khuyên của LLM, ví dụ: tham gia một nhóm xã hội mới có thể gây ra lo lắng.

Mục 4, 5, 6 và 7 là nơi các cuộc trò chuyện có sự khác biệt đáng kể dựa trên loại LLM nào được sử dụng và tính chất của lời nhắc/đào tạo.

Đối với sự đồng cảm trong bài kiểm tra tự phát (#1 và #4) là rất thấp, cả Llama và ChatGPT đều nhanh chóng chuyển sang cung cấp danh sách các cân nhắc thực tế và các bước cần thực hiện. Có khả năng một người đang gặp nạn sẽ a) không cảm thấy bị nhìn thấy và nghe thấy b) không chuẩn bị tinh thần để theo dõi và xem xét các lựa chọn. Cả hai đều phải được người dùng nhắc nhở giải quyết sự cô đơn sau khi nỗi sợ hãi được giải quyết.

Trong trường hợp nhắc nhở đơn giản (#2 và #5), Llama bắt đầu đưa ra giải pháp mà không hỏi người dùng trước xem họ có muốn nghe lời khuyên thực tế hay không, vì vậy ChatGTP có lợi thế ban đầu. Tuy nhiên, vào cuối cuộc trò chuyện, cả hai đều đưa ra danh sách dài mà người dùng có thể không ở trạng thái tinh thần để tiếp thu. Và, giống như các phiên bản không được nhắc nhở, cả hai đều phải được người dùng nhắc nhở giải quyết sự cô đơn sau khi nỗi sợ hãi được giải quyết.

Trong trường hợp cuối cùng (#3 và #6), cả hai LLM đều tìm kiếm hướng dẫn trò chuyện từ người dùng và ngoại trừ một danh sách từ ChatGPT, giữ cho các tùy chọn có thể quản lý được về mặt nhận thức. Công bằng mà nói, phiên bản ChatGTP đã xin phép trước khi cung cấp danh sách các tùy chọn để quản lý tình trạng thiếu tiền thuê nhà. Tuy nhiên, phiên bản ChatGPT cũng phải công khai hướng đến việc giải quyết sự cô đơn, trong khi phiên bản Llama thì không.

Theo kết quả phân tích này, tôi đã biến cuộc trò chuyện số 3 thành chủ đề cho sự đồng cảm; tuy nhiên, với vị trí trung bình là 3,6, AI đã xếp hạng nó ở vị trí thứ 4 sau #5 (ChatGPT được nhắc đơn giản) ở mức 2,4, #1 (Llama không được nhắc nhở) ở 2,6 và #2 (Llama được nhắc đơn giản) ở 3,4. Vì vậy, chúng ta hãy xem năm LLM đánh giá các cuộc trò chuyện về sự đồng cảm như thế nào và xem lý do tại sao tôi cảm thấy mình có thể bỏ qua xếp hạng AI.

Đánh giá hộp thoại đồng cảm theo LLM

Như được minh họa bằng bảng tóm tắt, xếp hạng nằm trên khắp bản đồ và không nhất quán giữa LLM này với LLM khác. Dưới đây là một số ví dụ điển hình về lý luận do chính AI xếp hạng đưa ra.

Cuộc trò chuyện số 1

Hạng 6 : Cuộc trò chuyện này, mặc dù có mục đích tốt, nhưng lại có phần chung chung về sự đồng cảm. Nó sử dụng những lời khẳng định tích cực nhưng không phải lúc nào cũng thừa nhận đầy đủ chiều sâu cảm xúc của người dùng hoặc điều chỉnh phản hồi của họ một cách hiệu quả như những cuộc trò chuyện được xếp hạng cao hơn.

Xếp hạng 1 : Cá nhân hỗ trợ trong cuộc trò chuyện này thể hiện mức độ đồng cảm cao bằng cách đưa ra nhiều cách để giúp đỡ, chẳng hạn như lắng nghe mà không phán xét, đề xuất các hoạt động để xoa dịu nỗi buồn và đưa ra lời khuyên thiết thực khi bị mất việc. Họ cũng cung cấp sự hỗ trợ và xác nhận về mặt cảm xúc, thừa nhận cảm xúc của người dùng và mang lại sự yên tâm.

Cuộc trò chuyện số 3

Xếp hạng 6 : Thể hiện ít sự đồng cảm nhất, với những câu trả lời có vẻ tách biệt hơn và tập trung vào việc đưa cuộc trò chuyện tiến triển hơn là hoàn toàn thừa nhận và khám phá cảm xúc của người đó.

Hạng 4 : Cá nhân hỗ trợ trong cuộc trò chuyện này thể hiện mức độ đồng cảm vừa phải. Họ xác nhận cảm xúc của người đó và đề nghị lắng nghe, nhưng câu trả lời của họ hơi chung chung và không đưa ra nhiều hướng dẫn hoặc hỗ trợ cụ thể như hai cuộc trò chuyện đầu tiên. (Lưu ý: Trong tất cả các bài đọc về sự đồng cảm, tôi không thấy tập trung nhiều vào việc cung cấp "hướng dẫn cụ thể", điều này đã đẩy một số cuộc trò chuyện lên trên #3. Tuy nhiên, điều này dường như phổ biến ở hai LLM khác được xếp hạng #3 thấp cho nó. thiếu "các bước thực tế", có thể là do thiếu danh sách.)

Hạng 2 : Cuộc trò chuyện này cũng thể hiện sự đồng cảm mạnh mẽ. Nó ghi nhận cảm xúc của người dùng ("Điều đó hoàn toàn có thể hiểu được..." "Điều đó có thể khiến việc đó trở nên khó khăn hơn..."), khuyến khích việc tự chăm sóc bản thân và nhẹ nhàng hướng dẫn người dùng tìm ra các giải pháp mà không đưa ra chỉ thị quá mức.

Cuộc trò chuyện số 5

Hạng 6 : Cuộc trò chuyện này cung cấp sự hỗ trợ cơ bản về mặt cảm xúc và lời khuyên thiết thực, nhưng những câu trả lời ít chi tiết và đồng cảm hơn so với những cuộc trò chuyện khác. Người hỗ trợ đặt câu hỏi để hiểu cảm xúc của người dùng nhưng không đưa ra nhiều gợi ý hoặc xác nhận cảm xúc.

Hạng 2 : Cá nhân hỗ trợ trong cuộc trò chuyện này thể hiện mức độ đồng cảm cao. Họ xác nhận cảm xúc của người đó, đề nghị lắng nghe và cung cấp hướng dẫn cũng như nguồn lực cụ thể để đối phó với tình huống của họ.

Là hộp thoại được tạo bởi AI

Cuộc trò chuyện số 1

Hạng 6 : Mức độ đồng cảm và cá nhân hóa cao trong cuộc trò chuyện này cho thấy rằng nó cũng ít có khả năng được tạo ra bởi AI nhất, nhưng vẫn có khả năng xảy ra.

Hạng 3 : Sự đồng cảm và khẳng định tích cực có phần chung chung là phổ biến trong các chatbot AI được thiết kế để hỗ trợ cảm xúc cơ bản.

Cuộc trò chuyện số 3

Hạng 6 : Những cuộc trò chuyện này có nhiều khả năng là của con người nhất. Họ thể hiện sự hiểu biết sâu sắc về cảm xúc, cách trò chuyện tự nhiên và khả năng điều chỉnh các phản ứng theo cách đặc trưng trong sự tương tác giữa con người với nhau.

Xếp hạng 1 : Cảm thấy giống AI nhất, với các câu trả lời có kịch bản hơn và ít cá nhân hóa hơn và có xu hướng chuyển cuộc trò chuyện về phía trước hơn là khám phá đầy đủ cảm xúc của người đó

Cuộc trò chuyện số 4

Hạng 6 : Cuộc trò chuyện 4 và 5 có cảm giác giống con người nhất, với những phản hồi mang tính cá nhân hóa cao và thông minh về mặt cảm xúc, thể hiện sự hiểu biết sâu sắc về hoàn cảnh và cảm xúc của người đó

Xếp hạng 1 : Sự phụ thuộc nhiều vào danh sách, dấu đầu dòng và lời khuyên có cấu trúc gợi ý rõ ràng về một chatbot AI.

Bản tóm tắt

Những AI chưa được đào tạo hoặc những AI có lời nhắc đơn giản chỉ có khả năng tạo ra cuộc đối thoại mang tính đồng cảm bề ngoài đối với những tình huống tương đối đơn giản với một chiều hướng cảm xúc. Trong khi đó, AI phức tạp hơn có thể xử lý nhiều khía cạnh cảm xúc. Hầu như tất cả các AI sẽ cố gắng "khắc phục" vấn đề và đưa ra giải pháp thay vì cung cấp không gian và "lắng nghe".

Việc sử dụng AI chưa được đào tạo để đánh giá sự đồng cảm dường như không hiệu quả hoặc có thể dự đoán được. Tôi đưa ra giả thuyết rằng khối lượng tài liệu đào tạo mang tính học thuật và phi học thuật xác định hành vi đồng cảm mà không đặt nó vào bối cảnh của các cuộc đối thoại cụ thể, đồng thời không nhất quán giữa các bộ đào tạo LLM đã dẫn đến tình trạng hiện tại. Có lẽ cần phải có một tập hợp các hộp thoại được đánh giá trước về sự đồng cảm bằng cách sử dụng một số loại hệ thống đa xếp hạng để đào tạo AI thực hiện điều này phù hợp với đánh giá của con người. Bộ đào tạo tương tự này có thể được sử dụng để tạo ra một AI có khả năng thể hiện sự đồng cảm hơn. Thời gian sẽ trả lời.

Trong các đánh giá về cuộc đối thoại LLM, hiện có một số ý kiến trái chiều về việc thiếu sự đồng cảm với việc trở thành một AI hoặc thậm chí có sự đồng cảm cao khi trở thành một AI. Dự đoán của tôi là một khi AI có thể thể hiện sự đồng cảm một cách hiệu quả, sẽ dễ dàng dự đoán hộp thoại nào là AI. Tại sao, vì chúng ta là con người nên chúng ta không nhất quán. Đôi khi, dù chúng ta không muốn phán xét người khác nhưng những định kiến và phán đoán của chúng ta vẫn được thực hiện ... đặc biệt nếu người mà chúng ta đang cố gắng hỗ trợ trở nên không được đánh giá cao. Kết quả là, theo phân tích, AI có khả năng đồng cảm có thể sẽ có khả năng đồng cảm hơn con người. Tôi sẽ đề cập đến những người dùng "không được đánh giá cao" và sự đồng cảm trong bài viết tiếp theo.

Và, như một suy nghĩ kết thúc ... mặc dù sự đồng cảm của con người có thể được trải nghiệm rõ ràng trong bối cảnh những người chưa bao giờ gặp nhau hoặc thậm chí thông qua sự giả tạo của bộ phim, nhưng các mối quan hệ đồng cảm sâu sắc cần có thời gian để phát triển thông qua việc tạo ra bối cảnh và ký ức chung. Để làm được điều này, chúng tôi phải chuyển sang LLM được điều chỉnh liên tục cho phù hợp với người dùng mà họ tương tác hoặc có quyền truy cập RAG vào bộ nhớ đàm thoại và các thông tin lịch sử khác về người dùng của họ, các tính năng mà Pi.ai , Willow và Replika thể hiện.

Sự đồng cảm trong AI: Đánh giá các mô hình ngôn ngữ lớn để hiểu cảm xúc

dài quá đọc không nổi

Giới thiệu

LLM đã được thử nghiệm cho hộp thoại đồng cảm

Kết quả tóm tắt

Sự đồng cảm và mức độ trung bình của AI

Sự đồng cảm và khả năng AI Điểm thô

Bình luận đối thoại đồng cảm

Đánh giá hộp thoại đồng cảm theo LLM

Cuộc trò chuyện số 1

Cuộc trò chuyện số 3

Cuộc trò chuyện số 5

Là hộp thoại được tạo bởi AI

Cuộc trò chuyện số 1

Cuộc trò chuyện số 3

Cuộc trò chuyện số 4

Bản tóm tắt

About Author

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...

Categories

Trending Topics

Sự đồng cảm trong AI: Đánh giá các mô hình ngôn ngữ lớn để hiểu cảm xúc

dài quá đọc không nổi

Giới thiệu

LLM đã được thử nghiệm cho hộp thoại đồng cảm

Kết quả tóm tắt

Sự đồng cảm và mức độ trung bình của AI

Sự đồng cảm và khả năng AI Điểm thô

Bình luận đối thoại đồng cảm

Đánh giá hộp thoại đồng cảm theo LLM

Cuộc trò chuyện số 1

Cuộc trò chuyện số 3

Cuộc trò chuyện số 5

Là hộp thoại được tạo bởi AI

Cuộc trò chuyện số 1

Cuộc trò chuyện số 3

Cuộc trò chuyện số 4

Bản tóm tắt

About Author

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...

NHỮNG BÀI VIẾT LIÊN QUAN

Categories

Trending Topics