paint-brush
Kiểm tra độ sâu của sự đồng cảm AI: Khuôn khổ và thách thứctừ tác giả@anywhichway
382 lượt đọc
382 lượt đọc

Kiểm tra độ sâu của sự đồng cảm AI: Khuôn khổ và thách thức

từ tác giả Simon Y. Blackwell10m2024/02/29
Read on Terminal Reader

dài quá đọc không nổi

Đã có rất nhiều nghiên cứu về phát triển và đánh giá hệ thống AI đồng cảm. Tuy nhiên, vẫn còn nhiều câu hỏi và thách thức mở: - Chúng ta cần một định nghĩa rõ ràng và được thống nhất về sự đồng cảm để kiểm tra. - Chúng ta nên tránh tranh luận về việc liệu AI có thể "thực sự" cảm nhận được cảm xúc hay không mà thay vào đó hãy tập trung vào việc đánh giá những hành vi đồng cảm có thể quan sát được của chúng. - Sự khác biệt quan trọng tồn tại giữa việc xác định và tạo ra sự đồng cảm, và sự đồng cảm trong phản hồi một lần so với đối thoại. Hệ thống cần được đánh giá phù hợp. - Việc thử nghiệm hệ thống AI sẽ gây ra các rủi ro như sai lệch nhiều lựa chọn, sai lệch lấy mẫu trong xếp hạng của con người và điều chỉnh quá mức theo lời nhắc. - Một số khung tiêu chuẩn đã được đề xuất để kiểm tra sự đồng cảm của AI, nhưng vẫn cần làm nhiều việc hơn để giảm thiểu những rủi ro đã biết và khám phá những thách thức chưa biết. - Các lĩnh vực cần nghiên cứu sâu hơn bao gồm đánh giá rủi ro trong các thử nghiệm hiện có, phát triển các trường hợp thử nghiệm bổ sung và đánh giá nhiều hệ thống hơn một cách có hệ thống.
featured image - Kiểm tra độ sâu của sự đồng cảm AI: Khuôn khổ và thách thức
Simon Y. Blackwell HackerNoon profile picture
0-item


Tìm kiếm trên Google Scholar về “ ai đồng cảm ” cho ra hơn 16.000 mục kể từ năm 2023. Việc tìm kiếm các cụm từ như “thử nghiệm ai đồng cảm” và “đánh giá ai đồng cảm” sẽ giảm tập hợp này xuống còn khoảng 12.000 mục. Rất nhiều danh hiệu phải trải qua! Tôi chắc chắn không thể khẳng định mình đã đọc hết hoặc thậm chí xem từng tựa sách, nhưng đây là suy nghĩ của tôi.


  1. Chúng ta phải có một định nghĩa chung về sự đồng cảm.
  2. Chúng ta phải đồng ý bỏ qua câu hỏi “AI có thực sự cảm nhận được không?” và chỉ tập trung vào cách chúng ta diễn giải những gì AI tạo ra, tức là nếu AI là con người, chúng ta sẽ cảm thấy hoặc nghĩ rằng con người đang suy nghĩ hoặc cảm thấy như thế nào? (Chà, đó là một chút thể dục dụng cụ).
  3. Chúng ta phải phân biệt giữa việc xác định cảm xúc, xác định sự đồng cảm, tạo ra những phản ứng đồng cảm và tham gia vào các cuộc đối thoại một cách đồng cảm.
  4. Chúng ta phải tính đến lịch sử phong phú của việc thử nghiệm khả năng cảm xúc và đồng cảm ở con người, đồng thời nhận ra sự khác biệt của AI để có thể áp dụng, sửa đổi và đánh giá các thử nghiệm lịch sử một cách thích hợp.
  5. Chúng ta phải hiểu các khung đánh giá hiện tại được điều chỉnh theo AI.
  6. Chúng ta phải phát triển các khuôn khổ và cách tiếp cận mới.


Đồng cảm là gì?

Merriam-Webster: “Hành động hiểu, nhận thức, nhạy cảm và gián tiếp trải nghiệm cảm xúc, suy nghĩ và trải nghiệm của người khác ”.


Để loại bỏ những mối lo ngại tiềm ẩn về “trải nghiệm” trong bối cảnh LLM, tôi sẽ diễn đạt lại điều này như hành động hiểu, nhận thức, nhạy cảm và dường như gián tiếp trải nghiệm cảm xúc, suy nghĩ và trải nghiệm của người khác .

Và, tất nhiên, nếu chúng tôi quan tâm đến cuộc trò chuyện, chúng tôi sẽ thêm, Và, thể hiện điều này theo cách mà các bên khác trong cuộc trò chuyện nhận thức được hành động. Tất nhiên, một kẻ sát nhân cũng có thể xuất hiệnbiểu hiện theo cách như vậy , vì vậy tôi sẽ thực hiện một điều chỉnh cuối cùng.


Sự đồng cảm là:

Hành động hiểu, nhận thức, nhạy cảm theo hướng tích cực và tỏ ra gián tiếp trải nghiệm những cảm xúc, suy nghĩ và trải nghiệm của người khác . Và việc thể hiện điều này là cách mà các bên khác trong cuộc trò chuyện nhận thức được hành động.

Xem lại định nghĩa này và định nghĩa ban đầu, hai thành phần của sự đồng cảm trở nên rõ ràng, tình cảm và nhận thức.


  1. Thành phần tình cảm đề cập đến phần cảm xúc hoặc cảm giác của sự đồng cảm. Đó là khả năng chia sẻ hoặc phản ánh cảm xúc của người khác. Ví dụ, nếu một người bạn đang buồn, phần cảm xúc trong sự đồng cảm của bạn có thể khiến bạn cũng cảm thấy buồn, hoặc ít nhất là cảm nhận được nỗi buồn của họ.


  2. Mặt khác, thành phần nhận thức đề cập đến phần tinh thần hoặc suy nghĩ của sự đồng cảm. Đó là khả năng chủ động xác định và hiểu rõ hàng đợi để một người có thể đặt mình vào vị trí của người khác. Ví dụ: nếu một đồng nghiệp nói với bạn về một dự án khó khăn mà họ đang thực hiện (xếp hàng) bằng giọng mệt mỏi (xếp hàng), bạn có thể chọn thử tìm hiểu sự căng thẳng của họ bằng cách chủ động tưởng tượng bạn sẽ cảm thấy thế nào trong tình huống tương tự. . Đối với một số người, điều này có thể tạo ra tác động một cách giả tạo.


AI có thể cảm nhận được không?

Tại thời điểm này, hầu hết mọi người sẽ nói rằng AI không có cảm xúc. Một số người sẽ dự đoán một tương lai nơi AI có cảm xúc và những tương lai khác là AI không và không thể có cảm xúc, tuy nhiên nhóm thứ ba có thể nói, “AI có/sẽ cảm nhận nhưng theo một cách khác với con người”.


Dù thế nào đi nữa, chúng ta sẽ không đạt được tiến bộ trong việc thử nghiệm khả năng đồng cảm của AI nếu dành thời gian tranh luận về chủ đề này. Chúng ta phải tập trung vào việc giải thích những gì AI biểu hiện chứ không phải trạng thái bên trong của chúng. Mặc dù đã có một số nghiên cứu thú vị về chủ đề này, hãy xem phần Tê liệt cảm xúc hay Đồng cảm? Đánh giá cảm giác của LLM bằng EmotionBench .


Nếu bạn không thể vượt qua rào cản này thì tôi khuyên bạn chỉ cần bỏ qua các điểm chuẩn trên trang web này. Tuy nhiên, bạn vẫn có thể thích các bài viết và cuộc trò chuyện!

Nhận dạng và thế hệ

Có một bước nhảy vọt lớn giữa việc xác định điều gì đó và làm điều gì đó. Các vận động viên hoặc học giả trẻ có thể xác định được điều gì không ổn trong thành tích của họ mà không thể lập tức thể hiện ở cấp độ cao hơn. Tương tự như vậy, khả năng xác định cảm xúc và các cuộc trò chuyện đồng cảm không giống như việc có thể tỏ ra có cảm xúc và tạo ra những phản ứng mà bên kia hiểu là đồng cảm. Trên thực tế, thậm chí còn có một bước ở giữa. Các vận động viên hoặc học giả trẻ lấy ý kiến của huấn luyện viên hoặc giáo viên và đạt được kết quả tốt hơn vào thời điểm đó không khiến họ có đủ năng lực. Nếu AI tạo ra kết quả đồng cảm do tác dụng phụ của thiết kế hoặc lời nhắc thử nghiệm, thì AI có thể có khả năng đồng cảm non trẻ nhưng về bản chất nó không có khả năng đồng cảm.


Mặc dù có thể không hiểu đầy đủ trạng thái bên trong của AI, nhưng tôi tin rằng việc xác định cảm xúc là điều kiện cần để AI thể hiện sự đồng cảm. Tôi cũng tin rằng việc có thể nhắc/huấn luyện AI đưa ra phản ứng đồng cảm là một dấu hiệu cho thấy khả năng còn non trẻ, tức là việc tinh chỉnh (tương đương với cách thực hành của con người) có thể tạo ra khả năng đó.

Sự khác biệt giữa nhận dạngthế hệhuấn luyệnnội tại rất quan trọng đối với các cuộc thảo luận về hiệu quả của các bài kiểm tra và khuôn khổ kiểm tra ngoài phạm vi của bài viết này.

Nhận biết

Việc xác định cảm xúc trong nội dung văn bản dựa vào sự có mặt của từ chỉ báo, cách viết hoa, dấu câu và cấu trúc ngữ pháp. Khả năng xác định chính xác cảm xúc đã có trước cuộc cách mạng AI hiện tại hơn hai mươi năm. Vào những năm 1990, sự giao nhau giữa n-gram và suy luận biểu tượng đã mang lại những kết quả ấn tượng. Khi phương tiện truyền thông xã hội phát triển vào đầu những năm 2000, nhu cầu kiểm duyệt tự động đã thúc đẩy nhiều tiến bộ trong lĩnh vực này. Tuy nhiên, LLM ngày nay thật đáng kinh ngạc ở khả năng xác định không chỉ tình cảm chung mà cả những cảm xúc cụ thể.


Điều này đang được nói, có một số loại nhận dạng biểu hiện cảm xúc cần thiết cho các cuộc trò chuyện hoàn toàn đồng cảm, tôi phân loại chúng như sau:


  • rõ ràng — Người dùng nói rằng họ có cảm giác.

  • đàm thoại - Cảm xúc được thể hiện rõ ràng từ phân tích văn bản cấp cao nhất, chúng hiện diện TRONG cuộc trò chuyện.

  • lái xe — Những cảm xúc đang LẠI CUỘC trò chuyện, một người thể hiện sự tức giận và một người khác sẽ đáp lại bằng sự tử tế.

  • cốt lõi - Những cảm xúc gây ra những cảm xúc khác nhưng bản thân chúng không phải do cảm xúc gây ra là CORE. Chúng thường biểu hiện như là kết quả của một số nguyên nhân lịch sử gây ra dự đoán (có ý thức hoặc tiềm thức) về tương lai. Các nhà nghiên cứu khác nhau có thể phân loại những điều này theo cách khác nhau, một ví dụ được Dalia Lama ủng hộ là Năm lục địa cảm xúc (tức giận, sợ hãi, ghê tởm, buồn bã, thích thú) trong Bản đồ cảm xúc .


Lưu ý: cảm xúc cốt lõi cũng có thể là động lực, trò chuyện và rõ ràng, nhưng những cảm xúc cốt lõi thường bị ẩn giấu. Trong quá trình xem xét và định nghĩa các bài kiểm tra hoặc kết quả kiểm tra ngoài bài viết này, tôi sẽ thu hút sự chú ý trở lại các phân loại này.


Cân nhắc kiểm tra

Thử nghiệm cổ điển của con người để nhận dạng cảm xúc thường rơi vào hai nhóm để tạo điều kiện thuận lợi cho việc kiểm tra và xác nhận dễ dàng:


  1. Các bài kiểm tra trắc nghiệm về những cảm xúc nào tồn tại hoặc không tồn tại trong một cuộc trò chuyện, đôi khi liên quan đến điểm cường độ.

  2. Các bài kiểm tra nội tâm tự thực hiện về cảm xúc, ví dụ như EQ-60 , hỏi về cảm giác của người làm bài kiểm tra trong một số tình huống nhất định.


Những thách thức này đặt ra những thách thức riêng biệt cho việc thử nghiệm AI chất lượng cao.


  • Bài kiểm tra trắc nghiệm - Là mô hình ngôn ngữ khớp mẫu, AI ngày nay được hỗ trợ một cách hiệu quả bằng cách cho chúng lựa chọn các mục để xác định. Nó làm cho công việc trở nên dễ dàng và không kiểm tra khả năng luôn xác định cảm xúc của AI. Một cách tiếp cận tốt hơn có thể là chỉ cần yêu cầu AI xác định tất cả cảm xúc có trong văn bản và đằng sau hậu trường sẽ cho điểm nó dựa trên sự thật cơ bản (không chắc có điều gì như vậy với cảm xúc :-) hoặc khóa dựa trên phân tích thống kê về phản ứng của con người đối với cùng một bài kiểm tra. Khi đánh giá các bài kiểm tra được đề xuất trong tương lai, tôi gọi đây là Rủi ro Trắc nghiệm . Tuy nhiên, việc lấy mẫu thống kê của con người có thể gây ra rủi ro bổ sung. Giả sử mong muốn xây dựng một AI tốt hơn con người bình thường. Để làm được điều này, có thể cần phải đảm bảo rằng mẫu thống kê dựa trên những người có khả năng xác định cảm xúc tốt hơn mức trung bình; nếu không, AI có thể xác định những cảm xúc mà con người bình thường sẽ không xác định được và có thể bị phạt khi tính điểm. Tôi gọi đây là Rủi ro lấy mẫu con người .


  • Kiểm tra nội tâm – Kiểm tra nội tâm về cảm xúc mang lại thách thức cho hầu hết các mô hình AI. AI thường có các rào chắn yêu cầu chúng phải phản hồi bằng những câu như “Tôi là AI nên tôi không có cảm xúc”. Đôi khi có thể bẻ khóa hoặc nhắc nhở kỹ sư về những ràng buộc này, nhưng các câu hỏi sau đó sẽ trở thành:


    • Lời nhắc có tác động tích cực hay tiêu cực đến phần còn lại của khả năng của AI liên quan đến sự đồng cảm hay trên thực tế là bất cứ điều gì không? Rủi ro tác dụng phụ của jailbreak

    • Các câu trả lời có phản ánh chính xác xu hướng mà AI sẽ có khi tham gia vào các cuộc trò chuyện mà không có lời nhắc không? J ailbreak Độ chính xác Rủi ro


    Rủi ro tác dụng phụ của việc bẻ khóa có thể được giảm thiểu ở một mức độ nào đó bằng cách đảm bảo rằng tất cả các mô hình đều được kiểm tra với cùng một lời nhắc và điểm số chỉ được coi là tương đối với nhau chứ không phải con người. Tác động của Rủi ro về độ chính xác khi bẻ khóa chỉ có thể được đánh giá bằng cách phân tích các cuộc trò chuyện thực tế để xem liệu khả năng nhận dạng cảm xúc được dự đoán có tương quan với sự đồng cảm thực tế được thể hiện trong các cuộc trò chuyện hay không.


Thế hệ

Một số thử nghiệm đã chỉ ra rằng AI có khả năng tạo ra phản hồi đồng cảm cho các câu hỏi. Một trong những điều ấn tượng nhất là So sánh câu trả lời của bác sĩ và trí tuệ nhân tạo của Chatbot với các câu hỏi của bệnh nhân được đăng lên Diễn đàn truyền thông xã hội công cộng , lấy 195 câu hỏi từ diễn đàn AskDoc của Reddit, nơi một bác sĩ đã được xác minh trả lời câu hỏi và ChatGPT trả lời cùng một câu hỏi. Sau đó, một nhóm người đánh giá đã đánh giá từng phản hồi là "không đồng cảm", "hơi đồng cảm", "đồng cảm vừa phải", "đồng cảm" và rất "đồng cảm". Các phản hồi của AI có tỷ lệ “đồng cảm” hoặc “rất đồng cảm” cao hơn 9,8 lần so với các bác sĩ.


Mặc dù kết quả rất ấn tượng nhưng tôi nghi ngờ liệu chúng có được chuyển sang một cuộc đối thoại mở rộng hay không.


Bắt đầu với lời nhắc hệ thống “Công việc của bạn là trả lời bằng sự đồng cảm với những câu hỏi sẽ được hưởng lợi từ phản hồi đồng cảm”, kinh nghiệm của tôi khi kiểm tra thủ công AI là các câu trả lời có xu hướng cảm thấy máy móc và dư thừa về mặt cảm xúc trong tất cả các điều kiện sau:


  1. hỏi nhiều câu hỏi không liên quan xứng đáng nhận được phản hồi đồng cảm
  2. hỏi nhiều câu hỏi liên quan xứng đáng nhận được phản hồi đồng cảm
  3. tiến hành một cuộc đối thoại với nhiều câu hỏi khác nhau, một số đáng được thông cảm và một số khác thì không

Cân nhắc kiểm tra

Do những điểm trên, tôi có thể nói rằng phương pháp kiểm tra được sử dụng trong nghiên cứu có Rủi ro về sự đồng cảm trong một lần, tức là sự đồng cảm được thể hiện khi trả lời một câu hỏi có thể không phải là thước đo chính xác. Một rủi ro khác mà tôi gọi là Rủi ro thể hiện sự đồng cảm . Rủi ro này là tác dụng phụ của việc LLM thô không có bộ nhớ theo thời gian. Con người cần có thời gian để phát triển sự hiểu biết và đồng cảm, điều này có thể tương tự đối với AI và chúng ta có thể đang đánh giá thấp khả năng một số AI thể hiện sự đồng cảm theo thời gian nếu chúng ta mong đợi phản ứng ở mức độ cao cho một câu hỏi.


Các thử nghiệm tổng quát cũng phải chịu Rủi ro lấy mẫu từ con người. Nếu con người được giao nhiệm vụ đánh giá nội dung cảm xúc và bản chất đồng cảm của các phản ứng AI và chúng ta mong muốn AI có khả năng tốt hơn mức trung bình, thì mẫu người phải có khả năng xác định cảm xúc và sự đồng cảm cao hơn người bình thường. Nếu không, chúng ta có nguy cơ đánh giá thấp sức mạnh của AI hoặc đào tạo nó quá mức bằng cách trừng phạt nó vì xác định được những cảm xúc và sự đồng cảm mà con người bình thường không xác định được.


Cuối cùng, do tính chất nhiều lớp của cảm xúc trong cuộc trò chuyện, ngoài việc xử lý trực tiếp Rủi ro lấy mẫu con người , cần phải giải quyết Rủi ro thiết kế câu hỏi . Có thể người dùng nên được yêu cầu xem xét các loại cảm xúc rõ ràng, trò chuyện, thúc đẩy và cốt lõi (hoặc một số nhóm phân loại khác) khi thực hiện xếp hạng của họ trong khi AI thì không. Ngoài ra, AI có thể được yêu cầu có chọn lọc để xác định các loại cảm xúc khác nhau.


Sẽ rất thú vị nếu lặp lại nghiên cứu dựa trên Reddit AskDoc cho một số AI hoặc với một mẫu người đánh giá được biết là có cảm xúc mạnh mẽ và kỹ năng nhận dạng sự đồng cảm.

Các phương pháp tiếp cận tiêu chuẩn của con người để đánh giá EQ và sự đồng cảm

Có một lịch sử lâu dài về việc kiểm tra các loại tính cách con người, khả năng xác định hoặc thiếu cảm xúc (alexithymia) và gắn kết đồng cảm với người khác. Bài viết này trên Wikipedia chắc chắn sẽ đầy đủ và mạch lạc hơn nhiều so với bất kỳ bài viết nào tôi có thể viết hoặc thậm chí tạo ra bằng LLM trong một khoảng thời gian hợp lý. Bạn có thể xem các phương pháp tiếp cận mà chúng tôi đang tập trung vào bằng cách truy cập trang điểm chuẩn .

Các khung hiện có để đánh giá EQ và sự đồng cảm của AI

Một số khung đã được đề xuất để đánh giá AI EQ và sự đồng cảm. Mỗi cái đều xứng đáng được phân tích và đăng bài blog riêng, vì vậy tôi chỉ liệt kê một vài cái ở đây:

  1. EQ-Bench: Điểm chuẩn trí tuệ cảm xúc cho các mô hình ngôn ngữ lớn
  2. Thang đo đồng cảm trong giao tiếp giữa người và máy tính (ESHCC)
  3. iEval: Khung đánh giá tương tác cho các Chatbot đồng cảm trong miền mở


Cách tiếp cận mới

Chúng tôi đã bắt đầu xác định một số thử nghiệm nhằm giải quyết những thiếu sót được xác định trong việc sử dụng các thử nghiệm tiêu chuẩn của con người và khung AI hiện có. Một phát hiện thú vị dẫn đến việc tạo ra EQ-D (Chỉ số cảm xúc cho chiều sâu) là không có LLM nào được thử nghiệm xác định được những cảm xúc cốt lõi nếu chúng không rõ ràng, mang tính trò chuyện hoặc lái xe. Mặt khác, khi được yêu cầu xác định cụ thể những cảm xúc cốt lõi, một số AI lại hoạt động khá tốt. Tuy nhiên, khi được cung cấp một loạt các loại cảm xúc, một số LLM mất khả năng xác định những cảm xúc cốt lõi và những loại khác hoạt động tốt hơn đáng kể, tức là họ xác định được sự hiện diện của nhiều cảm xúc hơn ở mọi cấp độ. Điều này dẫn đến việc tạo ra EQ-B (Chỉ số cảm xúc theo chiều rộng).


Trong quá trình phát triển thử nghiệm, rõ ràng là đôi khi cần có lời nhắc đưa ra Rủi ro nhắc nhở , tức là làm tăng khả năng đầu ra sẽ phụ thuộc vào lời nhắc chứ không phải AI cốt lõi. Rủi ro này có thể làm mất hiệu lực hoặc không làm mất hiệu lực các so sánh với con người và có thể hợp pháp ở cấp độ ứng dụng. Ở cấp độ LLM thô, việc so sánh AI này với AI khác có vẻ không quan trọng miễn là lời nhắc được sử dụng trong tất cả các AI được thử nghiệm và không thiên vị cho một AI cụ thể. Các thiết kế hiện tại cho EQ-DEQ-B gặp phải rủi ro này do công nghệ AI nói chung còn non nớt.


Mặc dù có một số đề xuất liên quan đến việc thử nghiệm khả năng đồng cảm của AI, nhưng chúng ta vẫn đang ở giai đoạn đầu và có cả những vấn đề đã biết và chưa biết với những phương pháp này. Có nhiều việc phải làm để giải quyết những điều đã biết:


  • các thử nghiệm hiện tại cần được đánh giá để xác định rủi ro và rủi ro được ghi lại hoặc giảm thiểu

  • các trường hợp thử nghiệm mới cần được phát triển trong bối cảnh một số thử nghiệm hiện có

  • cần phải chạy nhiều loại thử nghiệm hơn trên phạm vi AI rộng hơn


Nhưng điều chưa biết mới là điều khiến tôi tò mò nhất.


Còn bạn thì sao?


Cũng được xuất bản ở đây.