Chúng tôi có thể thực sự phát hiện văn bản do AI tạo từ ChatGPT và các LLM khác không?

Các mô hình ngôn ngữ lớn (LLM) như GPT-3 đã nhanh chóng trở thành một trong những tiến bộ công nghệ quan trọng nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP).

LLM đã chứng minh tiềm năng đáng kể để hỗ trợ trong nhiều nhiệm vụ, bao gồm dịch ngôn ngữ, tóm tắt văn bản, trả lời câu hỏi, truy xuất thông tin, công cụ đề xuất, rô-bốt dựa trên ngôn ngữ và nhiều nhiệm vụ khác.

Mặc dù các Mô hình ngôn ngữ lớn (LLM) như ChatGPT đã cho thấy hiệu suất vượt trội trong các nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau, nhưng việc sử dụng sai tiềm năng của chúng làm dấy lên mối lo ngại về đạo đức cần phải được giải quyết . Với khả năng tạo văn bản mạch lạc và phù hợp với ngữ cảnh, LLM có thể được sử dụng để sản xuất tin tức giả mạo hoặc lan truyền thông tin sai lệch, điều này có thể gây ra hậu quả nghiêm trọng đối với xã hội.

Việc lạm dụng như vậy có thể dẫn đến sự xói mòn niềm tin vào các phương tiện truyền thông và nhận thức sai lệch về thực tế. Ngoài ra, LLM có thể được sử dụng để đạo văn, trộm cắp tài sản trí tuệ hoặc các thế hệ đánh giá sản phẩm giả mạo, điều này có thể khiến người tiêu dùng hiểu lầm và tác động tiêu cực đến doanh nghiệp. Hơn nữa, khả năng LLM thao túng nội dung web cho các mục đích xấu, chẳng hạn như tạo tài khoản mạng xã hội giả mạo hoặc gây ảnh hưởng đến các cuộc thảo luận trực tuyến, có thể gây ra những tác động tai hại đối với dư luận và diễn ngôn chính trị.

Với mối quan tâm ngày càng tăng, có lẽ đã đến lúc đặt câu hỏi:

Chúng ta có thể phân biệt các văn bản do AI tạo ra với các văn bản do Con người tạo ra không?

Nghiên cứu trước đây & Khả năng phát hiện

Một mặt, DetectGPT từ Stanford so sánh xác suất mà một mô hình gán cho văn bản viết với xác suất sửa đổi văn bản, để phát hiện.

Mặt khác, các phương pháp tiếp cận dựa trên hình mờ do nhóm của Tom Goldstein phát triển được đề xuất để tăng khả năng phát hiện một cách hiệu quả.

Tuy nhiên, các hình mờ (không được đào tạo mạnh mẽ) đã được chứng minh là dễ bị tấn công bằng cách diễn giải và giả mạo, bởi Sadasivan et al. và Krishna et al.

Cuộc tranh luận mới nhất trong cộng đồng

Cộng đồng gần đây đã có một cuộc tranh luận sôi nổi về việc liệu các văn bản do AI tạo ra có thể được phân biệt với các văn bản do Con người tạo ra hay không, cùng với các cuộc thảo luận về việc liệu chúng ta có thất bại trong việc 'giữ lại AI' và có ngày tận thế AGI hay không vì chúng ta không thể phát hiện ra AI- nội dung được tạo ra. Các nhà lãnh đạo công nghệ thậm chí còn kêu gọi đình chỉ đào tạo mô hình ngôn ngữ lớn (LLM) trong 6 tháng.

Các nhà lãnh đạo học thuật như Yann Lecun và Andrew Ng phản đối lệnh cấm này đối với AI.

Phó chủ tịch và Nhà khoa học AI trưởng tại Meta, Yann LeCun trích dẫn,

“Tại sao lại làm chậm tiến độ của tri thức?”

Khả năng phát hiện

Trong thời điểm quan trọng này, chúng tôi nghiên cứu khả năng phát hiện các văn bản do AI tạo ra thông qua lăng kính lý thuyết thông tin. Chúng tôi cung cấp bằng chứng cho sự lạc quan: hầu như luôn có thể phát hiện trừ khi phân phối văn bản của con người và máy hoàn toàn giống nhau trên toàn bộ hỗ trợ.

Khả năng phát hiện là có thể

Khả năng phát hiện dựa trên sự đánh đổi chính xác với Thông tin Chernoff và nhiều quan sát hơn. Chúng tôi chứng minh giới hạn trên có thể đạt được của AUROC (nằm trong khoảng từ 0 đến 1, cao hơn có nghĩa là dễ phát hiện hơn) thông qua máy dò dựa trên tỷ lệ khả năng sử dụng nhiều mẫu. Khi mẫu # tăng lên, AUROC tăng theo cấp số nhân lên 1.

Thấu kính định hướng thông tin

Các kết quả lý thuyết thông tin này dựa trên một đại lượng chính được gọi là thông tin Chernoff, có thể hướng dẫn việc thiết kế hình mờ của LLM. Bằng thực nghiệm, chúng tôi đã xác minh rằng khả năng phát hiện ở cấp độ từ không thể phát hiện được có thể phát hiện được khi chuyển sang phát hiện ở cấp độ đoạn văn.

Kết quả lý thuyết

Kết quả lý thuyết thông tin này dựa trên một đại lượng chính được gọi là thông tin Chernoff, có thể hướng dẫn thiết kế Hình mờ của LLM. Chúng tôi đã lấy các giới hạn độ phức tạp của mẫu để hướng dẫn khả năng phát hiện văn bản do AI tạo.

Minh chứng thực nghiệm

Khả năng không thể phát hiện ở cấp độ từ trở nên có thể phát hiện được khi chuyển sang phát hiện ở cấp độ đoạn văn trên nhiều bộ dữ liệu. Khi chúng tôi tăng thời lượng phát hiện, độ chính xác của phát hiện ZeroShot tăng lên đáng kể.

Cuối cùng, chúng tôi tin rằng cách đúng đắn để giải quyết việc lạm dụng #LLM là khắc phục thay vì cấm chúng.

Tuy nhiên, ngay cả khi còn trẻ, tôi không thể khiến mình tin rằng nếu kiến thức gây nguy hiểm, thì giải pháp là sự thiếu hiểu biết. Đối với tôi, dường như giải pháp luôn là sự khôn ngoan. Bạn đã không từ chối nhìn vào nguy hiểm, thay vào đó bạn đã học cách xử lý nó một cách an toàn.
Isaac asimov

Lưu ý: Đây là bước đầu tiên và nghiên cứu của chúng tôi kêu gọi tiếp tục nghiên cứu để phát triển các khuôn khổ và nguyên tắc thúc đẩy đổi mới và đảm bảo sử dụng có đạo đức các công cụ mạnh mẽ này.

Cộng tác viên khách mời:

Souradip Chakraborty , Ph.D. Sinh viên tốt nghiệp tại Đại học Maryland , Amrit Singh Bedi , Nhà khoa học nghiên cứu, Đại học Maryland, Sicheng Zhu, Bang An, Dinesh Manocha và Furong Huang đang nghiên cứu khả năng phát hiện các văn bản do AI tạo ra thông qua lăng kính lý thuyết thông tin. Mọi quan điểm thể hiện trong bài viết này hoàn toàn là của các tác giả.

Bài viết này ban đầu được xuất bản bởi Souradip Chakraborty, Ph.D. Sinh viên tốt nghiệp tại Đại học Maryland, Amrit Singh Bedi, Nhà khoa học nghiên cứu, Đại học Maryland, Sicheng Zhu, Bang An, Dinesh Manocha và Furong Huang trên The Tech Panda.

Chúng tôi có thể thực sự phát hiện văn bản do AI tạo từ ChatGPT và các LLM khác không?

dài quá đọc không nổi

Chúng ta có thể phân biệt các văn bản do AI tạo ra với các văn bản do Con người tạo ra không?