Hoạt động Dự án Nghiên cứu Nâng cao Tình báo Hoa Kỳ (IARPA) đưa ra yêu cầu cung cấp thông tin (RFI) để xác định các mối đe dọa và lỗ hổng tiềm ẩn mà các mô hình ngôn ngữ lớn (LLM) có thể gây ra.
“IARPA đang tìm kiếm thông tin về các đặc điểm đã được thiết lập của các lỗ hổng và mối đe dọa có thể ảnh hưởng đến việc sử dụng an toàn các mô hình ngôn ngữ lớn (LLM) của các nhà phân tích tình báo”
Mặc dù chưa phải là một chương trình nghiên cứu chính thức, RFI của IARPA “ Đặc trưng cho các xu hướng, mối đe dọa và lỗ hổng của mô hình ngôn ngữ lớn ” nhằm mục đích “ gợi ra các khuôn khổ để phân loại và mô tả các lỗ hổng và mối đe dọa liên quan đến công nghệ LLM, đặc biệt trong bối cảnh sử dụng tiềm năng của chúng trong phân tích tình báo . ”
Nhiều lỗ hổng và các mối đe dọa tiềm ẩn đã được biết đến.
Ví dụ: bạn có thể yêu cầu ChatGPT tóm tắt hoặc đưa ra suy luận về bất kỳ chủ đề cụ thể nào và ChatGPT có thể kết hợp cơ sở dữ liệu của mình để đưa ra lời giải thích nghe có vẻ thuyết phục.
Tuy nhiên, những lời giải thích đó cũng có thể sai hoàn toàn.
Như OpenAI mô tả, “ChatGPT đôi khi viết những câu trả lời nghe có vẻ hợp lý nhưng không chính xác hoặc vô nghĩa.”
Nhưng những rủi ro do LLM gây ra vượt xa những lời giải thích vô nghĩa và bộ phận tài trợ nghiên cứu cho các cơ quan gián điệp Hoa Kỳ đang tìm cách xác định các mối đe dọa và lỗ hổng có thể chưa được đề cập đầy đủ trong " Top 10 cho LLM " được xuất bản gần đây của Quỹ OWASP.
“Tổ chức của bạn đã xác định được các mối đe dọa và lỗ hổng LLM cụ thể chưa được đặc trưng bởi các nguyên tắc phân loại trước đó chưa (xem “10 OWASP hàng đầu cho LLM”)? Nếu vậy, vui lòng cung cấp các mô tả cụ thể về từng mối đe dọa và/hoặc lỗ hổng đó và các tác động của nó”
Tuần trước, giáo sư UC Berkeley, Tiến sĩ Stuart Russell đã cảnh báo Ủy ban Tư pháp Thượng viện về một số rủi ro trong danh sách top 10 của OWASP, bao gồm Tiết lộ Thông tin Nhạy cảm, Quá phụ thuộc và Đánh cắp Mô hình.
Ví dụ: Russell đã đề cập rằng bạn có khả năng cung cấp thông tin nhạy cảm chỉ bằng các loại câu hỏi mà bạn đang hỏi; và sau đó chatbot có khả năng lấy lại thông tin nhạy cảm hoặc độc quyền thuộc về đối thủ cạnh tranh.
“ Nếu bạn đang ở trong một công ty […] và bạn muốn hệ thống giúp bạn thực hiện một số hoạt động nội bộ, thì bạn sẽ tiết lộ thông tin độc quyền của công ty cho chatbot để nó đưa ra câu trả lời bạn muốn , ”Russell làm chứng.
“ Nếu thông tin đó sau đó có sẵn cho các đối thủ cạnh tranh của bạn chỉ bằng cách hỏi ChatGPT chuyện gì đang xảy ra trong công ty đó, thì điều này thật tồi tệ ,” anh ấy nói thêm.
Nếu chúng ta lấy những gì Russell nói về việc tiết lộ thông tin công ty và áp dụng điều đó vào việc tiết lộ thông tin tình báo của Hoa Kỳ, thì chúng ta có thể bắt đầu hiểu rõ hơn về lý do IARPA đưa ra RFI hiện tại của mình.
Nhưng cũng có thể có các mối đe dọa và lỗ hổng tiềm ẩn chưa được biết đến.
Như cựu Bộ trưởng Quốc phòng Hoa Kỳ Donald Rumsfeld đã châm biếm nổi tiếng, “Có những điều đã biết. Đây là những điều chúng ta biết rằng chúng ta biết. Có những ẩn số đã biết. Điều đó có nghĩa là, có những điều mà chúng ta biết chúng ta không biết. Nhưng cũng có những ẩn số chưa biết. Có những điều chúng ta không biết là chúng ta không biết.”
Vì vậy, đối với RFI hiện tại, IARPA đang yêu cầu các tổ chức trả lời các câu hỏi sau:
Tổ chức của bạn đã xác định được các mối đe dọa và lỗ hổng LLM cụ thể không được mô tả rõ ràng bởi các nguyên tắc phân loại trước đó chưa (xem “10 OWASP hàng đầu cho LLM”)? Nếu vậy, vui lòng cung cấp các mô tả cụ thể về từng mối đe dọa và/hoặc lỗ hổng đó và các tác động của nó.
Tổ chức của bạn có khuôn khổ để phân loại và hiểu phạm vi các mối đe dọa và/hoặc lỗ hổng LLM không? Nếu vậy, vui lòng mô tả khuôn khổ này và trình bày ngắn gọn về từng mối đe dọa và/hoặc lỗ hổng và rủi ro của nó.
Tổ chức của bạn có bất kỳ phương pháp mới nào để phát hiện hoặc giảm thiểu các mối đe dọa đối với người dùng do lỗ hổng LLM gây ra không?
Tổ chức của bạn có các phương pháp mới để định lượng độ tin cậy trong kết quả LLM không?
Đầu mối liên hệ chính của RFI là Tiến sĩ Timothy McKinnon, người cũng quản lý hai chương trình nghiên cứu khác của IARPA: HIATUS và BETTER .
HIATUS [Ghi công văn bản có thể giải thích được của con người bằng cách sử dụng cấu trúc cơ bản]: tìm cách phát triển các hệ thống AI mới mà con người có thể sử dụng để quy kết quyền tác giả và bảo vệ quyền riêng tư của tác giả thông qua nhận dạng và tận dụng dấu vân tay ngôn ngữ có thể giải thích được.
TỐT HƠN [Trích xuất tốt hơn từ văn bản hướng tới truy xuất nâng cao]: nhằm mục đích phát triển khả năng cung cấp khả năng trích xuất thông tin được cá nhân hóa từ văn bản cho một nhà phân tích cá nhân trên nhiều ngôn ngữ và chủ đề.
Năm ngoái, IARPA đã thông báo rằng họ đang kết hợp chương trình Giải thích, Phân tích và Tìm nguồn cung ứng Trực tuyến Nhanh chóng ( REASON ) “để phát triển các hệ thống mới tự động tạo ra các nhận xét cho phép các nhà phân tích tình báo cải thiện đáng kể bằng chứng và lập luận trong các báo cáo phân tích của họ.”
Ngoài ra, “ REASON không được thiết kế để thay thế các nhà phân tích, viết báo cáo hoàn chỉnh hoặc để tăng khối lượng công việc của họ. Công nghệ này sẽ hoạt động trong quy trình làm việc hiện tại của nhà phân tích.
“Nó sẽ hoạt động giống như một trình kiểm tra ngữ pháp tự động nhưng tập trung vào bằng chứng và lý luận.”
Vì vậy, vào tháng 12, IARPA muốn tận dụng AI tổng quát để giúp các nhà phân tích viết báo cáo tình báo, và bây giờ vào tháng 8, bộ phận tài trợ nghiên cứu của các cơ quan gián điệp Hoa Kỳ đang xem xét những rủi ro mà các mô hình ngôn ngữ lớn có thể gây ra.
Bài viết này ban đầu được xuất bản bởi Tim Hinchliffe trên The Sociable.