Đây là bản tóm tắt và những điều quan trọng của tôi từ
Báo cáo vấn đề:
Người dùng đưa ra một truy vấn, hãy tìm nạp Bài viết trợ giúp có liên quan nhất từ cơ sở dữ liệu.
Lặp lại 1: Giải pháp ban đầu
- Đã lập chỉ mục tất cả các bài báo trợ giúp (tài liệu) trong cơ sở dữ liệu bằng Lucene Index . Nói tóm lại, nó tạo ra một từ điển đảo ngược ánh xạ các thuật ngữ cho tất cả các tài liệu mà nó xuất hiện.
2. Truy vấn đã cho được sử dụng để tìm nạp tất cả các tài liệu có liên quan (lượt truy cập) bằng cách sử dụng lập chỉ mục Lucene.
3. Mỗi lần truy cập được tính điểm bằng cách sử dụng thuật toán BM25F , có tính đến cấu trúc tài liệu , đưa ra trọng số cao nhất cho các lần truy cập trong Tiêu đề , sau đó truy cập trong Từ khóa và sau đó là Nội dung và trả về điểm số có trọng số.
4. Trả lại những bài báo được điểm cao nhất.
Tại sao nó không thành công
Vì hệ thống truy xuất tài liệu dựa trên thuật ngữ ( cú pháp ), không tính đến ngữ nghĩa , sau đây là hai trường hợp lỗi ví dụ:
Lặp lại 2: Giải pháp cuối cùng
Bước 1: Chuẩn hóa văn bản
" Cách hủy tài khoản trả phí của tôi ngay lập tức" được chuẩn hóa thành " hủy tài khoản trả phí"
Bước 2: Ánh xạ truy vấn
Có thể xảy ra trường hợp truy vấn chuẩn hóa không có bất kỳ từ nào chung với các từ trong bài viết. Do đó, mỗi truy vấn được ánh xạ tới một truy vấn đại diện hơn để lấp đầy khoảng cách giữa thuật ngữ của người dùng và thuật ngữ của bài báo.
Thực hiện theo hai bước sau:
- Nhóm truy vấn: Các truy vấn được nhóm lại với nhau dựa trên các chỉ số tương tự
2. Khai thác chủ đề và tính điểm đại diện: Đối với mỗi truy vấn trong nhóm Truy vấn, điểm tổng được tính và K truy vấn hàng đầu được chọn làm Truy vấn đại diện
sim (RQ, Q2) là điểm giống nhau giữa truy vấn thô và một truy vấn khác trong nhóm
sim (Q2, tiêu đề) là độ tương đồng tối đa giữa Q2 và một trong các chủ đề từ tiêu đề (tương tự đối với nội dung)
Bước 3: Phân loại ý định
Các truy vấn dài có thể không có Truy vấn đại diện, trong trường hợp đó, CNN được sử dụng để phân loại Mục đích của truy vấn.
Ví dụ: “Hủy Đăng ký Đặc biệt của bạn” và “Hủy hoặc Cập nhật Đăng ký Đặc biệt đã Mua trên Thiết bị Apple của bạn” được coi là có cùng mục đích là “hủy bỏ phí bảo hiểm”.
Lưu lượng tổng thể
Cũng được xuất bản tại đây