Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.
tác giả:
(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.
Bảng liên kết
- Tóm tắt và giới thiệu
- Biên soạn Corpora
- Phân loại quan điểm chính trị
- Tóm tắt và kết luận
- Hạn chế và Tuyên bố về Đạo đức
- Lời cảm ơn và tài liệu tham khảo
- A. Báo chí trong OSCAR 22.01
- B. Chủ đề
- C. Phân phối chủ đề trên mỗi tờ báo
- D. Chủ đề để tạo bài viết ChatGPT và Bard
- E. Phân loại quan điểm ở cấp độ bài viết
- F. Chi tiết đào tạo
F. Chi tiết đào tạo
Bộ phân loại F.1 L/R
Chúng tôi tinh chỉnh XLM-RoBERTa lớn (Conneau và cộng sự, 2020) để phân loại L so với R như được trình bày trong Hình 1. Trình phân loại của chúng tôi là một mạng nhỏ trên RoBERTa, mạng này lần đầu tiên thực hiện loại bỏ với xác suất 0,1 trên mã thông báo [CLS] của RoBERTa, tiếp theo là một lớp tuyến tính và một tanh. Chúng tôi chuyển qua một lớp bỏ học khác với xác suất 0,1 và lớp tuyến tính cuối cùng chiếu vào hai lớp. Toàn bộ kiến trúc đã được tinh chỉnh.
Chúng tôi sử dụng tổn thất entropy chéo, trình tối ưu hóa AdamW và tốc độ học tập giảm tuyến tính. Chúng tôi điều chỉnh kích thước lô, tốc độ học tập, thời gian khởi động và số lượng kỷ nguyên. Các giá trị tốt nhất cho mỗi ngôn ngữ và mô hình được tóm tắt trong Bảng 12.
Tất cả các khóa đào tạo được thực hiện bằng GPU NVIDIA Tesla V100 Volta duy nhất với 32GB.
F.2 Mô hình hóa chủ đề
Chúng tôi sử dụng Mallet (McCallum, 2002) để thực hiện LDA trên kho văn bản sau khi loại bỏ các mật khẩu, với tùy chọn tối ưu hóa siêu tham số được kích hoạt và thực hiện sau mỗi 10 lần lặp. Các thông số khác là mặc định. Chúng tôi thực hiện một cuộc chạy cho mỗi ngôn ngữ với 10 chủ đề và một cuộc chạy khác với 15 chủ đề. Chúng tôi gắn thẻ kho văn bản bằng cả hai nhãn.