tác giả:
(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.
Trong phần này, chúng tôi cung cấp chi tiết về các thành phần mô hình hóa khác nhau trong phương pháp của chúng tôi. Chúng tôi bắt đầu bằng cách cung cấp thông tin chi tiết về kiến trúc GRAPHTRAILER (Phần A.1), sau đó chuyển sang thảo luận về cách đào tạo mạng nhận dạng TP (Phần A.2) và cuối cùng cung cấp chi tiết kỹ thuật về đào tạo trước trên kịch bản phim (A.3) và luồng cảm tính được sử dụng để truyền tải biểu đồ (A.4).
Chúng tôi giải quyết những điểm không liên tục trong mô hình của mình (ví dụ: lấy mẫu top-k, chọn kích thước vùng lân cận) bằng cách sử dụng Công cụ ước tính StraightThrough [7]. Trong quá trình truyền ngược, chúng tôi tính toán độ dốc bằng thủ thuật tái tham số Gumbel-softmax [25, 32]. Quy trình tương tự được thực hiện để xây dựng và phân tán các biểu đồ cấp độ cảnh trong mạng dựa trên kịch bản phụ trợ.
Phần 3 trình bày chế độ đào tạo của chúng tôi cho mô hình dựa trên video và kịch bản phim giả sử có nhãn TP cho các cảnh (tức là nhãn nhị phân cho biết liệu một cảnh có đóng vai trò là TP trong phim hay không). Với các nhãn như vậy, mô hình của chúng tôi được đào tạo với mục tiêu mất entropy chéo nhị phân (BCE) giữa các nhãn vàng ít nóng và dự đoán TP của mạng.
Tuy nhiên, trong thực tế, tập huấn luyện của chúng tôi chứa các nhãn tiêu chuẩn bạc cho các cảnh. Cái sau được phát hành cùng với bộ dữ liệu TRIPOD [41] và được tạo tự động. Cụ thể, TRIPOD cung cấp chú thích TP tiêu chuẩn vàng cho các bản tóm tắt (không phải kịch bản phim), với giả định rằng các câu tóm tắt là đại diện cho TP. Và các chú thích ở cấp độ câu được chiếu lên các cảnh bằng mô hình phù hợp được đào tạo với giáo viên buộc [41] phải tạo nhãn tiêu chuẩn bạc.
Một trong những tiêu chí để chọn cảnh quay tiếp theo trong thuật toán duyệt đồ thị của chúng tôi (Phần 3.1) là luồng cảm xúc của đoạn giới thiệu được tạo cho đến nay. Cụ thể, chúng tôi áp dụng giả thuyết[9] rằng đoạn giới thiệu được chia thành ba phần dựa trên cường độ cảm xúc. Phần đầu tiên có cường độ trung bình để thu hút người xem, phần thứ hai có cường độ thấp để truyền tải thông tin chính về bộ phim và cuối cùng phần thứ ba thể hiện cường độ cao dần để tạo ra sự hấp dẫn và hứng thú cho bộ phim.
Theo đó, với ngân sách L các cảnh quay trong đoạn giới thiệu, chúng tôi kỳ vọng những cảnh quay L/3 đầu tiên sẽ có cường độ trung bình mà không có sự thay đổi lớn trong phần (ví dụ: chúng tôi muốn các cảnh quay có cường độ tuyệt đối trung bình gần bằng 0,7, trong đó tất cả các điểm được chuẩn hóa thành một phạm vi từ -1 đến 1). Trong phần thứ hai của đoạn giới thiệu (tức là các cảnh quay L/3 tiếp theo), chúng tôi dự đoán cường độ sẽ giảm mạnh và các cảnh quay trong phần này sẽ duy trì ít nhiều cảm xúc trung tính (tức là cường độ 0). Cuối cùng, đối với phần thứ ba (tức là lượt đánh L/3 cuối cùng), chúng tôi kỳ vọng cường độ sẽ tăng đều đặn. Trong thực tế, chúng tôi mong đợi cường độ của lần bắn đầu tiên là 0,7 (tức là cường độ trung bình), tăng 0,1 với mỗi lần bắn tiếp theo cho đến khi chúng tôi đạt đến đỉnh điểm ở lần bắn cuối cùng.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.
[9] https://www. derek-lieu . com / blog / 2017 / 9 / 10 / the - ma trận - is - a - trailer - editors-dream