paint-brush
Lập hồ sơ đa cấp về Mạng sâu dựa trên tình huống và đối thoại: Bộ dữ liệu EMTDtừ tác giả@kinetograph

Lập hồ sơ đa cấp về Mạng sâu dựa trên tình huống và đối thoại: Bộ dữ liệu EMTD

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu đề xuất một khung đa phương thức để phân loại thể loại phim, sử dụng các tính năng tình huống, hội thoại và siêu dữ liệu.
featured image - Lập hồ sơ đa cấp về Mạng sâu dựa trên tình huống và đối thoại: Bộ dữ liệu EMTD
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;

(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.

Bảng liên kết

3. Bộ dữ liệu EMTD

Các bộ dữ liệu trong tài liệu trước đây thiếu sự thống nhất về thể loại phim. Do đó, chúng tôi đề xuất EMTD (Bộ dữ liệu đoạn giới thiệu phim tiếng Anh) bao gồm khoảng 2000 đoạn giới thiệu phim Hollywood độc đáo được tải xuống từ IMDB1. EMTD chứa 2000 trailer độc đáo thuộc 5 thể loại: hành động, hài, kinh dị, lãng mạn, khoa học viễn tưởng. Tập dữ liệu được trích xuất từ IMDB bằng quy trình loại bỏ web như sau: (1) tìm nạp danh sách các tựa phim có sẵn trên IMDB (với ít nhất 1 thể loại chung cho một thể loại được đề cập ở trên), (2) loại bỏ siêu dữ liệu tương ứng với từng tiêu đề phim bao gồm cả đoạn giới thiệu liên kết để tải xuống và (3) tải các đoạn giới thiệu (.mp4) tương ứng với liên kết vào một thư mục và liệt kê tất cả các thông tin/siêu dữ liệu về phim bao gồm tên đoạn giới thiệu, mô tả, cốt truyện, từ khóa và thể loại dưới dạng một tệp CSV. Trong công việc này, tập dữ liệu được phân chia thành tập huấn luyện (1700 đoạn giới thiệu), tập xác thực (300 đoạn giới thiệu) như trong Bảng 1.


Nghiên cứu chỉ được thực hiện với các thể loại trên vì hầu hết các thể loại này đều được quan sát thấy trong phim. Trước tiên, chúng tôi cũng muốn khám phá hiệu suất của kiến trúc trên một nhóm nhỏ các thể loại, vì vậy, chúng tôi chỉ chọn 5 thể loại thay vì hướng tới một nhóm thể loại rộng lớn.


Bảng 1: Thành phần tập dữ liệu


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.