tác giả:
(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;
(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.
Phân loại thể loại phim tự động đã nổi lên như một lĩnh vực nghiên cứu và khám phá tích cực và thiết yếu. Đoạn giới thiệu phim có thời lượng ngắn cung cấp những hiểu biết hữu ích về bộ phim vì nội dung video bao gồm các đặc điểm về mức độ nhận thức và tình cảm. Các phương pháp tiếp cận trước đây tập trung vào phân tích nội dung nhận thức hoặc cảm xúc. Trong bài viết này, chúng tôi đề xuất một khung phân loại thể loại phim dựa trên tình huống, đối thoại và siêu dữ liệu mới, có tính đến cả các đặc điểm dựa trên nhận thức và cảm xúc. Khung dựa trên sự kết hợp có sẵn các tính năng có tính đến: các tính năng dựa trên tình huống từ ảnh chụp nhanh thông thường của đoạn giới thiệu bao gồm danh từ và động từ cung cấp ánh xạ dựa trên cảm xúc hữu ích với các thể loại tương ứng, tính năng dựa trên hội thoại (lời nói) từ âm thanh, siêu dữ liệu cùng nhau cung cấp thông tin liên quan để phân tích video dựa trên nhận thức và tác động. Chúng tôi cũng phát triển tập dữ liệu về đoạn giới thiệu phim bằng tiếng Anh (EMTD), bao gồm 2000 đoạn giới thiệu phim Hollywood thuộc 5 thể loại phổ biến: Hành động, Lãng mạn, Hài kịch, Kinh dị và Khoa học viễn tưởng, đồng thời thực hiện xác thực chéo trên tập dữ liệu LMTD-9 tiêu chuẩn để xác thực. khuôn khổ được đề xuất. Kết quả chứng minh rằng phương pháp đề xuất để phân loại thể loại phim đã hoạt động xuất sắc như được mô tả bằng điểm F1, độ chính xác, khả năng thu hồi và diện tích dưới các đường cong thu hồi chính xác.
Từ khóa: Phân loại thể loại phim, Mạng thần kinh chuyển đổi, tập dữ liệu trailer phim tiếng Anh, phân tích dữ liệu đa phương thức.
Phim ảnh là nguồn giải trí tuyệt vời cho khán giả, tác động đến xã hội theo nhiều cách. Việc xác định thể loại phim theo cách thủ công có thể khác nhau tùy theo sở thích của mỗi cá nhân. Do đó, dự đoán thể loại phim tự động là một lĩnh vực nghiên cứu và khám phá tích cực. Đoạn giới thiệu phim đang trở thành nguồn thông tin hữu ích để dự đoán thể loại phim. Chúng cung cấp những hiểu biết hữu ích về bộ phim trong một khoảng thời gian rất ngắn. Đoạn giới thiệu phim bao gồm hai loại nội dung: nội dung nhận thức và nội dung tình cảm.
Nội dung nhận thức mô tả thành phần của các sự kiện, đồ vật và con người trong một khung hình video cụ thể của đoạn giới thiệu phim, trong khi Nội dung cảm xúc mô tả các loại đặc điểm tâm lý như tình cảm hoặc cảm xúc trong đoạn giới thiệu phim [1]. Ví dụ về nội dung nhận thức bao gồm sân chơi, tòa nhà, người đàn ông, con chó, v.v. Ví dụ về nội dung tình cảm là cảm giác/cảm xúc như vui, buồn, tức giận, v.v. Cả nội dung dựa trên nhận thức và cảm xúc đều cung cấp các tính năng nổi bật để dự đoán các thể loại của phim.
Trong bài viết này, chúng tôi đề xuất một khung phân loại thể loại phim dựa trên siêu dữ liệu, hội thoại và tình huống đa phương thức mới, nhằm mục đích dự đoán các thể loại phim bằng cách sử dụng nội dung video, âm thanh và siêu dữ liệu (cốt truyện/mô tả) của đoạn giới thiệu phim. Khung công tác mới của chúng tôi tập trung vào việc trích xuất cả đặc điểm nhận thức và cảm xúc từ đoạn giới thiệu phim. Để đạt được điều này, một câu (được tạo từ các tình huống) bao gồm các danh từ và động từ có liên quan sẽ được trích xuất từ khung hình video. Danh từ cung cấp thông tin liên quan về nội dung nhận thức của đoạn giới thiệu và động từ cung cấp ánh xạ dựa trên cảm xúc hữu ích với các thể loại tương ứng. Ví dụ: các động từ như cười, cười khúc khích, cù lét, v.v. cung cấp bản đồ dựa trên cảm xúc với thể loại 'hài kịch'. Các động từ như tấn công, đánh, đánh, v.v. cung cấp sự ánh xạ dựa trên cảm tính với thể loại 'hành động'. Cùng với các tình huống, các tính năng đối thoại và dựa trên siêu dữ liệu cũng đóng góp vào nội dung nhận thức và tình cảm vì chúng bao gồm các mô tả sự kiện (nội dung nhận thức) và các đặc điểm tâm lý (nội dung tình cảm).
Giống như quy trình học máy tiêu chuẩn, công việc được thực hiện theo nhiều giai đoạn. Giai đoạn 1 là giai đoạn tạo tập dữ liệu, trong đó chúng tôi tạo EMTD, chứa 2000 đoạn giới thiệu phim Hollywood thuộc 5 thể loại phổ biến: Hành động, Lãng mạn, Hài kịch, Kinh dị và Khoa học viễn tưởng. Giai đoạn thứ 2 liên quan đến việc xử lý trước các đoạn giới thiệu video trong đó tất cả các khung hình lặp lại sẽ bị xóa và thay đổi kích thước. Các câu chứa danh từ, động từ quan trọng được trích từ các khung hữu ích. Chúng tôi cũng chuẩn bị bản ghi âm của đoạn giới thiệu phim để lấy lời thoại từ đoạn giới thiệu. Trong giai đoạn thứ 3, chúng tôi thiết kế và đào tạo kiến trúc được đề xuất, kiến trúc này trích xuất và tìm hiểu các tính năng quan trọng từ các đoạn giới thiệu. Cuối cùng, trong giai đoạn 4, hiệu suất của kiến trúc đề xuất của chúng tôi được đánh giá bằng cách sử dụng số liệu Vùng dưới Đường cong PrecisionRecall (AU (PRC)). Sau đây là những đóng góp đáng kể trong công việc của chúng tôi:
Chúng tôi đề xuất một EMTD mới (Bộ dữ liệu đoạn giới thiệu phim tiếng Anh) chứa các đoạn giới thiệu phim Hollywood bằng tiếng Anh thuộc năm thể loại phổ biến và khác biệt: Hành động, Lãng mạn, Hài kịch, Kinh dị và Khoa học viễn tưởng.
Công trình này đề xuất một cách tiếp cận mới để dự đoán thể loại phim bằng cách sử dụng các đặc điểm dựa trên nhận thức và cảm xúc. Không có tài liệu nào trước đây tập trung vào sự kết hợp giữa hội thoại, tình huống và các tính năng dựa trên siêu dữ liệu được trích xuất từ đoạn giới thiệu phim theo hiểu biết tốt nhất của chúng tôi. Do đó, chúng tôi thực hiện: phân tích dựa trên tình huống bằng cách sử dụng danh từ và động từ, phân tích dựa trên hội thoại bằng cách sử dụng nhận dạng giọng nói và phân tích dựa trên siêu dữ liệu với siêu dữ liệu có sẵn trong đoạn giới thiệu.
Kiến trúc đề xuất cũng được đánh giá bằng cách thực hiện thử nghiệm tập dữ liệu chéo trên tập dữ liệu LMTD-9 [2] tiêu chuẩn. Kết quả cho thấy kiến trúc được đề xuất đã hoạt động xuất sắc và thể hiện hiệu suất vượt trội của framework.
Phần còn lại của bài viết được tổ chức như sau: Trong Phần 2, các tài liệu trước đây về phân loại thể loại phim được xem xét và nhấn mạnh động lực đằng sau công việc đề xuất. Trong Phần 3, chúng tôi thảo luận về EMTD được đề xuất. Trong Phần 4, chúng tôi cung cấp mô tả chi tiết về kiến trúc được đề xuất. Trong Phần 5, chúng tôi đánh giá hiệu suất của khung được đề xuất và xác thực nó dựa trên hai bộ dữ liệu khác nhau. Bài viết được kết luận ở Phần 6.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.