paint-brush
Lập hồ sơ đa cấp về tình huống và mạng lưới sâu dựa trên đối thoại: Kết luận và tài liệu tham khảotừ tác giả@kinetograph

Lập hồ sơ đa cấp về tình huống và mạng lưới sâu dựa trên đối thoại: Kết luận và tài liệu tham khảo

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu đề xuất một khung đa phương thức để phân loại thể loại phim, sử dụng các tính năng tình huống, hội thoại và siêu dữ liệu.
featured image - Lập hồ sơ đa cấp về tình huống và mạng lưới sâu dựa trên đối thoại: Kết luận và tài liệu tham khảo
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;

(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.

Bảng liên kết

6. Kết luận

Công trình này mở rộng ý tưởng về một cách tiếp cận tổng thể mới lạ đối với vấn đề phân loại thể loại phim bao gồm các cấp độ cảm xúc và nhận thức bằng cách xem xét nhiều phương thức, bao gồm tình huống từ khung hình, đối thoại từ lời nói và siêu dữ liệu (cốt truyện và mô tả phim). Chúng tôi cũng đã xây dựng tập dữ liệu EMTD về đoạn giới thiệu phim của Hollywood bằng tiếng Anh, bao gồm khoảng 2000 đoạn giới thiệu thuộc 5 thể loại là hành động, hài, kinh dị, lãng mạn, khoa học viễn tưởng để theo đuổi nghiên cứu này. Chúng tôi đã thử nghiệm các kiến trúc mô hình khác nhau như được thảo luận trong Phần 5.2 và cũng xác nhận khuôn khổ cuối cùng của chúng tôi về EMTD và trên tiêu chuẩn LMTD-9 [2] đạt được giá trị AU (PRC) lần lượt là 0,92 và 0,82. Mục đích chính của nghiên cứu của chúng tôi là xây dựng một khuôn khổ vững chắc để phân loại thể loại phim từ đoạn phim ngắn, tức là đoạn giới thiệu. Mặc dù nghiên cứu của chúng tôi bao gồm tính năng nói tiếng Anh nhưng nó cũng có thể được áp dụng cho một số đoạn giới thiệu không phải tiếng Anh. Đối với những mô hình không phải tiếng Anh, mô hình của chúng tôi chỉ có thể kết hợp các tính năng video, do đó, trên cơ sở đó, kiến trúc của chúng tôi có thể đưa ra dự đoán.


Để mở rộng mô hình đề xuất của chúng tôi, các nghiên cứu âm thanh nền dựa trên giọng hát cũng có thể được kết hợp. Do đó, trong tương lai, chúng tôi dự định xây dựng một khung xem xét giọng hát nền trong âm thanh cùng với khung hiện tại để trích xuất và sử dụng tốt hơn hầu hết các tính năng từ đoạn giới thiệu phim. Chúng tôi cũng có kế hoạch bổ sung thêm một số thể loại vào nghiên cứu của mình để phân loại nhiều nhãn.

7. Tài liệu tham khảo

[1] A. Hanjalic và LQ Xu, “Trình bày và mô hình hóa nội dung video có cảm xúc,” IEEE Trans. Multimed., tập. 7, không. 1, 2005.


[2] J. Wehrmann và RC Barros, “Sự kết hợp theo thời gian để phân loại thể loại phim nhiều nhãn,” trong Kỷ yếu của Hội nghị chuyên đề ACM về Máy tính ứng dụng, 2017, tập. Phần F1280, trang 114–119.


[3] Z. Rasheed, Y. Sheikh và M. Shah, “Về việc sử dụng các tính năng tính toán để phân loại phim,” IEEE Trans. Hệ thống mạch Công nghệ video, tập. 15, không. 1, trang 52–64, tháng 1 năm 2005.


[4] LH Chen, YC Lai và HY Mark Liao, “Phân đoạn cảnh phim bằng cách sử dụng thông tin cơ bản,” Nhận dạng mẫu, tập. 41, không. 3, 2008.


[5] SK Jain và RS Jadon, “Bộ phân loại thể loại phim sử dụng mạng thần kinh,” 2009.


[6] L. Canini, S. Benini và R. Leonardi, “Đề xuất ảnh hưởng về phim dựa trên các đặc điểm hàm ý đã chọn,” IEEE Trans. Hệ thống mạch Công nghệ video, tập. 23, không. 4, 2013.


[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo và Y. Rui, “Phân tích nội dung tình cảm theo cấp bậc trong các chiều kích thích và hóa trị,” Xử lý tín hiệu, tập. 93, không. ngày 8 tháng 8 năm 2013.


[8] A. Yadav và DK Vishwakarma, “Một khuôn khổ thống nhất của các mạng sâu để phân loại thể loại bằng cách sử dụng đoạn giới thiệu phim,” Appl. Máy tính mềm. J., tập. 96, 2020.


[9] K. Choroś, “Phân loại thể loại video dựa trên phân tích độ dài của các cảnh quay video tổng hợp theo thời gian,” trong Ghi chú Bài giảng về Khoa học Máy tính (bao gồm các chuỗi phụ Ghi chú Bài giảng về Trí tuệ Nhân tạo và Ghi chú Bài giảng về Tin sinh học), 2018, tập. 11056 LNAI, trang 509–518.


[10] AM Ertugrul và P. Karagoz, “Phân loại thể loại phim từ tóm tắt cốt truyện bằng LSTM hai chiều,” trong Kỷ yếu - Hội nghị quốc tế IEEE lần thứ 12 về tính toán ngữ nghĩa, ICSC 2018, 2018, tập. 2018-tháng 1.


[11] G. Païs, P. Lambert, D. Beauchene, F. Deloule và B. Ionescu, “Phát hiện thể loại phim hoạt hình bằng cách sử dụng sự kết hợp mang tính biểu tượng của các bộ mô tả văn bản và hình ảnh,” 2012.


[12] A. Shahin và A. Krzyżak, “Thể loại: Máy dò thể loại phim,” trong Truyền thông trong Khoa học Thông tin và Máy tính, 2020, tập. 1178 CCIS.


[13] N. Kumar, A. Harikrishnan và R. Sridhar, “Nhận dạng thể loại phim dựa trên Hash Vectorizer,” trong Ghi chú bài giảng về Kỹ thuật điện, 2020, tập. 605.


[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan và MN Doja, “Phân loại thể loại đoạn giới thiệu phim sử dụng Mạng thần kinh chuyển đổi 3D,” 2020.


[15] WT Chu và HJ Guo, “Phân loại thể loại phim dựa trên hình ảnh áp phích với mạng lưới thần kinh sâu,” 2017.


[16] GS Simões, J. Wehrmann, RC Barros và DD Ruiz, “Phân loại thể loại phim với Mạng thần kinh chuyển đổi,” trong Kỷ yếu của Hội nghị chung quốc tế về Mạng thần kinh, 2016, tập. 2016-Tháng 10.


[17] J. Li, L. Deng, R. Haeb-Umbach và Y. Gong, “Chương 2 - Các nguyên tắc cơ bản của nhận dạng giọng nói,” trong Nhận dạng giọng nói tự động mạnh mẽ, J. Li, L. Deng, R. HaebUmbach, và Y. Gong, Eds. Oxford: Nhà xuất bản Học thuật, 2016, trang 9–40.


[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi và A. Kembhavi, “Nhận dạng tình huống có căn cứ,” trong Thị giác máy tính -- ECCV 2020, 2020, trang 314–332.


[19] B. Beel, Joeran và Langer, Stefan và Gipp, “TF-IDuF: Một phương pháp tính trọng số thuật ngữ mới để lập mô hình người dùng dựa trên Bộ sưu tập tài liệu cá nhân của người dùng,” Proc. iConference 2017, 2017.


[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula và DD Ruiz, “Học (Sâu) từ Khung,” 2017.


[21] DP Kingma và JL Ba, “Adam: Phương pháp tối ưu hóa ngẫu nhiên,” 2015.


[22] E. Fish, A. Gilbert và J. Weinbren, “Suy nghĩ lại việc phân loại thể loại phim với phân cụm ngữ nghĩa chi tiết,” arXiv Prepr. arXiv2012.02639, 2020.


[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez và G. Cisneros, “Về ảnh hưởng của các đặc điểm hình ảnh cấp thấp trong phân loại phim,” PLoS One, tập. 14, không. 2, 2019.


[24] J. Wehrmann, MA Lopes và RC Barros, “Tự chú ý đến việc phân loại thể loại phim đa nhãn dựa trên tóm tắt,” 2018.


[25] J. Wehrmann và RC Barros, “Phân loại thể loại phim: Cách tiếp cận đa nhãn dựa trên sự kết hợp theo thời gian,” Appl. Máy tính mềm. J., tập. 61, 2017.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...