paint-brush
Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Hạn chế và tài liệu tham khảotừ tác giả@kinetograph

Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Hạn chế và tài liệu tham khảo

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu khám phá QA video không quay bằng GPT-3, vượt trội so với các mô hình được giám sát, tận dụng các bản tóm tắt tường thuật và kết hợp hình ảnh.
featured image - Phương pháp tóm tắt rồi tìm kiếm để trả lời câu hỏi bằng video dài: Hạn chế và tài liệu tham khảo
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).

Bảng liên kết

6. Hạn chế

Nghiên cứu của chúng tôi có một số hạn chế, bao gồm:


  1. Chúng tôi chỉ thử nghiệm những video có phụ đề tiếng Anh. Tuy nhiên, phương pháp của chúng tôi có thể được mở rộng để bao gồm các bối cảnh đa ngôn ngữ dựa trên mô hình ngôn ngữ đa ngôn ngữ mạnh mẽ.


  2. Yêu cầu tính toán và bộ nhớ trong phương pháp của chúng tôi là rất lớn do nó phụ thuộc nhiều vào mô hình ngôn ngữ lớn, GPT-3.


  3. Chúng tôi đánh giá Truyện dài ngắn chỉ bằng một phiên bản LLM (GPT-3) duy nhất.


Rủi ro tiềm ẩn. Việc tóm tắt bối cảnh video dài bằng GPT-3 tiềm ẩn những rủi ro đạo đức liên quan đến tính chất mở của mô hình ngôn ngữ. GPT-3 có thể (a) tạo ảo giác về sự thật giả mạo về nội dung, (b) tạo ra những phát ngôn độc hại hoặc (c) ngầm đưa những thành kiến xã hội vào phần tóm tắt và khả năng trả lời.

Người giới thiệu

[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, và những người khác. Các mô hình ngôn ngữ là những người học ít lần. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 33:1877–1901, 2020.


[2] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee và Byoung-Tak Zhang. DramaQA: hiểu câu chuyện video lấy nhân vật làm trung tâm với qa phân cấp. bản in trước arXiv arXiv:2005.03356, 2020.


[3] Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Minsu Lee và Byoung-Tak Zhang. Dramaqa: Hiểu câu chuyện video lấy nhân vật làm trung tâm với qa phân cấp. Trong Kỷ yếu của Hội nghị AAAI về Trí tuệ nhân tạo, tập 35, trang 1166–1174, 2021.


[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang và Heng Huang. Mô hình chú ý đa phương thức nâng cao trí nhớ không đồng nhất để trả lời câu hỏi bằng video. Trong Kỷ yếu của hội nghị IEEE/CVF về thị giác máy tính và nhận dạng mẫu, trang 1999–2007, 2019.


[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang và Zichen Liu. Màu tím: Bộ chuyển đổi ngôn ngữ video từ đầu đến cuối với mô hình mã thông báo hình ảnh được che giấu. bản in trước arXiv arXiv:2111.12681, 2021.


[6] Jiyang Gao, Runzhou Ge, Kan Chen và Ram Nevatia. Mạng đồng bộ nhớ chuyển động xuất hiện để trả lời câu hỏi video. Trong Kỷ yếu của Hội nghị IEEE về Thị giác máy tính và Nhận dạng mẫu, trang 6576–6585, 2018.


[7] Philip John Gorinski và Mirella Lapata. Tóm tắt kịch bản phim dưới dạng trích xuất cảnh dựa trên biểu đồ. Trong NAACL, 2015.


[8] Bành Thành Hà, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao và Xuedong Huang. Z-code++: Mô hình ngôn ngữ được đào tạo trước được tối ưu hóa để tóm tắt trừu tượng. ArXiv, abs/2208.09770, 2022.


[9] Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim và Gunhee Kim. Tgif-qa: Hướng tới lý luận không gian-thời gian trong việc trả lời câu hỏi bằng hình ảnh. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 2758–2766, 2017.


[10] Bhavan Jasani, Rohit Girdhar và Deva Ramanan. Chúng ta có đang hỏi đúng câu hỏi trong movieqa không? Trong Kỷ yếu của Hội thảo Quốc tế IEEE/CVF về Hội thảo Thị giác Máy tính, trang 0–0, 2019.


[11] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim và Chang D Yoo. Mạng bộ nhớ chú ý tiến bộ để trả lời câu hỏi về câu chuyện phim. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, trang 8337–8346, 2019.


[12] Junyeong Kim, Minuk Ma, Kyungsu Kim, Sungjin Kim và Chang D Yoo. Mạng bộ nhớ chú ý tiến bộ để trả lời câu hỏi về câu chuyện phim. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, trang 8337–8346, 2019.


[13] Kyung-Min Kim, Min-Oh Heo, Seong-Ho Choi và Byoung-Tak Zhang. Deepstory: câu chuyện video qa của mạng bộ nhớ nhúng sâu. Trong Kỷ yếu Hội nghị chung quốc tế về trí tuệ nhân tạo lần thứ 26, trang 2016–2022, 2017.


[14] Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang và Nojun Kwak. Đào tạo trước tự giám sát và học cách trình bày tương phản cho video trắc nghiệm qa. Trong AAAI, 2021.


[15] Myungji Lee, Hong-Seok Kwon, Jaehun Shin, WonKee Lee, Baikjin Jung và JongHyeok Lee. Tóm tắt kịch bản dựa trên máy biến áp bằng cách sử dụng biểu diễn học tập tăng cường với thông tin hội thoại. Tại NUSE, năm 2021.


[16] Jie Lei, Lichen Yu, Mohit Bansal và Tamara L Berg. Tvqa: Trả lời câu hỏi bằng video được bản địa hóa, tổng hợp. Trong EMNLP, 2018.


[17] Jie Lei, Lichen Yu, Tamara L Berg, và Mohit Bansal. Tvqa+: Nền tảng không gian-thời gian cho việc trả lời câu hỏi qua video. Trong Báo cáo Công nghệ, arXiv, 2019.


[18] Junnan Li, Dongxu Li, Caiming Xiong và Steven Hoi. Blip: Đào tạo trước hình ảnh ngôn ngữ khởi động để hiểu và tạo ra ngôn ngữ thị giác thống nhất. Trong ICML, 2022.


[19] Chin-Yew Lin. ROUGE: Gói đánh giá tự động các bản tóm tắt. Trong Tóm tắt văn bản phân nhánh ra, trang 74–81, Barcelona, Tây Ban Nha, tháng 7 năm 2004. Hiệp hội Ngôn ngữ học tính toán. URL https://aclanthology.org/W04-1013.


[20] Chao-Ning Liu, Ding-Jie Chen, Hwann-Tzong Chen, và Tyng-Luh Liu. A2a: Chú ý đến sự chú ý suy luận khi trả lời câu hỏi về phim. Trong Thị giác máy tính–ACCV 2018: Hội nghị châu Á lần thứ 14 về Thị giác máy tính, Perth, Úc, ngày 2–6 tháng 12 năm 2018, Các tài liệu chọn lọc đã sửa đổi, Phần VI 14, trang 404–419. Mùa xuân, 2019.


[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong và Hanqing Lu. Mạng tích chập thời gian phân cấp kép với chuẩn hóa động nhận biết qa để trả lời câu hỏi câu chuyện video. Trong Kỷ yếu của Hội nghị Quốc tế ACM về Đa phương tiện lần thứ 28, trang 4253–4261, 2020.


[22] Seil Na, Sangho Lee, Jisung Kim và Gunhee Kim. Mạng bộ nhớ đọc-ghi để hiểu câu chuyện phim. Trong Kỷ yếu của Hội nghị Quốc tế IEEE về Thị giác Máy tính, trang 677–685, 2017.


[23] Pinelopi Papalampidi, Frank Keller và Mirella Lapata. Phân tích cốt truyện phim thông qua nhận dạng bước ngoặt. Trong Kỷ yếu của Hội nghị về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên năm 2019 và Hội nghị chung quốc tế lần thứ 9 về xử lý ngôn ngữ tự nhiên (EMNLP-IJCNLP), tháng 11 năm 2019.


[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann và Mirella Lapata. Tóm tắt kịch bản sử dụng cấu trúc tường thuật tiềm ẩn. Trong Hội nghị thường niên của Hiệp hội Ngôn ngữ học tính toán năm 2020.


[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, và những người khác. Học các mô hình trực quan có thể chuyển đổi từ giám sát ngôn ngữ tự nhiên. Trong Hội nghị quốc tế về học máy, trang 8748–8763. PMLR, 2021.


[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville và Bernt Schiele. Mô tả phim. IJCV, 2017.


[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun và Sanja Fidler. Movieqa: Tìm hiểu câu chuyện trong phim thông qua việc trả lời câu hỏi. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 4631–4640, 2016.


[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum, và Chuang Gan. Ngôi sao: Điểm chuẩn cho khả năng suy luận theo vị trí trong các video trong thế giới thực. Trong Hội nghị lần thứ 35 về Bộ dữ liệu và điểm chuẩn của hệ thống xử lý thông tin thần kinh (Vòng 2), 2021.


[29] Junbin Xiao, Xindi Shang, Angela Yao và Tat-Seng Chua. Next-qa: Giai đoạn tiếp theo của việc trả lời câu hỏi để giải thích các hành động tạm thời. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu, trang 9777–9786, 2021.


[30] Dejing Xu, Chu Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He, và Yueting Zhuang. Trả lời câu hỏi bằng video thông qua việc chú ý dần dần đến hình thức và chuyển động. Trong Kỷ yếu của hội nghị quốc tế ACM về Đa phương tiện lần thứ 25, trang 1645–1653, 2017.


[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, và Cordelia Schmid. Chỉ cần hỏi: Học cách trả lời câu hỏi từ hàng triệu video tường thuật. Trong Kỷ yếu của Hội nghị Quốc tế IEEE/CVF về Thị giác Máy tính, trang 1686–1697, 2021.


[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zichen Liu, và Lijuan Wang. Một nghiên cứu thực nghiệm về gpt-3 cho vqa dựa trên kiến thức trong vài lần bắn. bản in trước arXiv arXiv:2109.05014, 2021.


[33] Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi và Yejin Choi. Merlot: Mô hình kiến thức kịch bản thần kinh đa phương thức. Trong M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang, và J. Wortman Vaughan, biên tập viên, Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, tập 34, trang 23634–23651. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.


[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi và Yejin Choi. Dự trữ Merlot: Kiến thức về chữ viết thần kinh thông qua hình ảnh, ngôn ngữ và âm thanh. Trong Kỷ yếu của Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu (CVPR), 2022.


[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, và những người khác. Các mô hình Socrates: Soạn thảo lý luận đa phương thức bằng ngôn ngữ. 2022.


[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles và Min Sun. Tận dụng mô tả video để tìm hiểu cách trả lời câu hỏi bằng video. Trong Kỷ yếu Hội nghị AAAI về Trí tuệ nhân tạo, tập 31, 2017.


[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh và Peter Liu. Pegasus: Huấn luyện trước bằng cách trích xuất các câu còn chỗ trống để tóm tắt một cách trừu tượng. Trong Hội nghị quốc tế về học máy, trang 11328–11339. PMLR, 2020.


[38] Chu Triệu, Jinghao Lin, Xinghua Jiang, Đặng Cai, Xiaofei He, và Yueting Zhuang. Trả lời câu hỏi bằng video thông qua mạng lưới chú ý cấp độ kép phân cấp. Trong Kỷ yếu của hội nghị quốc tế ACM về Đa phương tiện lần thứ 25, trang 1050–1058, 2017.