paint-brush
দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: উপসংহারদ্বারা@kinetograph
262 পড়া

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: উপসংহার

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।
featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: উপসংহার
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

5। উপসংহার

আমরা লং স্টোরি শর্ট প্রবর্তন করেছি, একটি সারসংক্ষেপ-পরে অনুসন্ধান পদ্ধতি যা গ্লোবাল ন্যারেটিভ এবং ভিডিও ন্যারেটিভ QA-এর প্রাসঙ্গিক বিশদ উভয়ই বোঝার জন্য। আমাদের পদ্ধতি কার্যকর হয় যখন QA-এর প্রেক্ষাপট বিস্তৃত হয় এবং উল্লিখিত QA সমাধানের জন্য এই ধরনের প্রেক্ষাপটের সাথে একটি উচ্চ-স্তরের মিথস্ক্রিয়া প্রয়োজন, যা দীর্ঘ ভিডিও QA-এর ক্ষেত্রে হয়। এছাড়াও, আমরা CLIPCcheck-এর সাথে পোস্ট-চেকিং ভিজ্যুয়াল অ্যালাইনমেন্টের মাধ্যমে মডেল-উত্পন্ন উত্তরের ভিজ্যুয়াল গ্রাউন্ডিংকে আরও উন্নত করার প্রস্তাব করছি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ বেঞ্চমার্কগুলিতে তত্ত্বাবধানে অত্যাধুনিক পদ্ধতির উন্নতি করে। আমরা কোড এবং জেনারেট করা প্লট ডেটা জনসাধারণের কাছে প্রকাশ করার পরিকল্পনা করছি।


এই কাজের বাইরেও দুটি সম্ভাব্য গবেষণা নির্দেশনা রয়েছে: প্রথমত, চরিত্র পুনঃশনাক্তকরণ এবং সহ-রেফারেন্স রেজোলিউশন সহ গল্পের সাথে আরও ভালভাবে সারিবদ্ধ ভিজ্যুয়াল বর্ণনা প্রদান করে GPT-3-এ ইনপুট গুণমান উন্নত করে। দ্বিতীয়ত, কেউ একটি আরও গতিশীল মাল্টি-হপ অনুসন্ধান তৈরি করতে পারে যা একটি শ্রেণিবদ্ধ পদ্ধতিতে বিশ্বব্যাপী এবং স্থানীয় তথ্যকে একত্রিত করে।