paint-brush
দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকাদ্বারা@kinetograph
137 পড়া

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।
featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

বিমূর্ত

GPT-3-এর মতো বড় ভাষার মডেলগুলি টাস্ক-নির্দিষ্ট প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই নতুন কাজের সাথে খাপ খাইয়ে নেওয়ার একটি চিত্তাকর্ষক ক্ষমতা প্রদর্শন করেছে। বর্ণনামূলক প্রশ্নের উত্তর দেওয়ার মতো সেটিংসে এই ক্ষমতা বিশেষভাবে কার্যকর হয়েছে, যেখানে কাজের বৈচিত্র্য অপরিসীম, কিন্তু উপলব্ধ তত্ত্বাবধানের ডেটা ছোট। এই কাজটিতে, আমরা তদন্ত করি যে এই ধরনের ভাষার মডেলগুলি নাটক, চলচ্চিত্র এবং অ্যানিমেশনের মতো মাল্টিমিডিয়া বিষয়বস্তুতে দীর্ঘ মাল্টিমোডাল বর্ণনায় তাদের শূন্য-শট যুক্তির ক্ষমতা প্রসারিত করতে পারে, যেখানে গল্পটি একটি অপরিহার্য ভূমিকা পালন করে। আমরা লং স্টোরি শর্ট প্রস্তাব করি, বর্ণনামূলক ভিডিও QA-এর জন্য একটি কাঠামো যা প্রথমে একটি ছোট প্লটে ভিডিওটির বর্ণনাকে সংক্ষিপ্ত করে এবং তারপর প্রশ্নের সাথে প্রাসঙ্গিক ভিডিওর অংশগুলি অনুসন্ধান করে৷ আমরা CLIPCheck-এর সাথে ভিজ্যুয়াল ম্যাচিং বাড়ানোরও প্রস্তাব করছি। আমাদের মডেল অত্যাধুনিক তত্ত্বাবধানে থাকা মডেলগুলিকে বড় ব্যবধানে ছাড়িয়ে যায়, দীর্ঘ ভিডিওগুলির জন্য শূন্য-শট QA-এর সম্ভাবনাকে হাইলাইট করে৷

1। পরিচিতি

সাম্প্রতিক ভিডিও QA মডেলগুলি ডেটা এবং টীকাগুলির সীমাবদ্ধতার কারণে দীর্ঘ ভিডিও বর্ণনামূলক QA কাজগুলি [2, 13, 27] (অর্থাৎ, চলচ্চিত্র, নাটক এবং YouTube ওয়েব ভিডিও) পরিচালনা করতে চ্যালেঞ্জের মুখোমুখি হয়। এর ফলে সংক্ষিপ্ত ভিডিও ক্লিপ [16, 17, 30]-এ প্রধানত ভিজ্যুয়াল প্রশ্নের উত্তর দেওয়ার বাইরে দীর্ঘ ভিডিও বর্ণনাগুলি বোঝার অক্ষমতা হয়। এই ধরনের দীর্ঘ ভিডিও QA-এর মাপগুলি একটি ভিডিওর মধ্যে জটিল বর্ণনামূলক কাঠামো সম্পূর্ণরূপে বোঝার জন্য মডেলদের প্রশিক্ষণের জন্য অপর্যাপ্ত, উপ-অনুকূল পারফরম্যান্স প্রদান করে। [১০] দেখান যে তত্ত্বাবধানে থাকা মডেলগুলি বর্ণনামূলক প্রসঙ্গের চেয়ে প্রশ্নে ভাষার পক্ষপাতের উপর বেশি নির্ভর করে: তারা কোনো ভিডিও প্রসঙ্গ না দেখেও একই ধরনের কর্মক্ষমতা পেতে পারে। এটি ছোট টাস্ক-নির্দিষ্ট তত্ত্বাবধানের বাইরে মাল্টিমডাল যুক্তি ক্ষমতার প্রয়োজনীয়তা তুলে ধরে।


কম সাধারণীকরণের কারণে সৃষ্ট চ্যালেঞ্জ মোকাবেলা করার জন্য, একটি শূন্য-শট পদ্ধতি ব্যবহার করে প্রি-ট্রেইনড লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) জটিল QA কাজগুলি মোকাবেলা করার জন্য একটি দক্ষ বিকল্প হতে পারে [32], এবং পাঠ্য প্রসঙ্গে সংক্ষিপ্তকরণ [8, 37]। তবুও, এই ধরনের LLM-এর বর্ণনামূলক QA ক্ষমতা কি ভিডিও ডোমেনে স্থানান্তরযোগ্য?



চিত্র 1: লং স্টোরি শর্ট (এলএসএস) বড় ভাষার মডেল (এলএলএম) (অর্থাৎ, জিপিটি-3) ব্যবহার করে (ক) চিত্রনাট্য এবং সংক্ষিপ্ত (খ) ভিডিও থেকে প্লট তৈরি করতে। ডেটা প্রসেসিং সম্পর্কে আরও বিশদ বিভাগ 2 এ পাওয়া যাবে। যখন LSS ভিডিও সম্পর্কে প্রশ্নের উত্তর দেয়, মডেল (c) ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল, CLIP সহ প্রদত্ত কাঁচা ভিডিও ফুটেজ যাচাই করে এবং (d) আরও গ্রাউন্ডেড স্ক্রিপ্টগুলি একটি পশ্চাৎমুখী পদ্ধতিতে অনুসন্ধান করে, যেটিকে আমরা বিভাগ 2.3-এ CLIPcheck বলি।



আমরা লং স্টোরি শর্ট (এলএসএস) প্রস্তাব করছি, চিত্র 1-এ চিত্রিত, যা ভিডিও ক্লিপগুলিকে সক্রেটিক মডেল [৩৫] দ্বারা অনুপ্রাণিত পাঠ্য চিত্রনাট্য বিন্যাসে অনুবাদ করে। GPT-3 [1] ব্যবহার করে, আমরা প্রথমে প্লটের একটি তালিকায় দীর্ঘ ভিডিওটির সংক্ষিপ্তসার করি এবং তারপরে প্রদত্ত প্রশ্নের সমাধান করার জন্য জেনারেট করা সারাংশ এবং কাঁচা ভিডিও প্রসঙ্গ উভয়ই নেভিগেট করি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ ডেটাসেটে অত্যাধুনিক তত্ত্বাবধান করা পদ্ধতির চেয়ে ভাল ফলাফল দেখায়। তদ্ব্যতীত, আমরা CLIPCcheck প্রস্তাব করছি, একটি ভিজ্যুয়াল-টেক্সট ম্যাচিং পদ্ধতি যা GPT-3 দ্বারা প্রদত্ত যুক্তি ফলাফলের ভিজ্যুয়াল সারিবদ্ধতা উন্নত করতে। সংক্ষেপে বলতে গেলে, আমাদের প্রধান অবদান তিনগুণ:


  1. আমরা LSS উপস্থাপন করি, একটি কাঠামো যা প্লটের একটি তালিকায় একটি দীর্ঘ ভিডিও বর্ণনার সারসংক্ষেপ করে এবং প্রশ্নের সাথে প্রাসঙ্গিক সাবপ্লট পুনরুদ্ধার করে।


  2. আমরা ভিজ্যুয়াল প্রম্পটিং-এ CLIP-ভিত্তিক ম্যাচিংয়ের মাধ্যমে ভিজ্যুয়াল অ্যালাইনমেন্ট শক্তি বিবেচনা করার গুরুত্ব প্রদর্শন করি।


  3. আমাদের জিরো-শট অ্যাপ্রোচ মুভিকিউএ [২৭] এবং ড্রামাকিউএ [২]-এ অত্যাধুনিক পারফরম্যান্স অর্জন করে, তত্ত্বাবধানে বেসলাইনকে ছাড়িয়ে যায়।