137 পড়া

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা

দ্বারা Kinetograph: The Video Editing Technology Publication3m2024/05/26

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।

featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

বিমূর্ত

GPT-3-এর মতো বড় ভাষার মডেলগুলি টাস্ক-নির্দিষ্ট প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই নতুন কাজের সাথে খাপ খাইয়ে নেওয়ার একটি চিত্তাকর্ষক ক্ষমতা প্রদর্শন করেছে। বর্ণনামূলক প্রশ্নের উত্তর দেওয়ার মতো সেটিংসে এই ক্ষমতা বিশেষভাবে কার্যকর হয়েছে, যেখানে কাজের বৈচিত্র্য অপরিসীম, কিন্তু উপলব্ধ তত্ত্বাবধানের ডেটা ছোট। এই কাজটিতে, আমরা তদন্ত করি যে এই ধরনের ভাষার মডেলগুলি নাটক, চলচ্চিত্র এবং অ্যানিমেশনের মতো মাল্টিমিডিয়া বিষয়বস্তুতে দীর্ঘ মাল্টিমোডাল বর্ণনায় তাদের শূন্য-শট যুক্তির ক্ষমতা প্রসারিত করতে পারে, যেখানে গল্পটি একটি অপরিহার্য ভূমিকা পালন করে। আমরা লং স্টোরি শর্ট প্রস্তাব করি, বর্ণনামূলক ভিডিও QA-এর জন্য একটি কাঠামো যা প্রথমে একটি ছোট প্লটে ভিডিওটির বর্ণনাকে সংক্ষিপ্ত করে এবং তারপর প্রশ্নের সাথে প্রাসঙ্গিক ভিডিওর অংশগুলি অনুসন্ধান করে৷ আমরা CLIPCheck-এর সাথে ভিজ্যুয়াল ম্যাচিং বাড়ানোরও প্রস্তাব করছি। আমাদের মডেল অত্যাধুনিক তত্ত্বাবধানে থাকা মডেলগুলিকে বড় ব্যবধানে ছাড়িয়ে যায়, দীর্ঘ ভিডিওগুলির জন্য শূন্য-শট QA-এর সম্ভাবনাকে হাইলাইট করে৷

1। পরিচিতি

সাম্প্রতিক ভিডিও QA মডেলগুলি ডেটা এবং টীকাগুলির সীমাবদ্ধতার কারণে দীর্ঘ ভিডিও বর্ণনামূলক QA কাজগুলি [2, 13, 27] (অর্থাৎ, চলচ্চিত্র, নাটক এবং YouTube ওয়েব ভিডিও) পরিচালনা করতে চ্যালেঞ্জের মুখোমুখি হয়। এর ফলে সংক্ষিপ্ত ভিডিও ক্লিপ [16, 17, 30]-এ প্রধানত ভিজ্যুয়াল প্রশ্নের উত্তর দেওয়ার বাইরে দীর্ঘ ভিডিও বর্ণনাগুলি বোঝার অক্ষমতা হয়। এই ধরনের দীর্ঘ ভিডিও QA-এর মাপগুলি একটি ভিডিওর মধ্যে জটিল বর্ণনামূলক কাঠামো সম্পূর্ণরূপে বোঝার জন্য মডেলদের প্রশিক্ষণের জন্য অপর্যাপ্ত, উপ-অনুকূল পারফরম্যান্স প্রদান করে। [১০] দেখান যে তত্ত্বাবধানে থাকা মডেলগুলি বর্ণনামূলক প্রসঙ্গের চেয়ে প্রশ্নে ভাষার পক্ষপাতের উপর বেশি নির্ভর করে: তারা কোনো ভিডিও প্রসঙ্গ না দেখেও একই ধরনের কর্মক্ষমতা পেতে পারে। এটি ছোট টাস্ক-নির্দিষ্ট তত্ত্বাবধানের বাইরে মাল্টিমডাল যুক্তি ক্ষমতার প্রয়োজনীয়তা তুলে ধরে।

কম সাধারণীকরণের কারণে সৃষ্ট চ্যালেঞ্জ মোকাবেলা করার জন্য, একটি শূন্য-শট পদ্ধতি ব্যবহার করে প্রি-ট্রেইনড লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) জটিল QA কাজগুলি মোকাবেলা করার জন্য একটি দক্ষ বিকল্প হতে পারে [32], এবং পাঠ্য প্রসঙ্গে সংক্ষিপ্তকরণ [8, 37]। তবুও, এই ধরনের LLM-এর বর্ণনামূলক QA ক্ষমতা কি ভিডিও ডোমেনে স্থানান্তরযোগ্য?

আমরা লং স্টোরি শর্ট (এলএসএস) প্রস্তাব করছি, চিত্র 1-এ চিত্রিত, যা ভিডিও ক্লিপগুলিকে সক্রেটিক মডেল [৩৫] দ্বারা অনুপ্রাণিত পাঠ্য চিত্রনাট্য বিন্যাসে অনুবাদ করে। GPT-3 [1] ব্যবহার করে, আমরা প্রথমে প্লটের একটি তালিকায় দীর্ঘ ভিডিওটির সংক্ষিপ্তসার করি এবং তারপরে প্রদত্ত প্রশ্নের সমাধান করার জন্য জেনারেট করা সারাংশ এবং কাঁচা ভিডিও প্রসঙ্গ উভয়ই নেভিগেট করি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ ডেটাসেটে অত্যাধুনিক তত্ত্বাবধান করা পদ্ধতির চেয়ে ভাল ফলাফল দেখায়। তদ্ব্যতীত, আমরা CLIPCcheck প্রস্তাব করছি, একটি ভিজ্যুয়াল-টেক্সট ম্যাচিং পদ্ধতি যা GPT-3 দ্বারা প্রদত্ত যুক্তি ফলাফলের ভিজ্যুয়াল সারিবদ্ধতা উন্নত করতে। সংক্ষেপে বলতে গেলে, আমাদের প্রধান অবদান তিনগুণ:

আমরা LSS উপস্থাপন করি, একটি কাঠামো যা প্লটের একটি তালিকায় একটি দীর্ঘ ভিডিও বর্ণনার সারসংক্ষেপ করে এবং প্রশ্নের সাথে প্রাসঙ্গিক সাবপ্লট পুনরুদ্ধার করে।
আমরা ভিজ্যুয়াল প্রম্পটিং-এ CLIP-ভিত্তিক ম্যাচিংয়ের মাধ্যমে ভিজ্যুয়াল অ্যালাইনমেন্ট শক্তি বিবেচনা করার গুরুত্ব প্রদর্শন করি।
আমাদের জিরো-শট অ্যাপ্রোচ মুভিকিউএ [২৭] এবং ড্রামাকিউএ [২]-এ অত্যাধুনিক পারফরম্যান্স অর্জন করে, তত্ত্বাবধানে বেসলাইনকে ছাড়িয়ে যায়।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

আসে ট্যাগ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত