এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
লিঙ্কের টেবিল
- বিমূর্ত এবং ভূমিকা
- পদ্ধতি
- পরীক্ষা-নিরীক্ষা
- সম্পর্কিত কাজ
- উপসংহার
- সীমাবদ্ধতা এবং রেফারেন্স
- A. পরীক্ষার বিবরণ
- বি প্রম্পট নমুনা
2. পদ্ধতি
2.1। প্লট জেনারেশন
2.2। আখ্যান অনুসন্ধান
সংক্ষিপ্ত বিবরণ এবং প্রশ্নের প্রেক্ষিতে, আমরা দীর্ঘ ভিডিও থেকে প্রশ্নের সাথে প্রাসঙ্গিক অপেক্ষাকৃত ছোট ক্লিপটি পুনরুদ্ধার করতে চাই। ভাষার মডেলগুলি ওপেন-এন্ডেড পাঠ্য তৈরি করে যা অনিয়মিত এবং প্রায়শই শোরগোল করে। ভিডিওর সঠিক অংশ পুনরুদ্ধার করতে, আমরা টেক্সট ফর্মের পরিবর্তে মডেলটিকে প্লটের আউটপুট সূচকে চালাই।
উত্পন্ন সূচকগুলি ভাষা মডেলগুলির উন্মুক্ত প্রকৃতির কারণে এখনও গোলমাল হতে পারে। যখন মডেলটি টেক্সট আকারে একটি উত্তর আউটপুট করে, তখন আমরা প্লট পিস প্রার্থীদের খুঁজে বের করতে রুজ-এল [19] স্কোর ব্যবহার করি যার উত্পন্ন বাক্যের সাথে সাদৃশ্য নির্দিষ্ট থ্রেশহোল্ড α ≥ 0.5 এর উপরে।