798 পড়া

মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে

দ্বারা The FewShot Prompting Publication 5m2024/12/11

NSO

অতিদীর্ঘ; পড়তে

মাইক্রোসফ্ট এবং ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া সান দিয়েগোর গবেষকরা একটি এআই মডেল তৈরি করেছেন যা আপনার স্মার্টফোনের স্ক্রীন নেভিগেট করতে সক্ষম।

featured image - মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে

লেখক:

(1) আন ইয়ান, ইউসি সান দিয়েগো, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] সমান অবদানের সাথে;

(3) ওয়ানরং ঝু, ইউসি সান্তা বারবারা, [email protected];

(4) কেভিন লিন, মাইক্রোসফট কর্পোরেশন, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) জিয়ানফেং ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, [email protected];

(7) জিয়ানওয়েই ইয়াং, মাইক্রোসফ্ট কর্পোরেশন, [email protected];

(8) Yiwu Zhong, Wisconsin-Madison University, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) জিয়ানফেং গাও, মাইক্রোসফ্ট কর্পোরেশন, [email protected];

(11) জিচেং লিউ, মাইক্রোসফ্ট কর্পোরেশন, [email protected];

(12) লিজুয়ান ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, [email protected]।

সম্পাদকের দ্রষ্টব্য: এটি একটি কাগজের অংশ 1 যা স্মার্টফোনে নেভিগেট করার জন্য একটি জেনারেটিভ এআই ব্যবহার মূল্যায়ন করে। আপনি নীচের লিঙ্কের টেবিলের মাধ্যমে কাগজের বাকি অংশ পড়তে পারেন।

লিঙ্কের টেবিল

বিমূর্ত এবং 1 ভূমিকা
2 সম্পর্কিত কাজ
3 MM-নেভিগেটর
3.1 সমস্যা প্রণয়ন এবং 3.2 স্ক্রীন গ্রাউন্ডিং এবং মার্ক সেটের মাধ্যমে নেভিগেশন
3.3 মাল্টিমোডাল সেলফ সামারাইজেশনের মাধ্যমে ইতিহাস সৃষ্টি
4 iOS স্ক্রীন নেভিগেশন পরীক্ষা
4.1 পরীক্ষামূলক সেটআপ
4.2 উদ্দেশ্যমূলক কর্ম বিবরণ
4.3 লোকালাইজড অ্যাকশন এক্সিকিউশন এবং 4.4 GPT-4V সহ বর্তমান অবস্থা
5 অ্যান্ড্রয়েড স্ক্রিন নেভিগেশন পরীক্ষা
5.1 পরীক্ষামূলক সেটআপ
5.2 কর্মক্ষমতা তুলনা
5.3 অ্যাবলেশন স্টাডিজ
5.4 ত্রুটি বিশ্লেষণ
6 আলোচনা
7 উপসংহার এবং রেফারেন্স

বিমূর্ত

স্মার্টফোন গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI) নেভিগেশন টাস্কের জন্য আমরা MM-Navigator, একটি GPT-4V-ভিত্তিক এজেন্ট উপস্থাপন করি। MM-Navigator একটি স্মার্টফোন স্ক্রিনের সাথে মানুষের ব্যবহারকারী হিসাবে ইন্টারঅ্যাক্ট করতে পারে এবং প্রদত্ত নির্দেশাবলী পূরণ করার জন্য পরবর্তী ক্রিয়া নির্ধারণ করতে পারে। আমাদের অনুসন্ধানগুলি দেখায় যে বড় মাল্টিমোডাল মডেলগুলি (LMMs), বিশেষত GPT-4V, শূন্য-শট GUI নেভিগেশন এর উন্নত স্ক্রীন ব্যাখ্যা, অ্যাকশন যুক্তি এবং সুনির্দিষ্ট অ্যাকশন স্থানীয়করণ ক্ষমতার মাধ্যমে এক্সেল করে। আমরা আমাদের সংগৃহীত iOS স্ক্রীন ডেটাসেটে প্রথম বেঞ্চমার্ক MM-Navigator. মানুষের মূল্যায়ন অনুসারে, সিস্টেমটি যুক্তিসঙ্গত ক্রিয়া বর্ণনা তৈরিতে 91% নির্ভুলতার হার এবং iOS-এ একক-পদক্ষেপ নির্দেশাবলীর জন্য সঠিক ক্রিয়া সম্পাদনে 75% নির্ভুলতার হার প্রদর্শন করেছে। উপরন্তু, আমরা একটি Android স্ক্রীন নেভিগেশন ডেটাসেটের একটি উপসেটে মডেলটিকে মূল্যায়ন করি, যেখানে মডেলটি একটি শূন্য-শট ফ্যাশনে পূর্ববর্তী GUI নেভিগেটরদেরকে ছাড়িয়ে যায়। আমাদের বেঞ্চমার্ক এবং বিশদ বিশ্লেষণের লক্ষ্য GUI নেভিগেশন টাস্কে ভবিষ্যতের গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করা। প্রকল্পের পৃষ্ঠাটি https://github.com/zzxslp/MM-Navigator-এ রয়েছে।

1 ভূমিকা

কম্পিউটিং ডিভাইসের সাথে মিথস্ক্রিয়া করতে এবং মানুষের আদেশ অনুসরণ করতে সক্ষম স্বায়ত্তশাসিত এজেন্ট তৈরি করা মেশিন লার্নিং সম্প্রদায়ের একটি দীর্ঘস্থায়ী বিষয় (বোল্ট, 1980; লিবারম্যান এট আল।, 1995)। স্মার্টফোনের আবির্ভাবের পর থেকে, সিরি, কর্টানা এবং গুগল অ্যাসিস্ট্যান্টের মতো ভার্চুয়াল অ্যাসিস্ট্যান্ট তৈরির জন্য একটি ব্যবহারিক চাহিদা রয়েছে, যা ব্যবহারকারীর অভিজ্ঞতাকে উল্লেখযোগ্যভাবে উন্নত করতে এবং শারীরিক বা পরিস্থিতিগতভাবে প্রতিবন্ধী ব্যক্তিদের সহায়তা করার সম্ভাবনা রাখে। আদর্শভাবে, এই সহকারীরা দক্ষতার সাথে প্রাকৃতিক ভাষার নির্দেশাবলীর উপর ভিত্তি করে দৈনন্দিন কাজগুলি সম্পাদন করবে, একটি টাইমার সেট করার মতো সাধারণ কাজ থেকে শুরু করে আরও জটিল কাজ যেমন পারিবারিক ছুটির জন্য আদর্শ হোটেলের অবস্থান।

সাম্প্রতিক গবেষণাগুলি মানুষের নির্দেশনা অনুসরণ করে মোবাইল ডিভাইস নিয়ন্ত্রণ এবং স্মার্টফোনের টাস্ক অটোমেশন অন্বেষণ করতে শুরু করেছে (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023)। প্রতিনিধিত্বমূলক পদ্ধতির মধ্যে টেক্সট সহ স্ক্রীন ইমেজ বর্ণনা করা এবং বৃহৎ ভাষা মডেল (LLMs) সহ রূপান্তরিত পাঠ্য প্রক্রিয়াকরণ (Rawles et al., 2023; Wen et al., 2023), অথবা একটি তত্ত্বাবধানে ক্রিয়াকলাপ তৈরি করার জন্য একটি দৃষ্টি-ভাষা মডেল প্রশিক্ষণ ( Rawles et al., 2023; Zhan and Zhang, 2023)। যাইহোক, এই তত্ত্বাবধানে থাকা মডেলগুলি, যখন নির্দিষ্ট ধরণের স্ক্রিন এবং নির্দেশাবলীর উপর প্রশিক্ষিত হয় (Rawles et al., 2023), বাস্তব জগতের পরিস্থিতির সাধারণীকরণে সীমিত কার্যকারিতা প্রদর্শন করে। অন্যদিকে, এলএলএম-ভিত্তিক পদ্ধতিগুলি আরও ভাল সাধারণীকরণ করে, তবে স্ক্রীনের চিত্রগুলিকে পাঠ্যে রূপান্তর করার মধ্যবর্তী পদক্ষেপের ফলে তথ্য নষ্ট হয় এবং ফলস্বরূপ কর্মক্ষমতা ক্ষতিগ্রস্থ হয়। সাম্প্রতিক বৃহৎ মাল্টিমোডাল মডেলের (LMMs) কার্যকারিতা এবং বিস্তৃত প্রযোজ্যতা দ্বারা অনুপ্রাণিত হয়ে, আমরা zeroshot স্মার্টফোন GUI-এর জন্য একটি LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) ব্যবহার করে অন্বেষণ করি। নেভিগেশন, এই কৌতুহলপূর্ণ কাজের জন্য একটি নতুন শক্তিশালী ভিত্তিরেখা সেট করার লক্ষ্য।

আমরা LMM এর সাথে GUI নেভিগেশনের জন্য দুটি প্রাথমিক চ্যালেঞ্জ সনাক্ত করি, যথা উদ্দেশ্যমূলক কর্ম বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। প্রথমত, মডেলটিকে স্ক্রীন ইমেজ এবং টেক্সট নির্দেশনা ইনপুট বুঝতে হবে, এবং উপযুক্ত ব্যবস্থা নেওয়ার জন্য কোয়েরির উপর কারণ জানাতে হবে, যেমন একটি প্রাকৃতিক ভাষা বর্ণনা প্রদান করা "তৃতীয় সারি এবং চতুর্থ কলামে অ্যামাজন আইকনে ক্লিক করা।" দ্বিতীয়ত, মডেলটিকে এমন উচ্চ-স্তরের বোঝাপড়াকে একটি ফর্ম্যাট করা অ্যাকশনে রূপান্তর করা উচিত যা নিয়মের উপর ভিত্তি করে সহজে কার্যকর করা যেতে পারে, যেমন “{Action: Click, Location: (0.31, 0.57)}”। আমাদের পদ্ধতিতে, আমরা কর্ম পরিকল্পনার জন্য একটি চিত্র এবং পাঠ্য সহ GPT-4V প্রম্পট করি এবং জেনারেট আউটপুটগুলিকে অ্যাঙ্কর করার জন্য সেট-অফ-মার্ক ট্যাগগুলি (ইয়াং এট আল।, 2023b) স্থাপন করি। বিশেষত, আমরা এই চিহ্নগুলিকে বিভাজন বা ওসিআর মডেলের সাহায্যে স্থানিক অবস্থানের সাথে সংযুক্ত করি। এই লক্ষ্যে, আমাদের প্রস্তাবিত GPT-4V-ভিত্তিক সিস্টেম, যথা MM-Navigator, স্ক্রীন ইমেজ, টেক্সট নির্দেশ এবং এর ইন্টারঅ্যাকশন ইতিহাসে শর্তযুক্ত এক্সিকিউটেবল অ্যাকশন তৈরি করতে পারে।

আমরা দুটি ডেটাসেটে এমএম-নেভিগেটর বেঞ্চমার্ক করি। আমরা ম্যানুয়ালি সংগ্রহ করা স্ক্রিনশট এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি iOS GUI নেভিগেশন ডেটাসেট দিয়ে শুরু করি। এই পরিষ্কার বিশ্লেষণাত্মক ডেটাসেটটি GUI নেভিগেশনের দুটি চ্যালেঞ্জের জন্য অন্তর্দৃষ্টি অনুসন্ধান করার জন্য ডিজাইন করা হয়েছে: উদ্দেশ্যমূলক কর্মের বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। মানবিক মূল্যায়ন যথাক্রমে 91% এবং 75% এর যথার্থতার হার সহ এই দুটি কাজের GPT-4V মূল্যায়ন করতে ব্যবহৃত হয়। উপরন্তু, আমরা সম্প্রতি প্রকাশিত অ্যান্ড্রয়েড নেভিগেশন বেঞ্চমার্ক (Rawles et al., 2023) থেকে একটি র্যান্ডম সাবসেটে মডেলটিকে মূল্যায়ন করি। আমরা অতিরিক্ত মানব মূল্যায়ন সহ বেঞ্চমার্কে প্রস্তাবিত মূল্যায়ন প্রোটোকল অনুসরণ করি। শক্তিশালী পারফরম্যান্স দেখায় যে MM-Navigator হল স্মার্টফোনের জন্য একটি কার্যকর GUI নেভিগেটর, উল্লেখযোগ্যভাবে আগের LLM-ভিত্তিক পন্থাগুলিকে ছাড়িয়ে গেছে। আমরা প্রতিনিধিত্বমূলক সাফল্য এবং ব্যর্থতার ক্ষেত্রে গভীরভাবে বিশ্লেষণ প্রদান করি। আমরা দেখতে পাই যে GPT-4V-এর বর্তমান অবস্থা ইতিমধ্যেই বাস্তব-বিশ্বের বিভিন্ন GUI নেভিগেশন পরিস্থিতিতে মানুষকে সাহায্য করার জন্য কার্যকর হতে পারে, যেমন চিত্র 4-এর মাল্টি-স্ক্রিন ফলাফল দ্বারা প্রমাণিত হয়েছে। যাইহোক, সিস্টেমের আরও বাড়ানোর জন্য অব্যাহত বর্ধনগুলি এখনও অপরিহার্য। নির্ভরযোগ্যতা, যেমন আমাদের বিশ্লেষণে প্রকাশিত হয়েছে।

আমাদের অবদান নিম্নরূপ সংক্ষিপ্ত করা হয়

• আমরা MM-Navigator উপস্থাপন করি, স্মার্টফোন GUI নেভিগেশনের জন্য GPT-4V-এ নির্মিত একটি এজেন্ট সিস্টেম। এমএম-নেভিগেটর কার্যকরভাবে অ্যাকশন হিস্ট্রি এবং সেট-অফ-মার্ক ট্যাগগুলিকে সুনির্দিষ্ট এক্সিকিউটেবল অ্যাকশন তৈরি করতে অন্তর্ভুক্ত করে।

• আমরা বিভিন্ন iOS স্ক্রীন এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি নতুন বিশ্লেষণাত্মক ডেটাসেট সংগ্রহ করি, যা LMM এর সাথে GUI নেভিগেশনের দুটি প্রধান চ্যালেঞ্জের মূল্যায়ন করে: উদ্দেশ্যমূলক ক্রিয়া বর্ণনা এবং স্থানীয়কৃত ক্রিয়া সম্পাদন।

• আমরা দুটি ডেটাসেটে স্বয়ংক্রিয় এবং মানবিক উভয় ধরনের বিস্তৃত মূল্যায়ন করি এবং বিস্তারিত বিশ্লেষণ প্রদান করি। চিত্তাকর্ষক ফলাফল GUI নেভিগেশনের জন্য MMNavigator এর কার্যকারিতা প্রদর্শন করে।

এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication @fewshot

Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

Read my stories

আসে ট্যাগ

machine-learning #artificial-intelligence #mm-navigator #gpt-4v-based-agent #gpt-4v #gpt-4v-research #large-multimodal-models #ai-gui-navigation #hackernoon-top-story

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত