280 रीडिंग

माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि नया AI मॉडल आपके फोन की स्क्रीन को 'देख' सकता है

द्वारा The FewShot Prompting Publication 5m2024/12/11

NSO

बहुत लंबा; पढ़ने के लिए

माइक्रोसॉफ्ट और यूनिवर्सिटी ऑफ कैलिफोर्निया सैन डिएगो के शोधकर्ताओं ने एक एआई मॉडल विकसित किया है जो आपके स्मार्टफोन स्क्रीन को नेविगेट करने में सक्षम है।

featured image - माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि नया AI मॉडल आपके फोन की स्क्रीन को 'देख' सकता है

लेखक:

(1) एन यान, यूसी सैन डिएगो, [email protected];

(2) झेंगयुआन यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected] समान योगदान के साथ;

(3) वानरोंग झू, यूसी सांता बारबरा, [email protected];

(4) केविन लिन, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(5) लिन्जी ली, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(6) जियानफेंग वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(7) जियानवेई यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(8) यिवू झोंग, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, [email protected];

(9) जूलियन मैकॉले, यूसी सैन डिएगो, [email protected];

(10) जियानफेंग गाओ, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(11) ज़िचेंग लियू, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected];

(12) लिजुआन वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, [email protected]।

संपादक का नोट: यह स्मार्टफ़ोन को नेविगेट करने के लिए जनरेटिव AI के उपयोग का मूल्यांकन करने वाले पेपर का भाग 1 है। आप नीचे दिए गए लिंक की तालिका के माध्यम से पेपर का शेष भाग पढ़ सकते हैं।

लिंक की तालिका

सार और 1 परिचय
2। संबंधित कार्य
3 एमएम-नेविगेटर
3.1 समस्या निर्माण और 3.2 मार्क के सेट के माध्यम से स्क्रीन ग्राउंडिंग और नेविगेशन
3.3 मल्टीमॉडल सेल्फ समराइजेशन के माध्यम से इतिहास निर्माण
4 iOS स्क्रीन नेविगेशन प्रयोग
4.1 प्रायोगिक सेटअप
4.2 इच्छित कार्रवाई का विवरण
4.3 स्थानीयकृत क्रिया निष्पादन और 4.4 GPT-4V के साथ वर्तमान स्थिति
5 एंड्रॉयड स्क्रीन नेविगेशन प्रयोग
5.1 प्रायोगिक सेटअप
5.2 प्रदर्शन तुलना
5.3 एब्लेशन अध्ययन
5.4 त्रुटि विश्लेषण
6 चर्चा
7 निष्कर्ष और संदर्भ

अमूर्त

हम स्मार्टफ़ोन ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) नेविगेशन टास्क के लिए GPT-4V-आधारित एजेंट MM-Navigator प्रस्तुत करते हैं। MM-Navigator मानव उपयोगकर्ताओं के रूप में स्मार्टफ़ोन स्क्रीन के साथ इंटरैक्ट कर सकता है, और दिए गए निर्देशों को पूरा करने के लिए बाद की क्रियाओं को निर्धारित कर सकता है। हमारे निष्कर्ष दर्शाते हैं कि बड़े मल्टीमॉडल मॉडल (LMM), विशेष रूप से GPT-4V, अपनी उन्नत स्क्रीन व्याख्या, क्रिया तर्क और सटीक क्रिया स्थानीयकरण क्षमताओं के माध्यम से शून्य-शॉट GUI नेविगेशन में उत्कृष्ट हैं। हमने सबसे पहले अपने एकत्रित iOS स्क्रीन डेटासेट पर MM-Navigator का बेंचमार्क किया। मानवीय आकलन के अनुसार, सिस्टम ने उचित क्रिया विवरण बनाने में 91% सटीकता दर और iOS पर एकल-चरण निर्देशों के लिए सही क्रियाओं को निष्पादित करने में 75% सटीकता दर प्रदर्शित की। इसके अतिरिक्त, हम मॉडल का मूल्यांकन Android स्क्रीन नेविगेशन डेटासेट के एक सबसेट पर करते हैं, जहाँ मॉडल शून्य-शॉट फैशन में पिछले GUI नेविगेटर से बेहतर प्रदर्शन करता है। हमारे बेंचमार्क और विस्तृत विश्लेषण का उद्देश्य GUI नेविगेशन टास्क में भविष्य के शोध के लिए एक मजबूत आधार तैयार करना है। परियोजना पृष्ठ https://github.com/zzxslp/MM-Navigator पर है।

1 परिचय

कंप्यूटिंग डिवाइस के साथ बातचीत करने और मानवीय आदेशों का पालन करने में सक्षम स्वायत्त एजेंटों का निर्माण मशीन लर्निंग समुदाय में लंबे समय से एक विषय रहा है (बोल्ट, 1980; लीबरमैन एट अल., 1995)। स्मार्टफोन के आगमन के बाद से, सिरी, कॉर्टाना और गूगल असिस्टेंट जैसे वर्चुअल असिस्टेंट बनाने की व्यावहारिक मांग रही है, जिनमें उपयोगकर्ता के अनुभव को महत्वपूर्ण रूप से बढ़ाने और शारीरिक या परिस्थितिजन्य रूप से अक्षम व्यक्तियों की सहायता करने की क्षमता है। आदर्श रूप से, ये सहायक प्राकृतिक भाषा निर्देशों के आधार पर रोज़मर्रा के कामों को कुशलतापूर्वक पूरा करेंगे, जिसमें टाइमर सेट करने जैसी सरल क्रियाओं से लेकर परिवार की छुट्टी के लिए आदर्श होटल का पता लगाने जैसे अधिक जटिल कार्य शामिल हैं।

हाल के अध्ययनों ने मानवीय निर्देशों के बाद मोबाइल डिवाइस नियंत्रण और स्मार्टफ़ोन कार्य स्वचालन का पता लगाना शुरू कर दिया है (रॉल्स एट अल., 2023; वेन एट अल., 2023; झान और झांग, 2023; वांग एट अल., 2023)। प्रतिनिधि दृष्टिकोणों में टेक्स्ट के साथ स्क्रीन छवियों का वर्णन करना और बड़े भाषा मॉडल (LLM) (रॉल्स एट अल., 2023; वेन एट अल., 2023) के साथ परिवर्तित टेक्स्ट को संसाधित करना, या पर्यवेक्षित तरीके से क्रियाएँ उत्पन्न करने के लिए विज़न-लैंग्वेज मॉडल को प्रशिक्षित करना शामिल है (रॉल्स एट अल., 2023; झान और झांग, 2023)। हालाँकि, जब इन पर्यवेक्षित मॉडलों को विशिष्ट प्रकार की स्क्रीन और निर्देशों (रॉल्स एट अल., 2023) पर प्रशिक्षित किया जाता है, तो वे वास्तविक दुनिया के परिदृश्यों को सामान्य बनाने में सीमित प्रभावशीलता प्रदर्शित करते हैं। दूसरी ओर, LLM-आधारित दृष्टिकोण बेहतर तरीके से सामान्यीकृत होते हैं, लेकिन स्क्रीन छवियों को टेक्स्ट में बदलने के मध्यवर्ती चरण के परिणामस्वरूप सूचना का नुकसान होता है और परिणामस्वरूप प्रदर्शन को नुकसान पहुँचता है। हाल के बड़े मल्टीमॉडल मॉडल (एलएमएम) की प्रभावकारिता और व्यापक प्रयोज्यता से प्रेरित होकर, हम जीरोशॉट स्मार्टफोन जीयूआई नेविगेशन के लिए एक एलएमएम, जीपीटी-4वी (ओपनएआई, 2023ए, बी, सी; जीपीटी, 2023; यांग एट अल., 2023सी) का उपयोग करने का पता लगाते हैं, जिसका लक्ष्य इस पेचीदा कार्य के लिए एक नई मजबूत आधार रेखा निर्धारित करना है।

हम LMM के साथ GUI नेविगेशन के लिए दो प्राथमिक चुनौतियों की पहचान करते हैं, अर्थात् इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। सबसे पहले, मॉडल को स्क्रीन छवि और पाठ निर्देश इनपुट को समझना चाहिए, और उचित कार्रवाई निर्धारित करने के लिए क्वेरी पर तर्क करना चाहिए, जैसे कि एक प्राकृतिक भाषा विवरण प्रदान करना "तीसरी पंक्ति और चौथे कॉलम में अमेज़ॅन आइकन पर क्लिक करना।" दूसरा, मॉडल को ऐसी उच्च-स्तरीय समझ को एक स्वरूपित क्रिया में परिवर्तित करना चाहिए जिसे नियमों के आधार पर आसानी से निष्पादित किया जा सके, जैसे कि "{क्रिया: क्लिक करें, स्थान: (0.31, 0.57)}।" हमारे दृष्टिकोण में, हम GPT-4V को क्रिया नियोजन के लिए एक छवि और पाठ के साथ संकेत देते हैं, और उत्पन्न आउटपुट को लंगर डालने के लिए सेट-ऑफ-मार्क टैग (यांग एट अल।, 2023 बी) रखते हैं। विशेष रूप से, हम इन चिह्नों को विभाजन या OCR मॉडल की मदद से स्थानिक स्थानों से जोड़ते हैं। इस उद्देश्य के लिए, हमारा प्रस्तावित GPT-4V आधारित सिस्टम, अर्थात् MM-नेविगेटर, स्क्रीन छवि, पाठ निर्देश और इसके इंटरैक्शन इतिहास पर आधारित निष्पादन योग्य क्रियाएँ उत्पन्न कर सकता है।

हमने MM-Navigator को दो डेटासेट पर बेंचमार्क किया। हमने स्क्रीनशॉट और उपयोगकर्ता निर्देशों के साथ एक iOS GUI नेविगेशन डेटासेट से शुरुआत की, जिसे हमने मैन्युअल रूप से एकत्र किया था। यह साफ विश्लेषणात्मक डेटासेट GUI नेविगेशन में दो चुनौतियों के लिए अंतर्दृष्टि की जांच करने के लिए डिज़ाइन किया गया है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। इन दो कार्यों पर GPT-4V का आकलन करने के लिए मानवीय मूल्यांकन का उपयोग किया जाता है, जिसमें क्रमशः 91% और 75% की सटीकता दर होती है। इसके अतिरिक्त, हम हाल ही में जारी किए गए Android नेविगेशन बेंचमार्क (Rawles et al., 2023) से एक यादृच्छिक उपसमूह पर मॉडल का आकलन करते हैं। हम बेंचमार्क में प्रस्तावित मूल्यांकन प्रोटोकॉल का पालन करते हैं, साथ ही अतिरिक्त मानवीय मूल्यांकन भी करते हैं। मजबूत प्रदर्शन दर्शाता है कि MM-Navigator स्मार्टफ़ोन के लिए एक प्रभावी GUI नेविगेटर है, जो पिछले LLM-आधारित दृष्टिकोणों से काफी बेहतर प्रदर्शन करता है। हम प्रतिनिधि सफलता और विफलता के मामलों का गहन विश्लेषण प्रदान करते हैं। हम पाते हैं कि GPT-4V की वर्तमान स्थिति विभिन्न वास्तविक-विश्व GUI नेविगेशन परिदृश्यों में मनुष्यों की सहायता करने में पहले से ही प्रभावी हो सकती है, जैसा कि चित्र 4 में मल्टी-स्क्रीन परिणामों से स्पष्ट होता है। हालांकि, सिस्टम की विश्वसनीयता को और बढ़ाने के लिए निरंतर सुधार अभी भी आवश्यक हैं, जैसा कि हमारे विश्लेषणों में पता चला है।

हमारे योगदान का सारांश इस प्रकार है

• हम MM-नेविगेटर प्रस्तुत करते हैं, जो स्मार्टफोन GUI नेविगेशन के लिए GPT-4V पर निर्मित एक एजेंट सिस्टम है। MM-नेविगेटर सटीक निष्पादन योग्य क्रियाएँ बनाने के लिए प्रभावी रूप से एक्शन हिस्ट्री और सेट-ऑफ-मार्क टैग को शामिल करता है।

• हम विविध iOS स्क्रीन और उपयोगकर्ता निर्देशों के साथ एक नया विश्लेषणात्मक डेटासेट एकत्र करते हैं, जो LMM के साथ GUI नेविगेशन में दो मुख्य चुनौतियों का मूल्यांकन करता है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन।

• हम दो डेटासेट पर स्वचालित और मानवीय दोनों तरह से व्यापक मूल्यांकन करते हैं और विस्तृत विश्लेषण प्रदान करते हैं। प्रभावशाली परिणाम GUI नेविगेशन के लिए MMNavigator की प्रभावशीलता को प्रदर्शित करते हैं।

यह पेपर arxiv पर CC BY 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध है।

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication @fewshot

Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

Read my stories

लेबल

machine-learning #artificial-intelligence #mm-navigator #gpt-4v-based-agent #gpt-4v #gpt-4v-research #large-multimodal-models #ai-gui-navigation #hackernoon-top-story

इस लेख में चित्रित किया गया था...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि नया AI मॉडल आपके फोन की स्क्रीन को 'देख' सकता है

बहुत लंबा; पढ़ने के लिए

लिंक की तालिका

अमूर्त

1 परिचय

About Author

लेबल

इस लेख में चित्रित किया गया था...

संबंधित कहानियां