paint-brush
Smartfoningizdan siz uchun foydalana oladigan AI bilan tanishingtomonidan@fewshot

Smartfoningizdan siz uchun foydalana oladigan AI bilan tanishing

Juda uzoq; O'qish

Microsoft va San-Diegodagi Kaliforniya universiteti tadqiqotchilari smartfon ekranida harakatlana oladigan AI modelini ishlab chiqdilar.
featured image - Smartfoningizdan siz uchun foydalana oladigan AI bilan tanishing
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Mualliflar:

(1) An Yan, San-Diego, [email protected];

(2) Zhengyuan Yang, Microsoft korporatsiyasi, [email protected] teng hissa bilan;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft korporatsiyasi, [email protected];

(5) Linjie Li, Microsoft korporatsiyasi, [email protected];

(6) Jianfeng Vang, Microsoft korporatsiyasi, [email protected];

(7) Jianwei Yang, Microsoft korporatsiyasi, [email protected];

(8) Yivu Zhong, Viskonsin-Madison universiteti, [email protected];

(9) Julian McAuley, UC San-Diego, [email protected];

(10) Jianfeng Gao, Microsoft korporatsiyasi, [email protected];

(11) Zicheng Liu, Microsoft korporatsiyasi, [email protected];

(12) Lijuan Vang, Microsoft korporatsiyasi, [email protected].

Tahrirlovchi eslatmasi: Bu smartfonlarda harakatlanish uchun generativ AIdan foydalanishni baholovchi maqolaning 13-qismining 2-qismi. Maqolaning qolgan qismini quyidagi havolalar jadvali orqali o'qishingiz mumkin.

Havolalar jadvali


2 Tegishli ish

Avtonom GUI navigatsiyasi. Avtonom GUI navigatsiyasi foydalanuvchi tomonidan so'ralgan vazifani bajarish uchun veb-saytlar yoki ilovalar kabi turli grafik foydalanuvchi interfeyslari orqali manevr qilish uchun ko'rsatmalarga rioya qilgan modelni o'z ichiga oladi. Joriy mezonlar UI elementlarini aniqlashda modellarning qobiliyatlarini baholash uchun sintetik yoki real dunyo foydalanuvchi tomonidan ishlab chiqarilgan ko'rsatmalarni to'pladi (Shi va boshq., 2017; Li va boshq., 2020; Bai va boshq., 2021) yoki umumiy vazifalarga erishish bir qator GUI ko'rinishlari bilan o'zaro ta'sir qilish (Li va boshq., 2020; Burns va boshq., 2021; Venkatesh va boshq., 2022; Rawles va boshqalar., 2023; Ushbu GUI ko'rinishlaridan vizual ma'lumotni tushunish uchun ishning bir yo'nalishi multimodal kirishlarni qayta ishlay oladigan model tuzilmasini qabul qiladi (Sun va boshq., 2022; Redmon va boshq., 2016). Boshqa usullar UI sahnasi matni va piktogrammalarini faqat matnli HTML formatiga aylantirishga qaratilgan, masalan, bitta modulli LLMlar GUI navigatsiyasi uchun ushbu matn kiritishlarini qayta ishlashlari mumkin (Zhang va boshq., 2021; Rawles va boshq., 2023; Wen et al. al., 2023).


Multimodal agentlar. LLMdagi so'nggi yutuqlar (Brown va boshq., 2020; OpenAI, 2023a; Chowdhery va boshq., 2022; Anil va boshq., 2023; Touvron va boshq., 2023; Hoffmann va boshq., 2022) LLMni tadqiq qilishni katalizladi. -asoslangan agent tizimlari (Madaan va boshq., 2023; Shinn va boshqalar, 2023; Pryzant va boshqalar., 2023; Zha; va boshq., 2023, Yang va boshq., 2023a) integratsiyalashgan turli murakkab til vazifalari uchun mantiqiy fikrlash va tashqi vositalar. NLP domenidagi muvaffaqiyatdan ilhomlanib, multimodal tadqiqotchilar multimodal agentlarni o'rganishadi. Tadqiqot liniyasi LLMga asoslangan multimodal agentlardan boshlanadi (Gupta va Kembhavi, 2023; Surís va boshq., 2023; Wu va boshq., 2023; Yang* va boshq., 2023; Shen va boshqalar, 2023; Lu va boshqalar. ., 2023; Yu va boshq., 2023; Li va boshq., 2023), masalan Ilg'or vizual fikrlash uchun MM-ReAct (Yang* va boshq., 2023) va takroriy vizual yaratish va tahrirlash uchun Visual ChatGPT (Wu va boshq., 2023). LMMlarning jadal rivojlanishi (Alayrac va boshq., 2022; Driess va boshq., 2023; OpenAI, 2023a, b,c; gpt, 2023; Yang va boshq., 2023c; Google, 2023), so'nggi tadqiqotlar LMM bilan ishlaydigan multimodal agentlarni tekshirishni boshladilar (Yang va boshqalar, 2023; Liu va boshq., 2023), shu bilan sarlavha modellari kabi asosiy vizual tavsif vositalariga bo'lgan ehtiyojdan oshib ketadi (Vang va boshq., 2022a; Wu va boshq., 2022). Bizning taklif etayotgan metodologiyamiz GUI navigatsiyasi uchun maxsus LMM asosidagi agentni ifodalaydi. Biz ushbu vazifa uchun keng qamrovli tahlil va kuchli asosni taqdim etishni maqsad qilganmiz.



L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

TEGI QILISH

USHBU MAQOLA TAQDIM ETILGAN...