paint-brush
Смартфонуңузду сиз үчүн колдоно турган AI менен таанышыңызтарабынан@fewshot
113 окуулар

Смартфонуңузду сиз үчүн колдоно турган AI менен таанышыңыз

тарабынан The FewShot Prompting Publication 3m2024/12/11
Read on Terminal Reader

өтө узун; Окуу

Майкрософттун жана Калифорниянын Сан-Диего университетинин изилдөөчүлөрү смартфондун экранын башкарууга жөндөмдүү AI моделин иштеп чыгышты.
featured image - Смартфонуңузду сиз үчүн колдоно турган AI менен таанышыңыз
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Авторлор:

(1) Ан Ян, UC Сан-Диего, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] бирдей салымдар менен;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Кевин Лин, Microsoft Corporation, [email protected];

(5) Линджи Ли, Microsoft корпорациясы, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Лижуан Ванг, Microsoft корпорациясы, [email protected].

Редакциянын эскертүүсү: Бул смартфондорду башкаруу үчүн генеративдик интеллектти колдонууну баалаган кагаздын 13 бөлүгүнүн 2-бөлүгү. Кагаздын калган бөлүгүн төмөнкү шилтемелердин таблицасы аркылуу окуй аласыз.

Шилтемелер таблицасы


2 Байланыштуу иш

Автономдуу GUI навигациясы. Автономдуу GUI навигациясы колдонуучу сураган тапшырманы аткаруу үчүн веб-сайттар же тиркемелер сыяктуу ар кандай графикалык колдонуучу интерфейстери аркылуу маневр жасоо үчүн нускамалардан кийинки моделди камтыйт. Учурдагы эталондор UI элементтерин аныктоодо моделдердин жөндөмдүүлүктөрүн баалоо үчүн синтетикалык же реалдуу колдонуучу тарабынан түзүлгөн нускамаларды чогултту (Shi et al., 2017; Li et al., 2020; Bai et al., 2021) же жалпы тапшырма максаттарына жетишүү бир катар GUI көз караштары менен өз ара аракеттенүү (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Rawles et al., 2023; Бул GUI көрүнүштөрүнүн визуалдык маалыматын түшүнүү үчүн, бир иш линиясы мультимодалдык киргизүүлөрдү иштете ала турган моделдик структураны кабыл алат (Sun et al., 2022; Redmon et al., 2016). Башка ыкмалар UI сахнасынын текстин жана иконкаларын тексттик гана HTML форматына айландырууга багытталган, мисалы, бир модулдук LLMлер GUI навигациясы үчүн бул текст киргизүүлөрдү иштете алат (Zhang et al., 2021; Rawles et al., 2023; Wen et al. ал., 2023).


Multimodal агенттер. LLMдеги акыркы жетишкендиктер (Браун ж.б., 2020; OpenAI, 2023a; Chowdhery ж.б., 2022; Anil ж.б., 2023; Touvron ж.б., 2023; Хоффман ж. -негизделген агент системалары (Madaan et al., 2023; Shinn et al., 2023; Yao et al., 2023; Pryzant et al., 2023; ж.б., 2023, Янг жана башкалар, 2023a) логикалык ой жүгүртүү жана ар кандай татаал тил тапшырмалары үчүн тышкы куралдар. NLP домениндеги ийгиликке шыктанган мультимодалдык изилдөөчүлөр мультимодалдык агенттерге кайрылышат. Изилдөө линиясы LLM негизиндеги мультимодалдык агенттерден башталат (Гупта жана Кембхави, 2023; Surís ж.б., 2023; Ву ж.б., 2023; Янг* ж.б., 2023; Шен ж. ., 2023; Yu et al., 2023; Li et al., 2023), мисалы MM-ReAct (Yang* et al., 2023) өркүндөтүлгөн визуалдык ой жүгүртүү жана Visual ChatGPT (Wu et al., 2023) кайталануучу визуалдык түзүү жана түзөтүү үчүн. LMMдердин тез өнүгүшүнө түрткү болгон (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), акыркы изилдөөлөр LMM менен иштеген мультимодалдык агенттерди изилдей баштады (Yang et al., 2023; Liu et al., 2023), ошону менен коштомо моделдер сыяктуу негизги визуалдык сүрөттөмө куралдарына болгон муктаждыктан ашып кетти (Wang et al., 2022a; Wu et al., 2022). Биздин сунушталган методология GUI навигациясы үчүн атайын LMM негизиндеги агентти билдирет. Биз бул милдет үчүн ар тараптуу талдоо жана күчтүү базаны берүүнү көздөп жатабыз.



L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ТАГИП АЛУУ

БУЛ МАКАЛА БЕРИЛГЕН...