paint-brush
Möt AI som faktiskt kan använda din smartphone åt digförbi@fewshot

Möt AI som faktiskt kan använda din smartphone åt dig

För länge; Att läsa

Forskare vid Microsoft och University of California San Diego har utvecklat en AI-modell som kan navigera på din smartphones skärm.
featured image - Möt AI som faktiskt kan använda din smartphone åt dig
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Författare:

(1) An Yan, UC San Diego, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] med lika bidrag;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].

Redaktörens anmärkning: Det här är del 2 av 13 av en artikel som utvärderar användningen av en generativ AI för att navigera i smartphones. Du kan läsa resten av tidningen via länktabellen nedan.

Tabell över länkar


2 Relaterat arbete

Autonom GUI-navigering. Autonom GUI-navigering involverar en modell som följer instruktioner för att manövrera genom olika grafiska användargränssnitt, såsom webbplatser eller applikationer, för att utföra den användarfrågade uppgiften. Aktuella riktmärken samlade antingen syntetiska eller verkliga användargenererade instruktioner för att utvärdera modellers förmåga att identifiera specifika UI-element (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), eller uppnå övergripande uppgiftsmål genom att interagerar med en serie GUI-vyer (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Rawles et al., 2023; För att förstå den visuella informationen från dessa GUI-vyer antar en arbetslinje en modellstruktur som kan bearbeta multimodala indata (Sun et al., 2022; Redmon et al., 2016). Andra metoder fokuserar på att konvertera UI-scenens text och ikoner till HTML-formatet endast text, till exempel LLM:er med en enda modul kan bearbeta dessa textinmatningar för GUI-navigering (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al., 2023).


Multimodala medel. Nya framsteg inom LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) har katalyserat utforskningen av LLM -baserade agentsystem (Madaan et al., 2023; Shinn et al., 2023; Yao et al., 2023; al., 2023; Yang et al., 2023a), som integrerar resonemang logik och externa verktyg för en mängd olika komplexa språkuppgifter. Inspirerade av framgångarna inom NLP-domänen, fördjupar multimodala forskare i multimodala agenter. Forskningslinjen börjar med LLM-baserade multimodala medel (Gupta och Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023; Yu et al., 2023; Li et al., 2023), såsom MM-ReAct (Yang* et al., 2023) för avancerade visuella resonemang och Visual ChatGPT (Wu et al., 2023) för iterativ visuell generering och redigering. Framdrivna av de snabba framstegen med LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), har de senaste studierna börjat undersöka de LMM-drivna multimodala medlen (Yang et al., 2023; Liu et al., 2023), och överträffar därmed behovet av grundläggande visuella beskrivningsverktyg som bildtextmodeller (Wang et al., 2022a; Wu et al., 2022). Vår föreslagna metod representerar en specialiserad LMM-baserad agent för GUI-navigering. Vi strävar efter att tillhandahålla en heltäckande analys och en stark baslinje för denna uppgift.


Detta dokument är tillgängligt på arxiv under CC BY 4.0 DEED-licens.


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

HÄNG TAGGAR

DENNA ARTIKEL PRESENTERAS I...