Möt AI som faktiskt kan använda din smartphone åt dig

förbi The FewShot Prompting Publication 3m2024/12/11

För länge; Att läsa

Forskare vid Microsoft och University of California San Diego har utvecklat en AI-modell som kan navigera på din smartphones skärm.

featured image - Möt AI som faktiskt kan använda din smartphone åt dig

Författare:

(1) An Yan, UC San Diego, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] med lika bidrag;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].

Redaktörens anmärkning: Det här är del 2 av 13 av en artikel som utvärderar användningen av en generativ AI för att navigera i smartphones. Du kan läsa resten av tidningen via länktabellen nedan.

Tabell över länkar

Abstrakt och 1 inledning
2 Relaterat arbete
3 MM-Navigator
3.1 Problemformulering och 3.2 Skärmjordning och navigering via uppsättning av märken
3.3 Historikgenerering via multimodal självsammanfattning
4 iOS-skärmnavigeringsexperiment
4.1 Experimentell installation
4.2 Avsedd åtgärd Beskrivning
4.3 Lokaliserad åtgärdsexekvering och 4.4 Nuvarande tillstånd med GPT-4V
5 Android-skärmnavigeringsexperiment
5.1 Experimentell installation
5.2 Prestandajämförelse
5.3 Ablationsstudier
5.4 Felanalys
6 Diskussion
7 Slutsats och referenser

2 Relaterat arbete

Autonom GUI-navigering. Autonom GUI-navigering involverar en modell som följer instruktioner för att manövrera genom olika grafiska användargränssnitt, såsom webbplatser eller applikationer, för att utföra den användarfrågade uppgiften. Aktuella riktmärken samlade antingen syntetiska eller verkliga användargenererade instruktioner för att utvärdera modellers förmåga att identifiera specifika UI-element (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), eller uppnå övergripande uppgiftsmål genom att interagerar med en serie GUI-vyer (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Rawles et al., 2023; För att förstå den visuella informationen från dessa GUI-vyer antar en arbetslinje en modellstruktur som kan bearbeta multimodala indata (Sun et al., 2022; Redmon et al., 2016). Andra metoder fokuserar på att konvertera UI-scenens text och ikoner till HTML-formatet endast text, till exempel LLM:er med en enda modul kan bearbeta dessa textinmatningar för GUI-navigering (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al., 2023).

Multimodala medel. Nya framsteg inom LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) har katalyserat utforskningen av LLM -baserade agentsystem (Madaan et al., 2023; Shinn et al., 2023; Yao et al., 2023; al., 2023; Yang et al., 2023a), som integrerar resonemang logik och externa verktyg för en mängd olika komplexa språkuppgifter. Inspirerade av framgångarna inom NLP-domänen, fördjupar multimodala forskare i multimodala agenter. Forskningslinjen börjar med LLM-baserade multimodala medel (Gupta och Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023; Yu et al., 2023; Li et al., 2023), såsom MM-ReAct (Yang* et al., 2023) för avancerade visuella resonemang och Visual ChatGPT (Wu et al., 2023) för iterativ visuell generering och redigering. Framdrivna av de snabba framstegen med LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), har de senaste studierna börjat undersöka de LMM-drivna multimodala medlen (Yang et al., 2023; Liu et al., 2023), och överträffar därmed behovet av grundläggande visuella beskrivningsverktyg som bildtextmodeller (Wang et al., 2022a; Wu et al., 2022). Vår föreslagna metod representerar en specialiserad LMM-baserad agent för GUI-navigering. Vi strävar efter att tillhandahålla en heltäckande analys och en stark baslinje för denna uppgift.

Detta dokument är tillgängligt på arxiv under CC BY 4.0 DEED-licens.

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication @fewshot

Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

Read my stories

HÄNG TAGGAR

machine-learning #artificial-intelligence #mm-navigator #gpt-4v-based-agent #gpt-4v #gpt-4v-research #large-multimodal-models #ai-gui-navigation #ai-for-smartphones

DENNA ARTIKEL PRESENTERAS I...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Möt AI som faktiskt kan använda din smartphone åt dig

För länge; Att läsa

Tabell över länkar

2 Relaterat arbete

About Author

HÄNG TAGGAR

DENNA ARTIKEL PRESENTERAS I...

RELATERADE BERÄTTELSER