paint-brush
Дослідники Microsoft кажуть, що нова модель ШІ може «бачити» екран вашого телефонуза@fewshot
702 показання
702 показання

Дослідники Microsoft кажуть, що нова модель ШІ може «бачити» екран вашого телефону

Надто довго; Читати

Дослідники з Microsoft і Каліфорнійського університету в Сан-Дієго розробили модель штучного інтелекту, здатну керувати екраном смартфона.
featured image - Дослідники Microsoft кажуть, що нова модель ШІ може «бачити» екран вашого телефону
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Автори:

(1) Ан Ян, Каліфорнійський університет у Сан-Дієго, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] рівними внесками;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Кевін Лін, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Іу Чжун, Університет Вісконсіна-Медісон, [email protected];

(9) Джуліан Маколі, Каліфорнійський університет у Сан-Дієго, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].


Примітка редактора: це перша частина статті, в якій оцінюється використання генеративного ШІ для навігації смартфонами. Ви можете прочитати решту статті за допомогою таблиці посилань нижче.

Таблиця посилань


Анотація

Представляємо MM-Navigator, агент на основі GPT-4V для завдання навігації за допомогою графічного інтерфейсу користувача (GUI) смартфона. MM-Navigator може взаємодіяти з екраном смартфона як користувач і визначати подальші дії для виконання заданих інструкцій. Наші висновки демонструють, що великі мультимодальні моделі (LMM), зокрема GPT-4V, чудово підходять для безпрограшної навігації графічним інтерфейсом користувача завдяки розширеній інтерпретації екрана, обґрунтуванню дій і можливостям точної локалізації дій. Спочатку ми тестуємо MM-Navigator на нашому зібраному наборі даних екрану iOS. Відповідно до людських оцінок, система продемонструвала точність 91% у створенні розумних описів дій і 75% у виконанні правильних дій для однокрокових інструкцій на iOS. Крім того, ми оцінюємо модель на підмножині набору даних екранної навігації Android, де модель перевершує попередні навігатори з графічним інтерфейсом. Наш контрольний і детальний аналіз спрямований на те, щоб закласти міцну основу для майбутніх досліджень навігаційного завдання GUI. Сторінка проекту знаходиться за адресою https: //github.com/zzxslp/MM-Navigator.

1 Вступ

Створення автономних агентів, здатних взаємодіяти з обчислювальними пристроями та виконувати команди людини, давно є темою спільноти машинного навчання (Болт, 1980; Ліберман та ін., 1995). З появою смартфонів існував практичний попит на створення віртуальних помічників, таких як Siri, Cortana та Google Assistant, які мають потенціал для значного покращення взаємодії з користувачем та надання допомоги особам із фізичними або ситуаційними вадами. В ідеалі ці помічники могли б грамотно виконувати повсякденні завдання на основі інструкцій природною мовою, починаючи від простих дій, таких як налаштування таймера, і закінчуючи більш складними завданнями, такими як пошук ідеального готелю для сімейного відпочинку.


Недавні дослідження почали досліджувати керування мобільними пристроями та автоматизацію завдань на смартфонах за вказівками людини (Rawles та ін., 2023; Wen та ін., 2023; Zhan та Zhang, 2023; Wang та ін., 2023). Репрезентативні підходи включають опис екранних зображень за допомогою тексту та обробку перетвореного тексту за допомогою великих мовних моделей (LLM) (Роулз та ін., 2023; Вен та ін., 2023) або навчання зорово-мовної моделі генерації дій у керований спосіб ( Rawles et al., 2023; Zhan and Zhang, 2023). Однак ці керовані моделі, коли їх навчають на певних типах екранів та інструкцій (Rawles et al., 2023), виявляють обмежену ефективність у узагальненні для сценаріїв реального світу. З іншого боку, підходи на основі LLM краще узагальнюють, але проміжний етап перетворення екранних зображень у текст призводить до втрати інформації та, як наслідок, погіршує продуктивність. Натхненні ефективністю та широкою застосовністю останніх великих мультимодальних моделей (LMM), ми досліджуємо використання LMM GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) для графічного інтерфейсу смартфона Zeroshot. навігації, щоб встановити нову міцну базу для цього інтригуючого завдання.


Ми визначаємо два основних виклики для навігації GUI за допомогою LMM, а саме: опис передбачуваної дії та локалізоване виконання дії. По-перше, модель повинна розуміти зображення екрана та текстові інструкції, що вводяться, і обміркувати запит, щоб визначити відповідну дію, наприклад, надати опис природною мовою «клацання піктограми Amazon у третьому рядку та четвертому стовпці». По-друге, модель має перетворити таке розуміння високого рівня на відформатовану дію, яку можна легко виконати на основі правил, таких як «{Дія: Клацніть, Розташування: (0.31, 0.57)}». У нашому підході ми надаємо GPT-4V зображення та текст для планування дій і розміщуємо позначки (Янг та ін., 2023b), щоб закріпити згенеровані результати. Зокрема, ми пов’язуємо ці позначки з просторовими розташуваннями за допомогою моделей сегментації або OCR. З цією метою запропонована нами система на основі GPT-4V, а саме MM-Navigator, може генерувати виконувані дії залежно від зображення на екрані, текстової інструкції та історії взаємодії.


Ми тестуємо MM-Navigator на двох наборах даних. Ми починаємо з набору даних навігації графічного інтерфейсу iOS зі знімками екрана та інструкціями користувача, які ми зібрали вручну. Цей чистий аналітичний набір даних призначений для дослідження двох проблем у навігації графічним інтерфейсом користувача: опис запланованої дії та виконання локалізованої дії. Оцінки людини використовуються для оцінки GPT-4V у цих двох завданнях із рівнем точності 91% і 75% відповідно. Крім того, ми оцінюємо модель на випадковій підмножині нещодавно випущеного еталонного тесту навігації Android (Rawles et al., 2023). Ми дотримуємося запропонованого протоколу оцінки в еталонному тесті разом із додатковими оцінками людьми. Висока продуктивність демонструє, що MM-Navigator є ефективним графічним навігатором для смартфонів, значно перевершуючи попередні підходи на основі LLM. Ми надаємо детальний аналіз типових випадків успіху та невдачі. Ми виявили, що поточний стан GPT-4V вже може бути ефективним у допомозі людям у різних реальних сценаріях навігації з графічним інтерфейсом користувача, про що свідчать результати багатоекранного режиму на малюнку 4. Однак постійні вдосконалення все ще важливі для подальшого підвищення ефективності системи. надійність, як виявлено в нашому аналізі.


Наші внески підсумовані таким чином


• Представляємо MM-Navigator, агентську систему, побудовану на GPT-4V для навігації з графічним інтерфейсом смартфона. MM-Navigator ефективно включає в себе історію дій і теги set-of-mark для створення точних виконуваних дій.


• Ми збираємо новий аналітичний набір даних із різноманітними екранами iOS та інструкціями для користувача, який оцінює дві основні проблеми в навігації з графічним інтерфейсом за допомогою LMM: опис запланованої дії та локалізоване виконання дії.


• Ми проводимо розширені оцінки, як автоматичні, так і людські, двох наборів даних і надаємо детальний аналіз. Вражаючі результати демонструють ефективність MMNavigator для графічної навігації.


Цей документ доступний на arxiv під ліцензією CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...