Autores:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] con contribuciones iguales;
(3) Wanrong Zhu, UC Santa Bárbara, [email protected];
(4) Kevin Lin, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, Universidad de Wisconsin-Madison, [email protected];
(9) Julian McAuley, Universidad de California en San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
Nota del editor: Esta es la segunda parte de 13 de un artículo que evalúa el uso de una IA generativa para navegar en teléfonos inteligentes. Puede leer el resto del artículo a través de la tabla de enlaces que aparece a continuación.
Navegación autónoma por GUI. La navegación autónoma por GUI implica que un modelo siga instrucciones para maniobrar a través de diferentes interfaces gráficas de usuario, como sitios web o aplicaciones, para realizar la tarea solicitada por el usuario. Los puntos de referencia actuales recopilaron instrucciones sintéticas o generadas por el usuario del mundo real para evaluar las capacidades de los modelos para identificar elementos específicos de la IU (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), o para lograr objetivos generales de la tarea mediante la interacción con una serie de vistas de GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Deng et al., 2023; Rawles et al., 2023). Para comprender la información visual de estas vistas de GUI, una línea de trabajo adopta una estructura de modelo que puede procesar entradas multimodales (Sun et al., 2022; Redmon et al., 2016). Otros métodos se centran en convertir el texto y los íconos de la escena de la interfaz de usuario al formato HTML de solo texto, por ejemplo, los LLM de un solo módulo pueden procesar estas entradas de texto para la navegación de la interfaz de usuario (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023).
Agentes multimodales. Los avances recientes en LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) han catalizado la exploración de sistemas de agentes basados en LLM (Madaan et al., 2023; Shinn et al., 2023; Pan et al., 2023; Yao et al., 2022; Schick et al., 2023; Paranjape et al., 2023; Pryzant et al., 2023; Guo et al., 2023; Zhao et al., 2023; Yang et al., 2023a), que integran lógica de razonamiento y herramientas externas para una variedad de tareas lingüísticas complejas. Inspirados por el éxito en el dominio del procesamiento del lenguaje natural, los investigadores multimodales se adentran en los agentes multimodales. La línea de investigación comienza con los agentes multimodales basados en LLM (Gupta y Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; Yu et al., 2023; Li et al., 2023), como MM-ReAct (Yang* et al., 2023) para razonamiento visual avanzado y Visual ChatGPT (Wu et al., 2023) para generación y edición visual iterativas. Impulsados por los rápidos avances de los LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), los últimos estudios han comenzado a investigar los agentes multimodales potenciados por LMM (Yang et al., 2023; Liu et al., 2023), superando así la necesidad de herramientas básicas de descripción visual como los modelos de subtítulos (Wang et al., 2022a; Wu et al., 2022). Nuestra metodología propuesta representa un agente especializado basado en LMM para la navegación GUI. Nuestro objetivo es proporcionar un análisis integral y una base sólida para esta tarea.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.