paint-brush
Investigadores de los Emiratos Árabes Unidos crean una IA que puede describir imágenes con perfecto detallepor@autoencoder
Nueva Historia

Investigadores de los Emiratos Árabes Unidos crean una IA que puede describir imágenes con perfecto detalle

Demasiado Largo; Para Leer

Investigadores de la Universidad Mohamed bin Zayed desarrollaron un modelo de IA que puede crear conversaciones basadas en texto vinculadas a objetos o regiones específicos de una imagen.
featured image - Investigadores de los Emiratos Árabes Unidos crean una IA que puede describir imágenes con perfecto detalle
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Autores:

(1) Hanoona Rasheed, Universidad Mohamed bin Zayed de IA y primeros autores igualmente contribuyentes;

(2) Muhammad Maaz, Universidad Mohamed bin Zayed de IA y primeros autores igualmente contribuyentes;

(3) Sahal Shaji, Universidad de AI Mohamed bin Zayed;

(4) Abdelrahman Shaker, Universidad Mohamed bin Zayed de AI;

(5) Salman Khan, Universidad de IA Mohamed bin Zayed y Universidad Nacional Australiana;

(6) Hisham Cholakkal, Universidad de AI Mohamed bin Zayed;

(7) Rao M. Anwer, Universidad Mohamed bin Zayed de IA y Universidad Aalto;

(8) Eric Xing, Universidad de IA Mohamed bin Zayed y Universidad Carnegie Mellon;

(9) Ming-Hsuan Yang, Universidad de California - Merced y Google Research;

(10) Fahad S. Khan, Universidad de IA Mohamed bin Zayed y Universidad de Linköping.

Nota del editor: Esta es la parte 1 de 10 de un estudio que detalla el desarrollo de un modelo de IA diseñado para describir imágenes a los usuarios. Lea el resto a continuación.

Tabla de enlaces


Material complementario (parte 1)


Material complementario (parte 2)

Abstracto

Los modelos multimodales grandes (LMM) extienden los modelos de lenguaje grandes al dominio de la visión. Los LMM iniciales usaban imágenes holísticas e indicaciones de texto para generar respuestas textuales sin fundamento. Recientemente, se han usado LMM a nivel de región para generar respuestas con fundamento visual. Sin embargo, están limitados a referirse solo a una sola categoría de objeto a la vez, requieren que los usuarios especifiquen las regiones o no pueden ofrecer un fundamento denso de objetos píxel por píxel. En este trabajo, presentamos Grounding LMM (GLaMM), el primer modelo que puede generar respuestas de lenguaje natural entrelazadas sin problemas con las máscaras de segmentación de objetos correspondientes. GLaMM no solo fundamenta los objetos que aparecen en las conversaciones, sino que es lo suficientemente flexible como para aceptar indicaciones tanto textuales como visuales opcionales (región de interés) como entrada. Esto permite a los usuarios interactuar con el modelo en varios niveles de granularidad, tanto en dominios textuales como visuales. Debido a la falta de puntos de referencia estándar para el nuevo entorno de generación de conversaciones con fundamento visual (GCG), presentamos un protocolo de evaluación integral con nuestras conversaciones con fundamento seleccionadas. Nuestra propuesta de tarea GCG requiere conceptos densamente fundamentados en escenas naturales a gran escala. Para ello, proponemos un conjunto de datos Grounding-anything (GranD) densamente anotado utilizando nuestra línea de anotación automatizada propuesta que abarca 7,5 millones de conceptos únicos fundamentados en un total de 810 millones de regiones disponibles con máscaras de segmentación. Además de GCG, GLaMM también funciona de manera eficaz en varias tareas posteriores, por ejemplo, segmentación de expresiones de referencia, subtítulos a nivel de imagen y región y conversaciones entre visión y lenguaje.

1. Introducción

Impulsados por la ola de IA generativa, los modelos multimodales grandes (LMM) han surgido como un avance fundamental que cierra la brecha entre las tareas de visión y lenguaje [2]. Los esfuerzos iniciales como [6, 8, 22, 29, 52, 61] demuestran respuestas textuales efectivas basadas en imágenes de entrada. Aunque estos modelos son sofisticados, aún no pueden fundamentar sus respuestas en el contexto visual. Tal fundamentación es crucial para aplicaciones avanzadas como la comprensión visual detallada, los agentes corporales interactivos y la manipulación de contenido localizado. Los esfuerzos recientes han comenzado a abordar esta limitación al permitir que los modelos procesen regiones definidas por el usuario especificadas a través de cuadros delimitadores [5, 31, 35, 36, 57].


Figura 1. Generación de conversación basada en datos con GLaMM. Nuestro modelo conversacional multimodal puede proporcionar respuestas en lenguaje natural basadas en datos a nivel de píxel en la imagen de entrada. Se representan diferentes niveles de granularidad en las bases de datos de salida, por ejemplo, cosas (edificio, árbol), objetos (césped, cielo, pavimento) y partes de objetos (techo como subparte del edificio) junto con los atributos de objeto (casa blanca, techo rojo, césped bien cuidado) y las relaciones entre objetos (césped que se extiende hasta el pavimento, cielo sobre el edificio). Los LMM existentes, de código abierto (por ejemplo, LLaVa, miniGPT4, Shikra, Kosmos-2) y de código cerrado (por ejemplo, GPT4-V, Bard), no ofrecen capacidad de conversación basada en datos a nivel de píxel.


Algunos trabajos recientes han explorado la generación de respuestas textuales fundamentadas [5, 21, 35, 59], pero no proporcionan fundamentos detallados a nivel de píxel. Paralelamente, se han hecho esfuerzos en la literatura de segmentación de referencia para fundamentar descripciones textuales en imágenes naturales [21]. Sin embargo, se limitan a fundamentar un solo objeto y no pueden participar en conversaciones naturales y coherentes, lo que restringe su aplicabilidad práctica en tareas interactivas que exigen una comprensión profunda del contenido visual y textual. Para abordar estas limitaciones de los trabajos existentes, presentamos Grounding LMM (GLaMM), que proporciona simultáneamente una comprensión profunda de la región, fundamentos a nivel de píxel y habilidades conversacionales a través de un enfoque de entrenamiento de extremo a extremo (consulte la Figura 1 y la Tabla 1).


Para abordar la falta de puntos de referencia para conversaciones con fundamento visual, presentamos la nueva tarea de Generación de Conversaciones con Fundamento (GCG). La tarea GCG tiene como objetivo producir respuestas en lenguaje natural intercaladas con máscaras de segmentación de objetos. Esta desafiante tarea unifica varias tareas existentes en visión por computadora que normalmente se tratan de forma aislada, es decir, segmentación de expresiones de referencia, subtítulos a nivel de región e imagen, fundamentación de frases y conversaciones entre visión y lenguaje. De este modo, nuestro modelo unificado y el conjunto de datos de preentrenamiento propuesto pueden transferirse de manera efectiva a varias tareas posteriores (segmentación de expresiones de referencia, subtítulos a nivel de región, subtítulos de imágenes y control de calidad de estilo conversacional). Presentamos GLaMM como el primer modelo diseñado específicamente para esta desafiante tarea. A diferencia de trabajos anteriores, GLaMM puede funcionar con indicaciones tanto textuales como visuales y puede generar resultados con fundamento visual, ofreciendo así una experiencia de usuario versátil.


La comprensión detallada a nivel de región requiere el laborioso proceso de recopilar anotaciones a gran escala para las regiones de imágenes. Proponemos una secuencia automatizada para anotar el conjunto de datos Grounding-anything (GranD) a gran escala para aliviar el esfuerzo de etiquetado manual. Aprovechando la secuencia automatizada con pasos de verificación dedicados, GranD comprende 7,5 millones de conceptos únicos anclados en 810 millones de regiones, cada una con una máscara de segmentación. Utilizando modelos de visión y lenguaje de última generación, el conjunto de datos anota imágenes SAM [18] a través de un esquema jerárquico de múltiples niveles que mejora la calidad de la anotación. Con 11 millones de imágenes, 84 millones de expresiones de referencia y 33 millones de subtítulos fundamentados, GranD establece un nuevo punto de referencia en cuanto a exhaustividad. Además del conjunto de datos generado automáticamente para el GCG, proporcionamos el primer conjunto de datos de alta calidad para conversaciones fundamentadas obtenido mediante la renovación de los conjuntos de datos anotados manualmente existentes [16, 37, 49] para el GCG utilizando el aprendizaje en contexto GPT-4 [34]. Nos referimos al conjunto de datos de alta calidad como GranDf, lo que denota su idoneidad para el ajuste fino.


Nuestro trabajo tiene tres contribuciones principales:


• Presentamos GLaMM, el primer modelo capaz de generar respuestas en lenguaje natural integradas a la perfección con máscaras de segmentación de objetos. A diferencia de los modelos existentes, GLaMM admite indicaciones textuales y visuales, lo que facilita una interacción multimodal mejorada del usuario.


• Reconociendo la falta de parámetros estandarizados para conversaciones con fundamento visual, proponemos la nueva tarea de Generación de Conversaciones con Base Visual (GCG, por sus siglas en inglés). También presentamos un protocolo de evaluación integral para medir la eficacia de los modelos para GCG que unifica múltiples tareas aisladas, llenando un vacío significativo en la literatura.


• Para facilitar el entrenamiento y la evaluación de modelos, creamos Grounding-anything Dataset (GranD), un conjunto de datos anotados de gran escala y denso. Desarrollado mediante un proceso de anotación automático y criterios de verificación, abarca 7,5 millones de conceptos únicos basados en 810 millones de regiones. Además, proponemos GranDf, un conjunto de datos de alta calidad diseñado explícitamente para el ajuste fino de la tarea GCG, mediante la reutilización de conjuntos de datos de código abierto existentes.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.