Skrywers:
(1) Hanoona Rasheed, Mohamed bin Zayed Universiteit van KI en ewe bydraende eerste skrywers;
(2) Muhammad Maaz, Mohamed bin Zayed Universiteit van KI en ewe bydraende eerste skrywers;
(3) Sahal Shaji, Mohamed bin Zayed Universiteit van KI;
(4) Abdelrahman Shaker, Mohamed bin Zayed Universiteit van KI;
(5) Salman Khan, Mohamed bin Zayed Universiteit van KI en Australiese Nasionale Universiteit;
(6) Hisham Cholakkal, Mohamed bin Zayed Universiteit van KI;
(7) Rao M. Anwer, Mohamed bin Zayed Universiteit van KI en Aalto Universiteit;
(8) Eric Xing, Mohamed bin Zayed Universiteit van KI en Carnegie Mellon Universiteit;
(9) Ming-Hsuan Yang, Universiteit van Kalifornië - Merced en Google Research;
(10) Fahad S. Khan, Mohamed bin Zayed Universiteit van KI en Linköping Universiteit.
Redakteur se Nota: Dit is Deel 1 van 10 van 'n studie wat die ontwikkeling van 'n KI-model uiteensit wat ontwerp is om beelde aan gebruikers te beskryf. Lees die res hieronder.
Aanvullende materiaal (Deel 1)
Aanvullende materiaal (Deel 2)
Groot Multimodale Modelle (LMM'e) brei Groot Taalmodelle uit na die visiedomein. Aanvanklike LMM'e het holistiese beelde en teksaanwysings gebruik om ongegronde teksresponse te genereer. Onlangs is streekvlak LMM's gebruik om visueel gegronde antwoorde te genereer. Hulle is egter beperk tot slegs verwysing na 'n enkele voorwerpkategorie op 'n slag, vereis dat gebruikers die streke spesifiseer, of kan nie digte pixelwyse voorwerpgronding bied nie. In hierdie werk bied ons Grounding LMM (GLaMM) aan, die eerste model wat natuurlike taalreaksies naatloos verweef met ooreenstemmende objeksegmenteringsmaskers kan genereer. GLaMM grond nie net voorwerpe wat in die gesprekke voorkom nie, maar is buigsaam genoeg om beide tekstuele en opsionele visuele aanwysings (streek van belang) as insette te aanvaar. Dit bemagtig gebruikers om interaksie met die model te hê op verskeie vlakke van granulariteit, beide in tekstuele en visuele domeine. Weens die gebrek aan standaardmaatstawwe vir die nuwe opset van visueel gegronde gesprekgenerering (GCG), stel ons 'n omvattende evalueringsprotokol met ons saamgestelde gegronde gesprekke bekend. Ons voorgestelde GCG-taak vereis diggegronde konsepte in natuurlike tonele op groot skaal. Vir hierdie doel stel ons 'n dig geannoteerde Grond-enigiets-datastel (GranD) voor deur gebruik te maak van ons voorgestelde outomatiese annotasie-pyplyn wat 7.5M unieke konsepte insluit wat in 'n totaal van 810M streke beskikbaar is met segmenteringsmaskers. Benewens GCG, voer GLaMM ook effektief op verskeie afstroomtake, bv. verwysing van uitdrukkingsegmentering, beeld- en streekvlak-onderskrifte en visie-taalgesprekke.
Aangevuur deur die generatiewe KI-golf, het Groot Multimodale Modelle (LMM's) na vore gekom as 'n deurslaggewende vooruitgang, wat die gaping tussen visie en taaltake oorbrug [2]. Aanvanklike pogings soos [6, 8, 22, 29, 52, 61] demonstreer effektiewe tekstuele response gebaseer op insetbeelde. Alhoewel hierdie modelle gesofistikeerd is, kan hulle nie steeds hul reaksies in die visuele konteks grond nie. Sulke begronding is noodsaaklik vir gevorderde toepassings soos gedetailleerde visuele begrip, interaktiewe beliggaamde agente en gelokaliseerde inhoudmanipulasie. Onlangse pogings het begin om hierdie beperking aan te spreek deur modelle in staat te stel om gebruiker-gedefinieerde streke te verwerk wat deur grenskasies gespesifiseer is [5, 31, 35, 36, 57].
'n Paar onlangse werke het die generering van gegronde teksreaksie [5, 21, 35, 59] ondersoek, maar verskaf nie gedetailleerde pixel-vlak grondings nie. Parallel hiermee is pogings in die verwysende segmenteringsliteratuur aangewend om tekstuele beskrywings in natuurlike beelde te grond [21]. Hulle is egter beperk tot die begronding van 'n enkele voorwerp en kan nie in natuurlike, samehangende gesprekke betrokke raak nie, en beperk daardeur hul praktiese toepaslikheid in interaktiewe take wat 'n diep begrip van beide visuele en tekstuele inhoud vereis. Om hierdie beperkings van bestaande werke aan te spreek, stel ons Grounding LMM (GLaMM) bekend, wat terselfdertyd in-diepte streekbegrip, pixelvlak grondings en gespreksvermoëns verskaf deur 'n end-tot-end opleidingsbenadering (sien Fig. 1 en Tab. 1).
Om die gebrek aan maatstawwe vir visueel gegronde gesprekke aan te spreek, stel ons die nuwe taak van Grounded Conversation Generation (GCG) bekend. Die GCG-taak het ten doel om natuurlike taalreaksies te produseer wat met objeksegmenteringsmaskers verweef is. Hierdie uitdagende taak verenig verskeie bestaande take in rekenaarvisie wat tipies in isolasie behandel word, dit wil sê, verwysende uitdrukkingsegmentering, beeld- en streekvlak-onderskrifte, frasegronding en visie-taalgesprekke. Daardeur kan ons verenigde model en voorgestelde vooropleidingsdatastel effektief oorgedra word na verskeie stroomaf take (verwysende uitdrukkingssegmentering, streekvlak-onderskrifte, beeldonderskrifte en gesprekstyl-QA). Ons bied GLaMM aan as die eerste model wat spesifiek ontwerp is vir hierdie uitdagende taak. In teenstelling met vorige werke, kan GLaMM met beide tekstuele en visuele aanwysings werk en kan visueel gegronde uitsette genereer, wat dus 'n veelsydige gebruikerservaring bied.
Gedetailleerde streekvlakbegrip vereis die moeisame proses om grootskaalse aantekeninge vir beeldstreke te versamel. Ons stel 'n geoutomatiseerde pyplyn voor om die grootskaalse Grounding-enigiets-datastel (GrandD) te annoteer om die poging tot handmatige etikettering te verlig. Deur gebruik te maak van die outomatiese pyplyn met toegewyde verifikasiestappe, bestaan GranD uit 7.5M unieke konsepte wat in 810M streke geanker is, elk met 'n segmenteringsmasker. Deur gebruik te maak van moderne visie- en taalmodelle, annoteer die datastel SAM [18] beelde deur 'n multi-vlak hiërargiese skema wat annotasie kwaliteit verbeter. Met 11M beelde, 84M verwysende uitdrukkings en 33M gegronde onderskrifte, stel GrandD 'n nuwe maatstaf in omvattendheid. Benewens die outomaties gegenereerde datastel vir die GCG, verskaf ons die eerste datastel van hoë gehalte vir gegronde gesprekke wat verkry is deur die bestaande met die hand geannoteerde datastelle [16, 37, 49] vir GCG op te knap deur gebruik te maak van GPT-4 [34] inkonteksleer. Ons verwys na die datastel van hoë gehalte as GranDf , wat die geskiktheid daarvan vir fynverstelling aandui.
Ons werk het drie hoofbydraes:
• Ons bied GLaMM aan, die eerste model wat in staat is om natuurlike taalreaksies te genereer wat naatloos geïntegreer is met objeksegmenteringsmaskers. Anders as bestaande modelle, akkommodeer GLaMM tekstuele en visuele aanmanings, wat verbeterde multimodale gebruikersinteraksie vergemaklik.
• Met erkenning van die gebrek aan gestandaardiseerde maatstawwe vir visueel-gegronde gesprekke, stel ons die nuwe Grounded Conversation Generation-taak (GCG) voor. Ons stel ook 'n omvattende evalueringsprotokol bekend om die doeltreffendheid van modelle vir GCG te meet wat veelvuldige geïsoleerde take verenig, wat 'n beduidende gaping in die literatuur vul.
• Om modelopleiding en -evaluering te fasiliteer, skep ons Grounding-anything Dataset (GranD), 'n grootskaalse dig geannoteerde datastel. Ontwikkel met behulp van 'n outomatiese annotasie-pyplyn en verifikasiekriteria, dit omvat 7.5M unieke konsepte wat in 810M streke gegrond is. Boonop stel ons GranDf voor, 'n datastel van hoë gehalte wat eksplisiet ontwerp is vir die GCG-taakafstemming, deur bestaande oopbron-datastelle te hergebruik.
Hierdie vraestel is beskikbaar op arxiv onder CC BY 4.0 DEED-lisensie.