976 रीडिंग

जेमिनी - अत्यधिक सक्षम मल्टीमॉडल मॉडल का परिवार: सार और परिचय

द्वारा EScholar: Electronic Academic Papers for Scholars5m2023/12/24

बहुत लंबा; पढ़ने के लिए

यह रिपोर्ट मल्टीमॉडल मॉडल, जेमिनी, के एक नए परिवार का परिचय देती है, जो छवि, ऑडियो, वीडियो और पाठ समझ में उल्लेखनीय क्षमताओं का प्रदर्शन करता है। जेमिनी परिवार में अल्ट्रा, प्रो और नैनो आकार शामिल हैं, जो जटिल तर्क कार्यों से लेकर ऑन-डिवाइस मेमोरी-बाधित उपयोग-मामलों तक के अनुप्रयोगों के लिए उपयुक्त हैं। बेंचमार्क की एक विस्तृत श्रृंखला पर मूल्यांकन से पता चलता है कि हमारा सबसे सक्षम जेमिनी अल्ट्रा मॉडल इनमें से 32 में से 30 बेंचमार्क में अत्याधुनिक को आगे बढ़ाता है - विशेष रूप से अच्छी तरह से अध्ययन किए गए परीक्षा बेंचमार्क एमएमएलयू पर मानव-विशेषज्ञ प्रदर्शन हासिल करने वाला पहला मॉडल है। और हमारे द्वारा जांचे गए 20 मल्टीमॉडल बेंचमार्क में से प्रत्येक में कला की स्थिति में सुधार करना। हमारा मानना है कि क्रॉस-मोडल तर्क और भाषा समझ में जेमिनी मॉडल की नई क्षमताएं विभिन्न प्रकार के उपयोग के मामलों को सक्षम करेंगी और हम उन्हें उपयोगकर्ताओं के लिए जिम्मेदारी से तैनात करने के प्रति अपने दृष्टिकोण पर चर्चा करते हैं।

featured image - जेमिनी - अत्यधिक सक्षम मल्टीमॉडल मॉडल का परिवार: सार और परिचय

यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।

लेखक:

(1) जेमिनी टीम, गूगल।

लिंक की तालिका

चर्चा एवं निष्कर्ष, सन्दर्भ

योगदान और आभार

अनुबंध

यह रिपोर्ट मल्टीमॉडल मॉडल, जेमिनी, के एक नए परिवार का परिचय देती है, जो छवि, ऑडियो, वीडियो और पाठ समझ में उल्लेखनीय क्षमताओं का प्रदर्शन करता है। जेमिनी परिवार में अल्ट्रा, प्रो और नैनो आकार शामिल हैं, जो जटिल तर्क कार्यों से लेकर ऑन-डिवाइस मेमोरी-बाधित उपयोग-मामलों तक के अनुप्रयोगों के लिए उपयुक्त हैं। बेंचमार्क की एक विस्तृत श्रृंखला पर मूल्यांकन से पता चलता है कि हमारा सबसे सक्षम जेमिनी अल्ट्रा मॉडल इन बेंचमार्क में से 30 में से 30 में अत्याधुनिक है - विशेष रूप से अच्छी तरह से अध्ययन किए गए परीक्षा बेंचमार्क एमएमएलयू पर मानव-विशेषज्ञ प्रदर्शन हासिल करने वाला पहला मॉडल है। और हमारे द्वारा जांचे गए 20 मल्टीमॉडल बेंचमार्क में से प्रत्येक में कला की स्थिति में सुधार करना। हमारा मानना है कि क्रॉस-मोडल तर्क और भाषा समझ में जेमिनी मॉडल की नई क्षमताएं विभिन्न प्रकार के उपयोग के मामलों को सक्षम करेंगी और हम उन्हें उपयोगकर्ताओं के लिए जिम्मेदारी से तैनात करने के प्रति अपने दृष्टिकोण पर चर्चा करते हैं।

1 परिचय

हम जेमिनी प्रस्तुत करते हैं, जो Google में विकसित अत्यधिक सक्षम मल्टीमॉडल मॉडल का एक परिवार है। हमने प्रत्येक संबंधित डोमेन में अत्याधुनिक समझ और तर्क प्रदर्शन के साथ-साथ तौर-तरीकों में मजबूत सामान्यवादी क्षमताओं के साथ एक मॉडल बनाने के उद्देश्य से जेमिनी को छवि, ऑडियो, वीडियो और टेक्स्ट डेटा में संयुक्त रूप से प्रशिक्षित किया।

जेमिनी 1.0, हमारा पहला संस्करण, तीन आकारों में आता है: अत्यधिक जटिल कार्यों के लिए अल्ट्रा, उन्नत प्रदर्शन और बड़े पैमाने पर तैनाती के लिए प्रो, और ऑन-डिवाइस अनुप्रयोगों के लिए नैनो। प्रत्येक आकार को विशेष रूप से विभिन्न कम्प्यूटेशनल सीमाओं और अनुप्रयोग आवश्यकताओं को संबोधित करने के लिए तैयार किया गया है। हम भाषा, कोडिंग, तर्क और मल्टीमॉडल कार्यों की एक विस्तृत श्रृंखला को कवर करने वाले आंतरिक और बाहरी बेंचमार्क के व्यापक सूट पर जेमिनी मॉडल के प्रदर्शन का मूल्यांकन करते हैं।

जेमिनी ने बड़े पैमाने पर भाषा मॉडलिंग में अत्याधुनिक प्रगति की है (अनिल एट अल., 2023; ब्राउन एट अल., 2020; चौधरी एट अल., 2023; हॉफमैन एट अल., 2022; ओपनएआई, 2023ए; रेडफोर्ड एट) अल., 2019; राय एट अल., 2021), इमेज अंडरस्टैंडिंग (एलेराक एट अल., 2022; चेन एट अल., 2022; डोसोवित्स्की एट अल., 2020; ओपनएआई, 2023बी; रीड एट अल., 2022; यू एट अल., 2022ए), ऑडियो प्रोसेसिंग (रेडफोर्ड एट अल., 2023; झांग एट अल., 2023), और वीडियो समझ (अलायराक एट अल., 2022; चेन एट अल., 2023)। यह अनुक्रम मॉडल (सटस्केवर एट अल., 2014), तंत्रिका नेटवर्क पर आधारित गहन शिक्षण में काम का एक लंबा इतिहास (लेकुन एट अल., 2015), और मशीन लर्निंग वितरित सिस्टम (बरहम एट अल.) पर काम पर भी आधारित है। 2022; ब्रैडबरी एट अल., 2018; डीन एट अल., 2012) जो बड़े पैमाने पर प्रशिक्षण को सक्षम बनाता है।

हमारा सबसे सक्षम मॉडल, जेमिनी अल्ट्रा, हमारे द्वारा रिपोर्ट किए गए 32 बेंचमार्क में से 30 में नए अत्याधुनिक परिणाम प्राप्त करता है, जिसमें 12 लोकप्रिय पाठ और तर्क बेंचमार्क में से 10, 9 छवि समझ बेंचमार्क में से 9, 6 वीडियो समझ बेंचमार्क में से 6 शामिल हैं। , और 5 में से 5 वाक् पहचान और वाक् अनुवाद बेंचमार्क। जेमिनी अल्ट्रा एमएमएलयू (हेंड्रिक्स एट अल., 2021ए) पर मानव-विशेषज्ञ प्रदर्शन हासिल करने वाला पहला मॉडल है - परीक्षाओं के एक सेट के माध्यम से ज्ञान और तर्क का परीक्षण करने वाला एक प्रमुख बेंचमार्क - 90% से अधिक स्कोर के साथ। पाठ से परे, जेमिनी अल्ट्रा चुनौतीपूर्ण मल्टीमॉडल तर्क कार्यों पर उल्लेखनीय प्रगति करता है। उदाहरण के लिए, हाल के एमएमएमयू बेंचमार्क (यू एट अल., 2023) पर, जिसमें कॉलेज स्तर के विषय ज्ञान और जानबूझकर तर्क की आवश्यकता वाले बहु-विषयक कार्यों पर छवियों के बारे में प्रश्न शामिल हैं, जेमिनी अल्ट्रा ने एक नया अत्याधुनिक स्कोर हासिल किया है। 62.4% का, पिछले सर्वश्रेष्ठ मॉडल से 5 प्रतिशत से अधिक अंकों से बेहतर प्रदर्शन करते हुए। यह वीडियो प्रश्न उत्तर और ऑडियो समझ बेंचमार्क के लिए एक समान प्रदर्शन लिफ्ट प्रदान करता है।

गुणात्मक मूल्यांकन प्रभावशाली क्रॉसमोडल तर्क क्षमताओं को प्रदर्शित करता है, जो मॉडल को ऑडियो, छवियों और पाठ के इनपुट अनुक्रम को मूल रूप से समझने और तर्क करने में सक्षम बनाता है (चित्र 5 और तालिका 13 देखें)। उदाहरण के तौर पर चित्र 1 में दर्शाई गई शैक्षिक सेटिंग पर विचार करें। एक शिक्षक ने एक स्कीयर के ढलान से नीचे जाने की भौतिकी समस्या तैयार की है, और एक छात्र ने इसके समाधान पर काम किया है। जेमिनी की मल्टीमॉडल तर्क क्षमताओं का उपयोग करते हुए, मॉडल अव्यवस्थित लिखावट को समझने में सक्षम है, समस्या के सूत्रीकरण को सही ढंग से समझता है, समस्या और समाधान दोनों को गणितीय टाइपसेटिंग में परिवर्तित करता है, तर्क के उस विशिष्ट चरण की पहचान करता है जहां छात्र समस्या को हल करने में गलत हो गया, और फिर समस्या का कार्यशील सही समाधान दें। यह रोमांचक शैक्षिक संभावनाओं को खोलता है, और हमारा मानना है कि जेमिनी मॉडल की नई मल्टीमॉडल और तर्क क्षमताओं का कई क्षेत्रों में नाटकीय अनुप्रयोग है।

बड़े भाषा मॉडल की तर्क क्षमताएं सामान्यवादी एजेंटों के निर्माण की दिशा में वादा दिखाती हैं जो अधिक जटिल बहु-चरणीय समस्याओं से निपट सकते हैं। अल्फ़ाकोड टीम ने अल्फ़ाकोड 2 (लेब्लॉन्ड एट अल, 2023) बनाया, जो एक नया जेमिनी-संचालित एजेंट है, जो प्रतिस्पर्धी प्रोग्रामिंग समस्याओं को हल करने में उत्कृष्टता प्राप्त करने के लिए जेमिनी की तर्क क्षमताओं को खोज और टूल-उपयोग के साथ जोड़ता है। अल्फाकोड 2 कोडफोर्सेस प्रतिस्पर्धी प्रोग्रामिंग प्लेटफॉर्म पर शीर्ष 15% प्रवेशकों में शुमार है, जो शीर्ष 50% (ली एट अल., 2022) में अपने अत्याधुनिक पूर्ववर्ती की तुलना में एक बड़ा सुधार है।

साथ में, हम जेमिनी नैनो के साथ दक्षता की सीमा को आगे बढ़ाते हैं, जो ऑन-डिवाइस परिनियोजन को लक्षित करने वाले छोटे मॉडलों की एक श्रृंखला है। ये मॉडल ऑन-डिवाइस कार्यों में उत्कृष्टता प्राप्त करते हैं, जैसे सारांशीकरण, पढ़ने की समझ, पाठ पूरा करने के कार्य, और अपने आकार के सापेक्ष तर्क, एसटीईएम, कोडिंग, मल्टीमॉडल और बहुभाषी कार्यों में प्रभावशाली क्षमताओं का प्रदर्शन करते हैं।

निम्नलिखित अनुभागों में, हम पहले मॉडल वास्तुकला, प्रशिक्षण बुनियादी ढांचे और प्रशिक्षण डेटासेट का अवलोकन प्रदान करते हैं। फिर हम जेमिनी मॉडल परिवार का विस्तृत मूल्यांकन प्रस्तुत करते हैं, जिसमें पाठ, कोड, छवि, ऑडियो और वीडियो में अच्छी तरह से अध्ययन किए गए बेंचमार्क और मानव-वरीयता मूल्यांकन शामिल हैं - जिसमें अंग्रेजी प्रदर्शन और बहुभाषी क्षमताएं दोनों शामिल हैं। हम जिम्मेदार तैनाती के प्रति अपने दृष्टिकोण पर भी चर्चा करते हैं, [2] जिसमें प्रभाव आकलन, मॉडल नीतियों के विकास, मूल्यांकन और तैनाती निर्णयों से पहले नुकसान को कम करने की हमारी प्रक्रिया शामिल है। अंत में, हम जेमिनी के व्यापक निहितार्थों, इसकी सीमाओं के साथ-साथ इसके संभावित अनुप्रयोगों पर चर्चा करते हैं - एआई में अनुसंधान और नवाचार के एक नए युग का मार्ग प्रशस्त करते हैं।

[2] हम जेमिनी अल्ट्रा मॉडल की सामान्य उपलब्धता से पहले इस रिपोर्ट को अधिक विवरण के साथ अपडेट करने की योजना बना रहे हैं।