paint-brush
गुगलले ओपनएआईलाई ठग्यो यो अगाडि थियो भनेर सोच्दै (यो थिएन)द्वारा@hacker661972
नयाँ इतिहास

गुगलले ओपनएआईलाई ठग्यो यो अगाडि थियो भनेर सोच्दै (यो थिएन)

द्वारा 11m2024/12/25
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

गुगलले एजेन्टिक प्रवाह निर्माण गर्न सस्तो, छिटो र अत्यधिक सक्षम मोडेल जारी गरेको छ।
featured image - गुगलले ओपनएआईलाई ठग्यो यो अगाडि थियो भनेर सोच्दै (यो थिएन)
undefined HackerNoon profile picture
0-item


प्लास्टिक प्रभावकारी। AI Fanboy। गत्ता विशेषज्ञ। एआई वरपरको 'हाइप' को लहरलाई वर्णन गर्न आधुनिक शब्दकोशमा प्रवेश गर्ने सबै सर्तहरू। म लामो समयदेखि GenAI दृश्यमा केही अधिक विदेशी र भव्य दावीहरूको शंकास्पद भएको छु।


१/ प्रोग्रामरहरू गायब हुनेछन्

2/ AGI 2024 मा आइपुग्छ

3/ सबै कामहरू स्वचालित हुनेछन्

४/ रोबोटहरू सचेत हुनेछन् (स्काइनेट)


यो सबै निराधार हाइपरबोल अधिक चरमपन्थी विचारहरूमा नखोजिकन (त्यहाँ Reddit फोरम एकलता छ जसमा 3.4 मिलियन सदस्यहरू छन्)


म विशेष गरी कम्प्यूटर एल्गोरिदमहरूमा भावना र कल्पनाको प्रक्षेपणबाट रमाइलो छु जुन राम्रो सामानहरू गर्न सक्षम छ। तपाईंले मलाई सहयात्री एपमा भेट्टाउनुहुनेछैन, र मलाई विश्वास छ कि AI चेतनाको यस Skynet धारणाको सदस्यता लिने धेरै प्रतिभाशाली व्यक्तिहरूले आफ्नो विवेक गुमाउने जोखिममा छन्।


मेरा भर्खरका ब्लगहरू मुख्यधारा र केही हदसम्म काल्पनिक एआई विश्व दृश्यको विरोधमा छन् 👇

AI संचालित भ्वाइस च्याट: सुँगुरमा लिपस्टिक (जुन २०२४)

यी सबै एपीआईहरूले अडियोलाई पाठमा रूपान्तरण गर्दैछन्, यसलाई भाषा मोडेल मार्फत प्रशोधन गर्दै छन्, र त्यसपछि यसलाई अडियोमा रूपान्तरण गर्दैछन्। यो सतहमा परिष्कृत लाग्न सक्छ तर तल यो रोबोटको आवाजमा आधारभूत पाठ उत्पादन मात्र हो। प्रत्येक व्यक्तिगत प्रणाली व्यापक र यथोचित रूपमा परिपक्व छ, तर ती सबैलाई हाम्रो प्रवचनात्मक सुँगुरमा टाँस्नुहोस् र अडियो अन्तरक्रियाको सूक्ष्मताहरूको वास्तविक बुझाइ छैन।


यदि यो सुँगुर जस्तो देखिन्छ भने, सुँगुर जस्तै चिच्याउँछ र सुँगुर जस्तै हिंड्छ। यो सुँगुर हो। लिपस्टिक लगाएको भए पनि।

जेनेरेटिभ एआई: स्लेजह्यामरको साथ क्र्याकिंग नट्स (जुलाई २०२४)

उत्कृष्टताको लागि बाधा कहिल्यै कम भएको छैन, किनकि प्रतिस्पर्धा एल्गोरिदम र यसको अव्यवस्थित र अनुभवहीन मास्टरको साथ बढ्दो छ।


रोबोट कहिले पनि साँचो विशेषज्ञतामा पुग्न सक्दैन, किनकि त्यहाँ क्राउडसोर्स गर्न वास्तविक विशेषज्ञहरूको पर्याप्त डेटासेट कहिल्यै हुनेछैन। र क्राउडसोर्सिङले औसत परिणाम लिन्छ, उत्तम होइन। रोबोटले सोच्दैन। यो दोहोरिन्छ।

एजेन्टिक फ्रेमवर्कको झूट (डिसेम्बर २०२४)

एउटा उपकरण वा ढाँचा प्रदान गर्ने समस्या जसले तपाईंलाई अमूर्त कार्यक्षमताको लागि अनुमति दिन्छ कि यो अनुमानहरूको सेटको साथ आउँदछ। जब म हथौडा किन्छु, मलाई लाग्छ कि यसले काम गर्छ। जब म प्रेशर क्लिनर किन्छु, म मान्दछु कि यसले काम गर्नेछ।


समस्या यो हो कि जब म फ्रेमवर्क प्रयोग गर्छु, म मान्दछु कि यसले काम गर्नेछ। तर अन्तर्निहित प्रविधिको परिपक्वतालाई ध्यानमा राखेर यो एकदमै असम्भव छ। बढ्दो अपनाउने भन्दा टाढा, Agentic Frameworks ले उच्च नियन्त्रित डेमो र सीमित प्रयोग केसहरूको शीर्षमा एक भ्रम बेचिरहेको छ जुन वास्तवमा सामान्य प्रयोगकर्ताको हातमा कहिल्यै काम गर्दैन (र त्यहाँ लाखौं छन् ...)।


यो प्रस्तावना एउटा बिन्दु बनाउन हो।


मलाई विश्वास गर्नुहोस् जब म भन्छु कि म यो हल्का रूपमा बोल्दिन।


गुगलले भर्खर जेमिनी २.० फ्ल्याशको साथ गरेको छ सबै कुरा परिवर्तन भएको छ। सबै कुरा।


र यो आउँदै गरेको कसैले देखेन।

परिदृश्य

मेरो आमाबाबुको मनपर्ने कथाहरू मध्ये एक हो कि म 5 वर्षको हुँदा, मलाई स्थानीय जन्म नाटकमा भाग दिइयो। रूखको रूपमा कास्ट गर्नुहोस्, मेरो भूमिका चुपचाप सेटलाई सजाउनु थियो जबकि ठूला र अधिक सक्षम बच्चाहरूले येशू ख्रीष्टको जन्मको व्याख्या गरे।


म यो सानो भूमिकाबाट खासै सन्तुष्ट थिइनँ।


मलाई स्टेजबाट तान्नु अघि अर्को १०-१५ मिनेटमा, म स्टेजको बारेमा कलाकारहरूको पछि लागें, तिनीहरूको लाइनहरू चोर्दै र नाटकको आफ्नै व्याख्या गर्जन गर्दै।


उत्तम क्षणहरूमा अन्तरक्रिया गर्दै, अरूमा प्रदर्शन गर्दै। यो अवरोधको मास्टरक्लास थियो, र हेर्ने भीडको हरेक हाँसो र आँसु आँखाले मलाई थप आकर्षित गर्यो। यो निर्मम विनाश थियो।


प्रस्तुति प्रहसनमा झर्यो, दर्शकहरू हाँसेर रोए; कलाकारहरू चकित र अलमलमा परे।


त्यो हाँसोले मलाई हौसला दियो, चर्को बन्यो ।


नाटक प्यान्टोमाइममा परिणत भयो, काम पूरा भयो। आजको दिनसम्म यो नयाँ र युवा परिवारका सदस्यहरूलाई डिनर पार्टीहरूमा भनिएको कथा बनेको छ।


अवश्य पनि, यो विशेष नाटक ओपन AIs क्रिसमसको 12 दिन हो र कसरी गुगलले तिनीहरूको गर्जन मात्र चोरेको छैन, तर कथालाई आदेश दिएको छ, लाइमलाइट चोरेको छ र OpenAI बाट क्रिसमस उत्सवलाई जाडोको दुःस्वप्नमा परिणत गरेको छ।


म, (धेरै तर्कसंगत व्यक्तिहरू जस्तै), OpenAI द्वारा क्रिसमसको 12 दिनहरूमा सन्देहको स्वस्थ डिग्रीको साथ ट्युन गरिएको थियो, र तिनीहरूले फोन कलहरू र खगोलीय रूपमा महँगो र ढिलो API कलहरू थोरै सुधारिएको LLM मोडेलमा देखेको थिएँ, र आश्वस्त महसुस गरें। मेरो निन्दनीय विश्व दृश्य प्रमाणित भयो।


त्यसपछि केही भयो।


यो पृष्ठभूमिमा भयो, उत्तम नाटकीय समयको साथ; भूकम्पजस्तै प्रभावहरू आउँदैछन् र ती सबैले महसुस गर्नेछन् र प्रत्येक उत्पादनमा देख्नेछन्।


मलाई लाग्यो कि गुगलले AI मा बल छोडेको छ, हामी सबैले गर्यौं। तिनीहरू सबै व्यावहारिक प्रयोगहरूमा अप्रासंगिक थिए। गुणस्तर कमजोर थियो, कार्यक्षमता सीमित थियो।


यो बाहिर जान्छ कि तिनीहरूले बल छोडेनन् र काममा सुतिरहेका थिएनन्। उत्पादनमा GenAI लाई प्रभावकारी रूपमा प्रयोग गर्न आवश्यक पर्ने टुलिङ निर्माण गर्दा तिनीहरूले बिटा रिलीजहरू, एपीआईहरू र स्केलका समस्याहरूसँग कुश्ती गर्न प्रतिस्पर्धा (अहिले तुलनात्मक रूपमा) छोड्दै थिए।


एक हप्ता अघि सम्म मसँग लाइभ Google API कुञ्जी पनि थिएन।


यो हप्ता, म मेरा प्रत्येक सेवाहरू माइग्रेट गर्ने प्रक्रियामा छु।


यो चाप लाग्न सक्छ, तर मलाई व्याख्या गरौं।

वैज्ञानिक र निर्माणकर्ता

एआईको संसारमा अहिले दुई फरक गुटहरू छन्; वैज्ञानिकहरू र निर्माणकर्ताहरू।


अग्रगामी र वैज्ञानिकहरू AGI र उपन्यास प्रयोग केसहरू खोजिरहेका छन्; यो महत्त्वपूर्ण काम हो जस्तै क्यान्सर उपचारको लागि नयाँ दृष्टिकोणहरू वा क्वान्टम भौतिकीमा शैक्षिक सफलताहरू खोज्नु। यो सैद्धान्तिक हुन सक्छ वा केहि अवस्थामा पनि व्यावहारिक प्रयोग केसहरूको केही हरियो अंकुरणहरू, विशेष गरी रोबोटिक्सको डोमेनमा उदाहरणका लागि।


यी मानिसहरू AGI लाई पछ्याउन र GenAI लाई हालको LLM मा उपयोगिता बढाउने बौद्धिकताको थप हाइब्रिड रूपमा अनुकूलन गर्न इच्छुक छन्। यसले वर्षौं लिन सक्छ, यसले पुस्ताहरू लिन सक्छ (सायद!)।


म दृढतापूर्वक र निर्लज्ज रूपमा दोस्रो गुटमा छु; हामी निर्माणकर्ता हौं।


GenAI पहिले नै अविश्वसनीय सामानको लागि सक्षम छ। एक-दुई वर्षअघिका कुराहरू असम्भव हुने थिए। म अहिले काम गर्ने सामानहरू निर्माण गर्न चाहन्छु।


हातमा रहेको शिल्प र काम उपलब्ध LLMs र API सँग काम गर्दैछ र हामीले लागू गर्न सक्ने प्रयोगका केसहरू हेर्दैछ।


एक बिल्डरलाई उपकरणहरू चाहिन्छ र मेरो स्ट्याक सबै उपलब्ध एपीआईहरू र मोडेलहरूको उपयोगिता परीक्षण गर्न खर्च गरिएको अनगिन्ती घण्टाबाट व्युत्पन्न गरिएको थियो।


1/ क्लाउड 3.5 कोडिङका लागि सनेट (कोड)

2/ ओपनएआई एपीआईहरू संरचित डेटा तर्कका लागि (एजेन्टहरू)

3/ Groq / Fireworks AI API हरू सस्तो र तत्काल अनुमानका लागि (व्यक्तिगत कलहरू)

४/ स्थानीय/उपकरणका लागि लामा (एज कम्प्युटिङ)


मैले सोचे कि मेरो धेरै आधारहरू अर्को 3-5 वर्षसम्म कभर हुनेछन्।


सम्भावित रूपमा केहि बिन्दुमा मैले सस्तो विकल्पको लागि OpenAI मोडेलहरू स्वैप गर्न सक्छु, तर जे भए पनि मेरो मापनमा अनुमान लागत वास्तवमा मेरो लागि समस्या होइन। इमान्दार हुनको लागि, मलाई कुनै पनि GenAI मोडेलमा साँच्चै रुचि थिएन जुन माथि सूचीबद्ध गरिएको थिएन, मैले जेमिनी फ्ल्यास v2.0 मा ध्यान पनि दिएको थिइन।


म अहिले ध्यान दिइरहेको छु।

एजेन्टहरूले कसरी काम गर्छन्

हामी सबैलाई थाहा छ कि 2025 एजेन्टहरूको वर्ष हो, सोशल मिडियाले हामीलाई बताउन छोड्दैन।


म हाइप ट्रेनहरूलाई घृणा गर्छु तर अन्तर्निहित सत्य यो हो कि एआई प्रणालीहरू अब 'अर्ध-भरोसेमंद' रूपमा हाम्रो तर्फबाट कार्यहरू गर्न सक्षम छन्। यसैले, यो भन्न उचित छ कि त्यहाँ 2025 मा जारी गरिएको लोकप्रिय सफ्टवेयरको लोड हुनेछ जुन यो प्रतिमान प्रयोग गर्दछ।


एक सामान्य एजेन्टिक प्रवाह केहि यस्तो जान्छ।

2024 मा एजेन्टिक प्रवाह


हामीले एउटा निर्देशन प्राप्त गर्छौं (उडान बुक गर्नुहोस्, मेरी आमालाई कल गर्नुहोस्, मेरो ब्रेकफास्ट बनाउनुहोस्) जुन प्रोम्प्टद्वारा व्याख्या गरिएको छ। प्रोम्प्ट सामान्यतया API मार्फत कार्यान्वयन गरिन्छ, त्यसैले तपाईंको OpenAI वा Groq वा Fireworks AI API)। त्यो प्रम्प्टले एउटा उपकरण (स्काइस्क्यानर, वेब खोज) लाई कल गर्छ जसले परिणाम प्राप्त गर्दछ र विकासकर्ताद्वारा केही कोड सेटअपलाई कल गर्छ र "सामान" गर्छ। यस "सामान" को नतिजा त्यसपछि अर्को प्रम्प्टमा फर्काइन्छ र हामीले कार्य नगरेसम्म चक्र जारी रहन्छ (nJumps)। हुर्राह।


यो सफा वास्तुकला जस्तो लाग्दैन?


यदि यी मध्ये कुनै पनि एपीआई कल असफल भयो वा अप्रत्याशित परिणाम फर्काउँछ भने, सम्पूर्ण चेन टुटेको छ। दर्जनौं पाइथन फ्रेमवर्कहरू यस समस्यालाई सार गर्नका लागि देखा परेका छन्, तर तिनीहरूले यसलाई समाधान गर्न सक्दैनन्। टूलिङमा सुधार भइरहेको छ, हामी अब कार्यान्वयनमा त्रुटिहरू देख्न सक्छौं, संरचित डेटा प्रमाणित गर्न सक्छौं र विश्वसनीयतामा पुग्ने कुनै चीजको साथ चेनहरू निर्माण गर्न सक्छौं, त्यसैले एजेन्ट 2025 को प्रचार।


तर माथिको वास्तुकला जटिल, जटिल र अविश्वसनीय रहन्छ। यसका बावजुद, एजेन्टिक प्रवाहमा GenAI को सम्भाव्यतालाई अनलक गर्ने यो एक मात्र तरिका हो।


डिसेम्बर 2024 मा गुगलले माथिको एजेन्टिक मोडेललाई सर्वव्यापी हुनु अघि अप्रचलित बनाएको छ।


प्राथमिक कारणहरू निम्नानुसार छन्:


1/ देशी खोज

२/ एकीकृत अर्केस्ट्रेशन

3/ बहु-मोडल (जसले काम गर्दछ!)

1. Google बनाम OpenAI र Perplexity (नेटिभ टूलिङ)


https://ai.google.dev/gemini-api/docs/models/gemini-v2#search-tool


Gemini API कागजातहरू पढ्नुहोस्, र यो कुनै प्रस्ताव वा काल्पनिक होइन, तर एक API हो जसले काम गर्छ र मिलिसेकेन्डमा परिणामहरू प्रदान गर्न सक्छ।


गुगलको एकीकृत खोज भरपर्दो छ र छिटो काम पनि गर्दछ। Perplexity जस्ता प्रतिद्वन्द्वीहरूसँग पाठमा आधारित AI खोज इन्जिन छ, यसको फराकिलो ल्यान्डस्केपमा यसको स्थान छ तर ध्यान दिनुहोस् कि कोर मूल्य प्रस्ताव अब जेमिनी फ्ल्यास v2.0 को 'सुविधा' को रूपमा एकीकृत गरिएको छ।


Perplexity AI को उद्देश्य र अस्तित्वको कारण वास्तविक AI मोडेल भित्र ग्रहण गरिएको छ जुन अन्य क्षेत्रहरूमा पनि व्यापक उपयोगिताको साथ समान गुणस्तर र परिणामको गतिमा सक्षम छ।


गुगलले स्वामित्व खोज एपीआईको स्वामित्व राखेको तथ्य यहाँ महत्वपूर्ण छ। तिनीहरूसँग एउटा "नेटिभ उपकरण" छ, एउटै एपीआईमा बन्डल गरिएको अनुमान मोडेलमा सेवा गर्दछ जसले एपीआई कलमा केही पाठ थपेर उपलब्ध इन्टरनेट खोज्न सक्छ। आह, तर ओपनएआईले त्यो पनि गर्न सक्छ कि मैले सुनेको छु?


OpenAI प्रतिस्पर्धा गर्न सक्दैन। तिनीहरूको खोज नेटिभ छैन (वा परिपक्व छैन) र त्यो महत्त्वपूर्ण छ। यो साँच्चै देखाउँछ। तिनीहरूसँग "रियलटाइम एपीआई" छ, तर यसले राम्रोसँग काम गर्दैन र Google को जेमिनी फ्ल्यास v2.0 कार्यान्वयन भन्दा उल्लेखनीय रूपमा ढिलो र buggier छ। वास्तविक समयमा कुनै पनि अन्य डोमेन भन्दा बढी, विलम्बता सबै कुरा हो। नतिजा पनि नजिक छैन।

OpenAI Realtime API



गुगलले शाब्दिक रूपमा खोज अनुरोध चलाउँछ जब मोडेलले प्रतिक्रिया दिइरहेको छ र तपाईंले प्रतिक्रिया पढ्नु अघि जवाफ प्रदान गर्ने पूर्वाधार छ। यो सानो विवरणले महत्वपूर्ण मिलिसेकेन्डहरूलाई समेट्छ जसले अन्तरक्रियाको अनुभवलाई "लिपस्टिक अन अ पिग" बाट "वास्तविक f**किंग सम्झौता" मा परिवर्तन गर्छ।


गुगलको एकीकृत खोजले काम गर्छ, र यसले वास्तवमै चाँडै काम गर्छ।


AI संसारमा कसैसँग कसरी खाडल छैन भन्ने बारेमा धेरै कुराहरू छन्।


गुगलले भर्खरै क्रिसमस जोयको साथ विशाल खाडल भर्यो र ड्रब्रिज तान्यो।


मूल्य, गति, गुणस्तर ... दुई छान्नुहोस्? हम्म…


गुगल तीन अंकमा जित्दै छ।


मेरी क्रिसमस OpenAI।

2. गुगल बनाम पाइथन फ्रेमवर्क (एजेन्टिक प्रवाह)

तर यो त्यहाँ रोकिदैन। गुगलले एजेन्टिक प्रवाहको सन्दर्भमा खेल परिवर्तन गरेको छ। "AI उपकरणहरू" को लागि इन्टरनेट खोज्नुहोस् र तपाईंले फ्रेमवर्क, कोड रिपो र परियोजनाहरूका पहाडहरू भेट्टाउनुहुनेछ जुन मूल रूपमा एउटै काम गर्दैछन्।


इन्टरनेट खोज; जाँच गर्नुहोस्।

स्केप वेबसाइट; जाँच गर्नुहोस्

मार्कडाउनमा रूपान्तरण गर्नुहोस्; जाँच गर्नुहोस्।

कोड चलाउनुहोस्; जाँच गर्नुहोस्।

केहि निजी डेटा ल्याउनुहोस्; जाँच गर्नुहोस्।


यी सबै उपकरणहरू खोज, पुन: प्राप्ति र कोड कार्यान्वयन स्वचालित छन्। https://python.langchain.com/docs/integrations/tools/


कुरा यो हो, गुगलले भर्खरै यसलाई तिनीहरूको एपीआईमा एकीकृत गरेको छ, माथिका सबै ह्यान्डल गर्नको लागि एकल अन्त पोइन्ट। यो अब मूलतः एक समाधान समस्या हो।


हामीलाई अब धेरै धेरै प्रयोग केसहरूको लागि जटिल एजेन्टिक प्रवाहहरू आवश्यक पर्दैन।


OpenAI बाट तलको रेखाचित्रले एजेन्टहरूका लागि फंक्शन कलिङले कसरी काम गर्छ भनेर देखाउँछ।


OpenAI प्रकार्य कल गर्दै


अहिले सम्म, हामीसँग GenAI API बाहिर कार्यान्वयन वातावरण छ।


गुगलले भर्खरै त्यस्ता धेरैजसो कार्यक्षमताहरूलाई कोर एपीआईमा निर्माण गरेको छ जुन विकासकर्ताहरूद्वारा प्रयोग गर्न सकिन्छ।


उदाहरणका लागि, यदि म इन्टरनेट खोज्न Llama 3.3 प्रयोग गर्न चाहन्छु भने, म निम्नानुसार उपकरण कल गर्न सक्छु।

जेमिनी फ्ल्यास v2.0 को साथ यो समान प्रवाह:



अघिल्लो बिन्दुमा फर्कनुहोस्, गति, गुणस्तर, लागत ...


गुगलले भर्खरै सबै 3 छान्यो।


लगभग सबै उपकरणहरू खोज, पुन: प्राप्ति (मार्कडाउनमा रूपान्तरण गर्नुहोस् र प्रम्प्टमा इन्जेक्सन गर्नुहोस्) र निजी डेटाको छर्कने स्वेच्छाचारी कोड कार्यान्वयनको भिन्नताहरू हुन्। डाटा बाहेक (लगभग निश्चित रूपमा चाँडै आउँदैछ ...), यी अब मुख्य चिन्ताहरू हुन्, जसले धेरै एजेन्टिक प्रणालीहरूलाई सुरू गर्नु अघि अप्रचलित बनाएको छ।


हामीसँग तपाईंको गुगल डेटा स्रोतहरूमा नेटिभ प्लगइनहरू (एक तार्किक अर्को चरण) हुन धेरै समय लाग्दैन, जहाँ विरलै केही स्केल गरिएको र अत्यधिक जटिल एआई प्रणालीहरू बाहेक, मूल रूपमा सबै हालका फ्रेमवर्कहरू र प्रक्रियाहरू मात्र जटिल कार्यान्वयनहरू हुन्। एकल एपीआई कलमा अझ राम्रो, छिटो र सस्तो के प्राप्त गर्न सकिन्छ।


आर्किटेक्चरल दृष्टिकोणबाट यसको सान्दर्भिकता यो हो कि जंजीर र जटिल प्रवाहहरू निर्माण गर्नुको सट्टा, म एक साधारण मोडेललाई परिष्कृत गर्न सक्छु। सबै कुरा धेरै सरल भयो।


अलविदा पाइथन फ्रेमवर्कहरू। (सम्पर्कमा नराख्नुहोस्)।


यदि हामीले अहिले हामीलाई चाहिने सबै कुरा गर्न नसके पनि, बालुवामा रेखा कोरिएको छ र "उपकरणहरू" मुख्य चिन्ताहरू हुनेछन्, प्रदायकहरूद्वारा API मा एकीकृत हुनेछन्। हामीले अब हाम्रा आफ्नै एजेन्टहरू DIY गर्न आवश्यक छैन, हामीसँग काम गर्न भरपर्दो, स्केल र छिटो API हरू छन्।

3. बहु-मोडल कार्यहरू

म जस्तै, तपाईं शायद अडियो/भिडियो प्रयोगको सबै बहु-मोडल 'डेमो' एकीकरणबाट अलिकति जलेको हुनुहुन्छ। मलाई अडियो-स्ट्रिमिङ प्रयास गर्न धेरै उत्साहित भएको सम्झना छ (म वर्षौंदेखि WebRTC मा विकास गर्दैछु र विगतको जीवनमा eCommerce भिडियो स्ट्रिमिङ उपकरण स्थापना गरेको छु)।


सम्भाव्यता स्पष्ट छ, तर सम्पूर्ण कुरा सही महसुस गर्दैन। उदाहरणका लागि OpenAI खेल मैदानमा जानुहोस् र तिनीहरूको वास्तविक समय API प्रयास गर्नुहोस्। यसले सम्भाव्यता देखाउँछ, तर रमाइलो प्रयोगकर्ता अनुभव हुनबाट माइल टाढा छ। धेरै प्रयोगकर्ताहरू (र मैले 100s सँग बोलेको छु), केवल "काम गर्ने" अनुभव चाहन्छ। ती मिलिसेकेन्डहरू र प्राकृतिक इन्टोनेशनहरू विवरणहरू होइनन्, तिनीहरू उत्पादनको सार हुन्।


जेमिनी फ्ल्यास v2.0 पहिलो मोडेल हो जसले मलाई "वाह" पल दियो जुन मैले पहिलो पटक कोडिङको लागि क्लाउड प्रयोग गर्न थालेको थिएँ। तपाईंले पहिलो पटक ChatGPT लाई शंकास्पद रूपमा प्रश्न सोध्नुभयो र "मेसिन" ले तपाईंलाई मानवीय प्रतिक्रिया दिनुभएको जस्तै यो समान भावना हो।


विलम्बता, पज, आवाज स्वर। गुगलले यसलाई नेल गरेको छ। यो अझै पनि स्पष्ट रूपमा एक AI प्रणाली हो, तर त्यो समस्या कहिल्यै थिएन। समस्या सधैं पजहरू, अवरोधहरू, मोडेलले मानिसहरूसँग अन्तरक्रिया गर्ने तरिका थियो।


मलाई मेसिनसँग कुरा गर्न कुनै आपत्ति छैन, मेसिन जानकार छ, अन्तरक्रिया गर्न सक्षम छ र मलाई यो गर्न आवश्यक पर्ने कामहरू गर्न सक्षम छ। यो 100% पहिलो पटक हो जुन मैले वास्तवमा यो अनुभव प्रदान गर्न सक्षम मोडेल देखेको छु, र प्रभावहरू धेरै छन्।

यदि तपाईं अडियो वा भिडियो अन्तरक्रियाबाट उत्साहित हुनुहुन्छ र मोडेलहरूको अलिकति शंकास्पद हुनुहुन्छ। Gemini Flash v2.0 एक पटक प्रयास गर्नुहोस्। गुगलले स्पष्ट रूपमा विलम्बता र लागतको बारेमा समस्याहरू समाधान गर्न समय, प्रयास र स्रोतहरू लगानी गरेको छ। मैले प्रयास गरेको कुनै पनि AI मोडेल नजिक आउँदैन।


र यो सस्तो छ ...


र यो मापनयोग्य छ ...

निष्कर्ष

म पहिलो पटक जत्तिकै उत्साहित छु कि मैले ChatGPT लाई ती सबै वर्ष पहिले लिङ्क गरिएको पोस्ट लेख्न भनेको थिएँ। मेरो जीवनको यस चरणमा र GenAI संग संलग्नता, यो विशेष गरी सजिलो छैन।


यो क्षण यति छिट्टै आउला भन्ने मैले सोचेको थिइनँ।


हामीसँग अब एक सस्तो, छिटो र उच्च सक्षम मोडेलको साथ वास्तविकता छ जुन हामी वास्तविक समयमा अन्तर्क्रिया गर्न सक्छौं।


यो शाब्दिक रूपमा मेरो जीवनमा पहिलो पटक हो कि म कम्प्युटरसँग कुरा गर्न सक्छु, र यसले मलाई बुझ्छ, मलाई प्रतिक्रिया दिन सक्छ, र मेरो तर्फबाट कार्यहरू गर्न सक्छु। यो कुनै जटिल एजेन्ट होइन, यो एकल एपीआई कल हो।


यो एक प्राविधिक उपलब्धि हो जुन AI संसारमा पुन: प्रतिध्वनि हुनेछ, यद्यपि धेरैले अझै महसुस गरेका छैनन्।


प्राकृतिक इन्टरफेस र अन्तरक्रियाहरू बाहेक, मोडेलले नेटिभ रूपमा इन्टरनेटमा खोजी गर्न, कोड कार्यान्वयन गर्न र वाक्य बनाउन लाग्ने समयमा प्रतिक्रिया दिन सक्षम छ।


त्यहाँ एउटा सपना थियो जुन जेनेरेटिभ एआईको UX थियो।


डिसेम्बर 2024 मा यो एक वास्तविकता भयो।


अब यदि तपाईं मलाई माफ गर्नुहुन्छ भने, म सामान निर्माण गर्न बन्द छु।