758 रीडिंग

यदि प्रशिक्षण डेटा बेकार है, तो एआई भी बेकार है

द्वारा mytiki.com5m2023/05/31

बहुत लंबा; पढ़ने के लिए

बहुत सारा प्रशिक्षण डेटा बेकार है। मैंने प्रशिक्षण डेटा चूसने और जिलेट रेज़र की बिक्री के बीच के संबंध को नहीं खोदा है, लेकिन मुझे लगता है कि वहाँ कुछ है। इसके ऊपर चूसना, यह महंगा है।

featured image - यदि प्रशिक्षण डेटा बेकार है, तो एआई भी बेकार है

एक आदमी अनिद्रा से समझौता करता है और सुबह 4:30 बजे बिस्तर से गिर जाता है। सूरज अपना दैनिक पदार्पण करने से घंटों दूर है, लेकिन इस आदमी के लिए यह मायने नहीं रखता। शेव करने की कोई जरूरत नहीं है। वह चार दिन से नहीं आया है। वह तुरंत एक सिगरेट जलाता है - अज्ञात (आपके लिए) मूल की एक हाथ से लुढ़की हुई सिगरेट। वह रेडियो पर फ़्लिक करता है। तुरंत बंद कर देता है। यह क्षण मौन का पात्र है। आईने में देखता है। नग्न। हिरन नग्न. अपने आप में देखता है। अपने आप में गहरा। सिगरेट को अपने हाथ के पिछले हिस्से से बाहर निकालता है और शौचालय में फैंक देता है। अंत में, उसके मस्तिष्क में इधर-उधर झुनझुने वाले शब्द उसके होठों पर फुदक-फुदक कर फुसफुसाते हैं - "हमारा प्रशिक्षण डेटा f * cking बेकार है।"

और यह महंगा भी है!

देखिए, हर कोई और उनकी दादी जानती हैं कि एआई बहुत बड़ा है। हो सकता है कि आपकी दादी आपसे बात करने से ज्यादा स्नैपचैट एआई से बात करती हों। किसी भी तरह से, जबकि AI निश्चित रूप से एक मनोरंजन कारक प्रदान करता है, किसी भी चीज़ से अधिक यह सर्वथा उपयोगी हो सकता है। और व्यवसाय एआई पहलों को अभूतपूर्व गति से अपना रहे हैं। मुझे पता है कि दुनिया को एआई के विकास के बारे में एक और ब्लॉग की जरूरत नहीं है, लेकिन मैं इसे एक सेकंड में मिला दूंगा।

सबसे पहले, इसे प्राप्त करें: 1923 में, केवल 0% व्यवसायों ने कृत्रिम बुद्धिमत्ता को अपने संगठन के लिए उच्च प्राथमिकता माना। बहुत खूब। 2020 तक सर्वेक्षण में शामिल 54% आईटी पेशेवर एआई को अत्यधिक प्राथमिकता दे रहे थे। 2022 के अंत तक, यह संख्या 69% (अच्छा) तक चढ़ गई थी , केवल दो वर्षों में 15% की वृद्धि हुई थी।

लेकिन, एआई/एमएल उपयोगकर्ताओं के करीब आधे (47%) ने पिछले दो वर्षों में अपनी पहल शुरू कर दी है और सर्वेक्षण में शामिल 78% विचार के चरण से आगे बढ़कर क्रियान्वयन में चले गए हैं। इसका अर्थ क्या है? सांख्यिकीय रूप से कहा जाए तो, एआई कार्यक्रम और पहल चलाने वाले बहुत सारे व्यवसाय हैं जो क्षेत्र में कुल नए हैं और संभवतः उन्हें पता नहीं है कि वे क्या कर रहे हैं। उस पुराने डॉग केमिस्ट मेम का 47% में से कौन सा प्रतिशत है? खैर, मैं आपके लिए इसका उत्तर नहीं दे सकता। जो मैं आपको बता सकता हूं वह यह है कि एआई/एमएल यात्रा कंपनियों में सबसे बड़ी चुनौती कुशल प्रतिभा (67%) की कमी है, इसके बाद एल्गोरिदम और मॉडल विफलता (61%) है। जब एआई को अपनाने की बात आती है, तो सबसे अधिक बाधा कार्यान्वयन की लागत है। और एआई बजट का सबसे बड़ा हिस्सा क्या लेता है? प्रशिक्षण डेटा की सोर्सिंग और कार्यान्वयन, बजट के 13% पर चेकिंग।

बहुत सारा डेटा बिल्कुल खराब है। यह अविश्वसनीय है, इसे प्रबंधित करना मुश्किल है, और यह पूरी तरह से संभव है कि AI को शोधित डेटा पर प्रशिक्षित किया गया है, जिसका अर्थ है कि मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा किसी अन्य AI मॉडल से प्राप्त किया गया है जो पहले से ही स्केची डेटा पर प्रशिक्षित था। इस शब्दावली के परिचय के लिए ओल्गा मैक को चिल्लाएं।

तो डेटा खराब है, यह महंगा है, यह एक टी-शर्ट के बराबर हो सकता है जिसमें एक थ्रिफ्ट स्टोर से खरीदे गए टाइपो (मेरे दोस्त के नोमर "गार्सीपारा" रेड सोक्स शर्ट के लिए चिल्लाएं), और एआई को लागू करने वाले व्यवसायों का एक विशाल समूह नया है और चीजों को काम करने के लिए संसाधनों और प्रतिभा की कमी है, अकेले ही इसे टिकाऊ बनाए रखें।

इसके लिए, 87% अधिकारी उच्च गुणवत्ता वाले प्रशिक्षण डेटा के लिए अधिक भुगतान करने को तैयार हैं, जबकि 66% ने अनुमान लगाया है कि प्रशिक्षण डेटा की उनकी आवश्यकता केवल 0% की तुलना में कम होने की भविष्यवाणी करती है। यह मेरे 1923 के सर्वेक्षण से 0% की वृद्धि है।

अधिक संख्या आप कहते हैं? आपको और भी नम्बर मिलेंगे। 2022 में, आर्टिफिशियल इंटेलिजेंस पर वैश्विक खर्च लगभग 118 बिलियन डॉलर था । 2026 तक, यह संख्या 300 अरब डॉलर तक पहुंचने की उम्मीद है। $300 बिलियन का 13% है...39 बिलियन डॉलर। अब मुझे पता है कि यह बिल्कुल नहीं है कि आंकड़े कैसे काम करते हैं, इसलिए मुझसे पूछताछ न करें। लेकिन संक्षेप में: एआई के प्रशिक्षण डेटा के लिए वैश्विक खर्च एक बहु-अरब डॉलर का उद्योग है। कारक यह है कि इनमें से 66% अधिकारियों को प्रशिक्षण डेटा की आवश्यकता बढ़ने की उम्मीद है और 87% उच्च गुणवत्ता वाले डेटा के लिए अधिक खर्च करने को तैयार हैं ... ठीक है, आपको यह बात समझ में आ गई है।

अधिक कारक

इसके शीर्ष पर, विश्वसनीय डेटा स्रोत की क्षमता 2023 में अतीत की तुलना में कहीं अधिक कठिन है। जीडीपीआर और सीसीपीए जैसी निजता पहलों का उद्देश्य उपभोक्ता डेटा की सुरक्षा करना है। Google और Apple जैसे प्रमुख तकनीकी खिलाड़ी तृतीय-पक्ष डेटा संग्रह को और अधिक कठिन बना रहे हैं। चल रही कानूनी लड़ाइयों में एआई प्रशिक्षण डेटा सबसे आगे है, एक लोकप्रिय भावना के साथ कि एआई को प्रशिक्षित करने के लिए वेब डेटा को स्क्रैप करना और "उचित उपयोग" का दावा करना अतीत की बात बनने के खतरे में है। 2000 के दशक की शुरुआत में नैप्स्टर का पतन एक उपयुक्त तुलना हो सकती है। जबकि यह स्पष्ट रूप से स्पष्ट था कि नैप्स्टर कॉपीराइट सामग्री और बौद्धिक संपदा के अवैध साझाकरण द्वारा संचालित था, एक समान प्रक्षेपवक्र कुछ ऐसा है जो एआई का उपयोग करने वाले व्यवसायों पर विचार करने के लिए मजबूर है। रेत घंटे के चश्मे के माध्यम से फ़िल्टर हो सकती है, और मेटालिका की "टू व्हॉट द बेल टोल्स" उन लोगों के लिए खेलने की संभावना है जिन्होंने अपने एआई पहलों को भविष्य में प्रमाणित करने के प्रयास में नहीं लगाया है।

एक नया Spotify

तो समाधान क्या है? अच्छा, यह जटिल है। लेकिन नैप्स्टर, काज़ा और लाइमवायर की राख से Spotify आया, जिसने "चोरी से बेहतर" कुछ बनाने के आधार पर काम किया। इसमें स्पॉटिफाई प्लेटफॉर्म पर स्ट्रीम की गई सामग्री को ठीक से लाइसेंस देने के लिए रिकॉर्ड लेबल और एजेंसियों के साथ हैशिंग आउट शामिल है। क्या एआई के लिए भी यही संभव है? हमें ऐसा लगता है। 85% उपभोक्ता कूपन या छूट के लिए डेटा का आदान-प्रदान करेंगे। यह डेटा अधिग्रहण मॉडल के लिए मार्ग प्रशस्त करता है जो उपयोगकर्ताओं को भाग लेने के लिए प्रोत्साहित करता है, मूल्यवान शून्य-पार्टी डेटा उत्पन्न करता है जिसका उपयोग एआई प्रशिक्षण सहित कई चीजों के लिए किया जा सकता है। हमने ज़ीरो-पार्टी डेटा को लाइसेंस देने के लिए कुछ बनाया है, और स्नोफ्लेक के साथ साझेदारी में एक सुविधा भी बनाई है ताकि व्यवसायों को लाइसेंस प्राप्त ज़ीरो-पार्टी डेटा को फिर से सूचीबद्ध करने की अनुमति मिल सके। उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की इच्छा के आधार पर, यह एक अतिरिक्त राजस्व धारा के लिए एक विशाल अवसर साबित हो सकता है जो ग्राहक वफादारी भी बना सकता है। लेकिन पर्याप्त ब्रांड-वाई सामान। आप यहां और जान सकते हैं।

सारांश…

बहुत सारा प्रशिक्षण डेटा कमबख्त बेकार है। मैंने जिलेट रेज़र के प्रशिक्षण डेटा चूसने और बिक्री के बीच संबंध को नहीं खोला है, लेकिन मुझे लगता है कि वहां कुछ है। ऊपर से चूसना, यह महंगा है। अधिक से अधिक कंपनियां एआई को लागू करने के लिए समय और संसाधन समर्पित कर रही हैं, लेकिन उनमें से कई इस खेल के लिए नए हैं और उनकी पहल को अनुकूलित करने के लिए उचित टीम, बुनियादी ढांचे और गुणवत्ता डेटा की कमी है। कानूनी लड़ाई ने एआई प्रशिक्षण डेटा सोर्सिंग और संग्रह के "पुराने तरीकों" में एक रिंच फेंक दिया है, और गोपनीयता की पहल ने व्यवसायों के लिए अपने व्यवसाय को ईंधन देने के लिए आवश्यक डेटा एकत्र करना तेजी से कठिन बना दिया है। प्रेरणा के लिए Spotify जैसी कंपनियों को देखते हुए, कानूनी पहलू पर काबू पाना संभव माना जाता है। अपने ब्रांड अनुभवों में अधिक वैयक्तिकरण और अनुकूलन की इच्छा के साथ युग्मित डेटा साझाकरण पर उपभोक्ता भावना को देखते हुए, हमने पुन: बिक्री के लिए शून्य-पक्ष डेटा लाइसेंसिंग के लिए एक विशाल बाजार को मान्यता दी है (कई अन्य उपयोग मामलों के बीच)। अरे, $300 बिलियन का 13% फिर से क्या है?

शेन फारिया, सह-संस्थापक @TIKI द्वारा लिखित