paint-brush
गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है?द्वारा@degravia
250 रीडिंग

गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है?

द्वारा Roman Garin7m2023/09/19
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

वास्तविक समय में सांकेतिक भाषाओं में अनुवाद करना एक मुश्किल काम है, यहां तक कि मानव दुभाषियों के लिए भी। इस समस्या को हल करने के लिए AI का उपयोग करना एक बहुत ही दिलचस्प चुनौती है।
featured image - गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है?
Roman Garin HackerNoon profile picture
0-item

23 सितंबर को अंतर्राष्ट्रीय सांकेतिक भाषा दिवस है, जैसा कि 2017 में संयुक्त राष्ट्र द्वारा घोषित किया गया था। यह तारीख सपने देखने (या शायद एक लक्ष्य निर्धारित करने) का एक अच्छा अवसर है कि एक दिन आएगा जब सभी मीडिया और तकनीकी उत्पाद समान रूप से सुलभ होंगे सभी लोग अपनी विकलांगताओं की परवाह किए बिना। मेरा सपना है कि किसी दिन सभी बधिर लोग लाइव स्पोर्ट्स स्ट्रीम देख सकेंगे। वास्तविक समय में सांकेतिक भाषाओं में अनुवाद करना एक मुश्किल काम है, यहां तक कि मानव दुभाषियों के लिए भी। लेकिन चूँकि बहुत कम कुशल दुभाषिए हैं और बहुत सारी अलग-अलग सांकेतिक भाषाएँ हैं, खेल धाराएँ इस समय वास्तव में सार्वभौमिक रूप से सुलभ नहीं हो सकती हैं। इस समस्या को हल करने के लिए आर्टिफिशियल इंटेलिजेंस (एआई) का उपयोग करना एक बहुत ही दिलचस्प तकनीकी चुनौती है और निश्चित रूप से एक बहुत अच्छा कारण है। पिछले कुछ वर्षों में इस क्षेत्र में बहुत कुछ किया गया है, लेकिन बाधाएँ अभी भी बनी हुई हैं। इस लेख में, मैं इस लक्ष्य के लिए समर्पित नवीनतम तकनीक का अवलोकन प्रस्तुत कर रहा हूं और आपको इन निष्कर्षों पर चर्चा करने और इस पहेली को सुलझाने में योगदान देने के लिए आमंत्रित करता हूं।

खेल हर किसी के लिए नहीं है?

खेल राजा है, अवधि। पहले प्राचीन ओलंपिक के बाद से (और शायद उससे भी पहले) इसने मानव स्वभाव के प्रतिस्पर्धी हिस्से को अहिंसक रूपों में बदलने में मदद की। यह दुनिया भर में और राजनीतिक सीमाओं से ऊपर लाखों लोगों को एकजुट कर रहा है। यह आधुनिक डिजिटल और मीडिया जगत का शासक भी है। के अनुसार अनुसंधान और बाजार, वैश्विक खेल बाजार 5.2% की चक्रवृद्धि वार्षिक वृद्धि दर (सीएजीआर) पर 2022 में $486.61 बिलियन से बढ़कर 2023 में $512.14 बिलियन हो गया। 2027 में 5.0% की सीएजीआर पर खेल बाजार बढ़कर 623.63 बिलियन डॉलर तक पहुंचने की उम्मीद है। यह विश्व अर्थव्यवस्था की वृद्धि से कहीं अधिक तेज़ है, जिसके 2022 में अनुमानित 3.5% से गिरकर 2023 और 2024 दोनों में 3.0% होने का अनुमान है, के अनुसार अंतर्राष्ट्रीय मुद्रा कोष . अकेले वैश्विक ऑनलाइन लाइव वीडियो स्पोर्ट्स स्ट्रीमिंग बाजार का मूल्य 2020 में $18.11 बिलियन था उम्मीद है 2028 में $87.33 बिलियन तक पहुंचने के लिए। खेलों की लोकप्रियता को और स्पष्ट करते हुए, 2022 नीलसन स्पोर्ट्स की रिपोर्ट पता चला कि यूएस लीनियर टीवी विज्ञापन राजस्व का 31% लाइव स्पोर्ट्स प्रोग्रामिंग पर निर्भर करता है, बावजूद इसके कि उपलब्ध प्रसारण कार्यक्रम सामग्री में खेल का हिस्सा केवल 2.7% है।


हालाँकि, यह विशाल उद्योग दुनिया की आबादी के एक महत्वपूर्ण हिस्से को (आंशिक रूप से या पूरी तरह से) मिस करता है। संयुक्त राष्ट्र आंकड़ों से पता चलता है कि दुनिया में 70 मिलियन बधिर लोग हैं, जो पृथ्वी की 8.05 अरब आबादी के 10% से थोड़ा कम है। समस्या बढ़ती जा रही है: विश्व स्वास्थ्य संगठन को उम्मीद है कि 2050 तक 2.5 अरब लोग (या लगभग सभी मनुष्यों का एक चौथाई) कुछ हद तक श्रवण हानि का अनुभव करेंगे। बेशक, कई खेल प्रसारणों में उपशीर्षक होते हैं। लेकिन समस्या यह है कि कई बधिर लोगों को पढ़ना-लिखना सीखने में कठिनाई होती है। अधिकांश देशों में, बधिरों के बीच निरक्षरता दर 75% से ऊपर है , वास्तव में चौंका देने वाली दर। कई प्रसारणों में, विशेषकर टीवी पर, लाइव सांकेतिक भाषा दुभाषिए होते हैं। लेकिन, फिर से एक समस्या है. दुनिया भर में बधिर लोग 300 से अधिक विभिन्न सांकेतिक भाषाओं का उपयोग करते हैं और उनमें से अधिकांश परस्पर समझ से परे हैं। एक प्रसारण को विश्व स्तर पर सुलभ बनाने के लिए 300 दुभाषियों को नियुक्त करना स्पष्ट रूप से असंभव है। लेकिन क्या होगा अगर हम इसके बजाय एआई को काम पर रखें?

जीवन का संकेत (भाषा)।

इस कार्य की कठिनाई को पूरी तरह से समझने के लिए, आइए संक्षेप में जानें कि सांकेतिक भाषाएँ वास्तव में क्या हैं। ऐतिहासिक रूप से, सामान्य श्रवण क्षमता वाले, लेकिन अलग-अलग भाषाएं बोलने वाले लोगों द्वारा इन्हें अक्सर सामान्य भाषा के रूप में उपयोग किया जाता था। इसका सबसे प्रसिद्ध उदाहरण सांकेतिक भाषा है सादे भारतीय 19वीं सदी के उत्तरी अमेरिका में। विभिन्न जनजातियों की भाषाएँ भिन्न थीं, लेकिन उनका रहन-सहन और वातावरण काफी समान था, जिससे उन्हें सामान्य प्रतीक खोजने में मदद मिली। उदाहरण के लिए, आकाश के विपरीत खींचे गए वृत्त का अर्थ चंद्रमा, या चंद्रमा के समान पीला कुछ है। अफ़्रीका और ऑस्ट्रेलिया की जनजातियाँ भी संवाद करने के ऐसे ही तरीकों का इस्तेमाल करती थीं।


हालाँकि, बधिरों द्वारा उपयोग की जाने वाली सांकेतिक भाषाओं के मामले में ऐसा नहीं है। वे प्रत्येक क्षेत्र, देश में स्वतंत्र रूप से विकास कर रहे हैं और कभी-कभी वे एक शहर से दूसरे शहर में भिन्न भी होते हैं। उदाहरण के लिए, अमेरिका में व्यापक रूप से उपयोग की जाने वाली अमेरिकी सांकेतिक भाषा (एएसएल) ब्रिटिश सांकेतिक भाषा से बिल्कुल अलग है, भले ही दोनों देश अंग्रेजी बोलते हों। विडंबना यह है कि एएसएल है पुरानी फ़्रेंच सांकेतिक भाषा के बहुत करीब (एलएसएफ) क्योंकि एक फ्रांसीसी बधिर व्यक्ति, लॉरेंट क्लर्क, 19वीं शताब्दी में अमेरिका में बधिरों के लिए पहले शिक्षकों में से एक था। आम धारणा के विपरीत, कोई सच्ची अंतर्राष्ट्रीय सांकेतिक भाषा नहीं है। बनाने का एक प्रयास था गेस्टुनो, जिसे अब अंतर्राष्ट्रीय सांकेतिक भाषा के रूप में जाना जाता है , 1951 में इंटरनेशनल फेडरेशन ऑफ डेफ द्वारा कल्पना की गई थी। हालाँकि, सुनने वाले लोगों के लिए इसके एनालॉग, एस्पेरान्तो की तरह, यह एक सच्चा समाधान बनने के लिए उतना लोकप्रिय नहीं है।


सांकेतिक भाषाओं में अनुवाद पर चर्चा करते समय ध्यान में रखने वाली एक और महत्वपूर्ण बात यह है कि वे अपनी स्वयं की स्वतंत्र भाषाएँ हैं, उन भाषाओं से पूरी तरह से अलग हैं जिन्हें हम सुन सकते हैं। एक बहुत ही आम ग़लतफ़हमी यह है कि सांकेतिक भाषाएँ श्रवण द्वारा बोली जाने वाली भाषाओं की नकल कर रही हैं। इसके विपरीत, उनकी भाषाई संरचना, व्याकरण और वाक्यविन्यास बिल्कुल अलग है। उदाहरण के लिए, एएसएल में विषय-टिप्पणी वाक्यविन्यास है, जबकि अंग्रेजी विषय-वस्तु-क्रिया निर्माण का उपयोग करती है। तो, वाक्यविन्यास के संदर्भ में, वास्तव में ए.एस.एल जापानी भाषा बोलने वालों के साथ अधिक साझा करता है जितना यह अंग्रेजी के साथ होता है। संकेत अक्षर हैं (उनके बारे में और देखें)। यहाँ ), लेकिन उनका उपयोग स्थानों और लोगों के उचित नामों की वर्तनी के लिए किया जाता है, शब्दों की रचना के लिए नहीं।

बाधाओं को तोड़ना

बोली जाने वाली और सांकेतिक भाषाओं को जोड़ने के कई प्रयास किए गए "रोबोटिक दस्ताने" का उपयोग करना हावभाव पहचान के लिए. उनमें से कुछ 1980 के दशक के हैं। समय के साथ, एक्सेलेरोमीटर और सभी प्रकार के सेंसर जैसे अधिक परिष्कृत गैजेट जोड़े गए। हालाँकि, इन प्रयासों की सफलता सर्वोत्तम रूप से सीमित थे . और वैसे भी, उनमें से अधिकांश ने सांकेतिक भाषाओं को बोली जाने वाली भाषाओं में अनुवाद करने पर ध्यान केंद्रित किया, न कि इसके विपरीत। कंप्यूटर विज़न, वाक् पहचान, तंत्रिका नेटवर्क, मशीन लर्निंग और एआई में हाल के विकास से उम्मीद है कि बोली जाने वाली भाषा से सांकेतिक भाषाओं में सीधा अनुवाद भी संभव है।


सबसे आम रास्ता सांकेतिक भाषा के इशारों और भावनाओं को प्रदर्शित करने के लिए 3डी अवतारों का उपयोग करना, भाषण और अन्य डेटा को इनपुट के रूप में उपयोग करना है। एक उल्लेखनीय विशेषता एनएचके द्वारा विकसित जापान में ब्रॉडकास्ट कॉरपोरेशन खेल डेटा, जैसे खिलाड़ियों के नाम, स्कोर आदि को एनिमेटेड कार्टून जैसे अवतार द्वारा प्रदर्शित सांकेतिक भाषा में अनुवाद करने में सक्षम बनाता है। इवेंट आयोजकों या अन्य संस्थाओं से प्राप्त डेटा की व्याख्या की जाती है और उसे टेम्पलेट्स में डाला जाता है और फिर अवतार द्वारा व्यक्त किया जाता है। हालाँकि, केवल सीमित प्रकार के डेटा का ही इस तरह अनुवाद किया जा सकता है। एनएचके का कहना है कि वह प्रौद्योगिकी विकसित करना जारी रखे हुए है ताकि अवतार अधिक मानवीय तरीके से भावनाओं को व्यक्त कर सकें।


लेनोवो और ब्राज़ीलियाई इनोवेशन हब CESAR हाल ही में घोषणा की गई वे एआई का उपयोग करके लोगों की बात सुनने के लिए एक सांकेतिक भाषा अनुवादक बना रहे थे। इसी प्रकार, SLAIT (जो सांकेतिक भाषा AI अनुवादक के लिए है) विकास हो रहा है एक शैक्षिक उपकरण जो एएसएल को इंटरैक्टिव तरीके से सीखने में मदद करता है। हालाँकि ये कार्य हमारे दायरे से भिन्न हैं, लेकिन इन परियोजनाओं द्वारा विकसित कंप्यूटर विज़न तकनीक और एआई प्रशिक्षण मॉडल भविष्य में भाषण से सांकेतिक भाषा में अनुवाद प्रदान करने में बहुत उपयोगी हो सकते हैं।


अन्य स्टार्टअप हमारी चर्चा के विषय के करीब आ रहे हैं। उदाहरण के लिए, साइनैप्सआ गया एक ऐसे समाधान के साथ जो फोटो-यथार्थवादी एनिमेटेड अवतार गति के रूप में प्रदर्शित पाठ को सांकेतिक भाषा में अनुवादित कर सकता है। कंपनी जेनरेटिव एडवरसैरियल नेटवर्क और गहन शिक्षण तकनीकों के साथ-साथ लगातार विकसित होने वाले वीडियो डेटाबेस का उपयोग करती है (उनके सहकर्मी-समीक्षा लेख में इसके बारे में अधिक जानकारी) यहाँ ). हालाँकि, इस प्लेटफ़ॉर्म का उद्देश्य अधिकतर सार्वजनिक घोषणाओं और वेबसाइट टेक्स्ट का अनुवाद करना है। दूसरे शब्दों में, यह अभी भी वास्तविक समय के लाइव अनुवाद से बहुत दूर लगता है।


इज़राइली-आधारित स्टार्टअप CODA ने हमारे लक्ष्य की ओर एक और कदम आगे बढ़ाया है। इसने एआई-संचालित ऑडियो-टू-साइन ट्रांसलेशन टूल विकसित किया है और दावा किया है कि यह काम करता है "लगभग तुरंत" . यह वर्तमान में पांच स्रोत भाषाओं में अपनी सेवाएं प्रदान करता है: अंग्रेजी, हिब्रू, फ्रेंच, स्पेनिश और इतालवी। इसके बाद, CODA का लक्ष्य भारत और चीन जैसे उच्च जनसंख्या वाले देशों की कई अलग-अलग सांकेतिक भाषाओं को जोड़ना है।


यकीनन हमारे सपने का सबसे करीबी मुकाबला Baidu AI क्लाउड ने अपने डिजिटल अवतार प्लेटफॉर्म Xiling पर प्रस्तुत किया था। प्लेटफ़ॉर्म शुरू किया गया था बीजिंग 2022 पैरालंपिक शीतकालीन खेलों के प्रसारण के साथ श्रवण-बाधित दर्शकों को प्रदान करना। स्थानीय मीडिया ने कहा कि यह "मिनटों के भीतर" सांकेतिक भाषा अनुवाद और लाइव व्याख्या के लिए डिजिटल अवतार तैयार करने में सक्षम है।

निष्कर्ष

वाक्-से-संकेत अनुवाद विकसित करने में अगला कदम आउटपुट को यथासंभव अधिक से अधिक सांकेतिक भाषाओं तक विस्तारित करना और अनुवाद के लिए आवश्यक समय अंतराल को मिनटों से घटाकर सेकंड करना होगा। दोनों कार्य बड़ी चुनौतियों का प्रतिनिधित्व करते हैं। आउटपुट फ़ीड में अधिक सांकेतिक भाषाओं को जोड़ने का मतलब हाथ और शरीर के इशारों के साथ-साथ चेहरे के भावों के व्यापक डेटाबेस बनाना और स्थायी रूप से विकसित करना है। समय के अंतराल को कम करना और भी महत्वपूर्ण है, क्योंकि खेल सभी क्षणों के बारे में हैं। यहां तक कि एक मिनट के अंतराल का मतलब है कि स्ट्रीम में देरी होनी चाहिए अन्यथा दर्शक खेल के सार से वंचित रह जाएंगे। अनुवाद के लिए आवश्यक समय को अधिक व्यापक हार्डवेयर बुनियादी ढांचे का निर्माण करके, सबसे विशिष्ट भाषण टेम्पलेट्स के डेटाबेस विकसित करके कम किया जा सकता है जिन्हें वाक्यांश समाप्त होने से पहले ही पहचाना जा सकता है। यह सब एक महँगा उद्यम लग सकता है। लेकिन एक ओर, लाखों लोगों के लिए जीवन की गुणवत्ता में सुधार अमूल्य है। दूसरी ओर, हम केवल दान की बात नहीं करते। प्रसारणों को मिलने वाले अतिरिक्त दर्शकों और चलन में मौजूद प्रायोजक राशि के बारे में सोचें। कुल मिलाकर, यह काफी हद तक जीत-जीत वाला खेल हो सकता है।


ऐसा लगता है जैसे तकनीकी दिग्गज भी इस दौड़ में शामिल हो रहे हैं। जिपिया, एक कैरियर पोर्टल, ने हाल ही में संकेत दिया कि Google भर्ती कर रहा है सांकेतिक भाषा दुभाषियों को संयुक्त राज्य अमेरिका में आम तौर पर अपेक्षित वेतन ($110,734 बनाम औसत $43,655) से दोगुने से अधिक वेतन मिलता है। इस दर पर, एक भाषा दुभाषिया को अमेरिका में एक औसत सॉफ्टवेयर इंजीनियर की तुलना में लगभग 10% अधिक वेतन मिलेगा ( $100,260 ). यह एक संकेत हो सकता है कि हम जल्द ही एक बड़ी सफलता की उम्मीद कर रहे हैं...


कृपया बेझिझक टिप्पणी करें और हमें समाधान खोजने के लिए एकजुट होने दें!