कुछ साल पहले, मैंने Google सहायक से एक सरल प्रश्न पूछा था (मुझे याद नहीं है कि यह क्या था) और यह एक असंबंधित उत्तर लेकर आया। मैंने फिर पूछा, और यह एक अलग उत्तर लाया। मुझे अपना प्रश्न टाइप करना था।
उस बिंदु पर, मैंने निष्कर्ष निकाला कि आवाज पहचान सॉफ्टवेयर अफ्रीकियों के लिए नहीं बनाया गया था।
व्यक्तिगत विकास और जोखिम के कारण मेरी बोली जाने वाली अंग्रेजी और उच्चारण में सुधार हुआ है, लेकिन मैं यह भी बता सकता हूं कि कई वॉयस रिकॉग्निशन ऐप और सॉफ्टवेयर अफ्रीकी बोलने वालों (उच्चारण-वार) के लिए अधिक अनुकूल होते जा रहे हैं। हालाँकि, सच्चाई यह है कि अफ्रीकियों के लिए आवाज की पहचान के लिए अभी बहुत लंबा रास्ता तय करना है।
मुझे अभी भी आश्चर्य है कि हमारे पास ऐसे कई ऐप क्यों नहीं हैं जिन्हें प्रमुख स्थानीय अफ्रीकी भाषाओं के साथ जोड़ा जा सकता है, जिनमें से 10 मिलियन से अधिक देशी वक्ता हैं। इसलिए, मैंने अफ्रीकी संदर्भों और भाषाओं में कृत्रिम बुद्धि और प्राकृतिक भाषा प्रसंस्करण की वर्तमान स्थिति पर एक क्षेत्रीय भाषाविद और अकादमिक शोधकर्ता से बात करने का फैसला किया।
प्रश्न: हैलो, क्या आप मुझे अपने बारे में बता सकते हैं, और एक भाषाविद् और एनएलपी एआई उत्साही के रूप में, आपकी रुचियां क्या हैं?
हाय, मैं ओलनरेवाजू सैमुअल हूं।
मुझे कम्प्यूटेशनल फोनोलॉजी, डेटासेट बिल्डिंग, एनोटेशन और क्यूरेशन, नेचुरल लैंग्वेज प्रोसेसिंग और फील्ड भाषाविज्ञान में दिलचस्पी है।
मेरे प्राथमिक गुरु हैं
मैं अभी तक अपने शोध लक्ष्यों को लेकर सख्त नहीं हूं, लेकिन मैं अपनी विशेषज्ञता विकसित करने और अभी के लिए अपनी संभावनाएं तलाशने पर केंद्रित हूं। प्रमाणन के लिए नहीं, बल्कि आत्म-विकास के लिए। इसलिए, मैं यहां अपना कार्यक्रम पूरा करने और कुछ अन्य चीजों की ओर बढ़ने का प्रयास करते हुए खुद को विकसित करने की कोशिश कर रहा हूं।
प्रश्न: इस क्षेत्र में आपके कुछ प्रकाशन क्या हैं?
मैंने विभिन्न प्रकाशनों का हिस्सा बनने के लिए विभिन्न महान व्यक्तियों के साथ सहयोग किया है। मेरे हाल के भाषाविज्ञान पत्रों में से एक है "
यह भी शामिल है:
MasakhaNEWS: अफ्रीकी भाषाओं के लिए समाचार विषय वर्गीकरण बाइबिलटीटीएस: एक बड़ी, उच्च-निष्ठा, बहुभाषी और विशिष्ट अफ्रीकी भाषण कोष द अफ्रीकन स्टॉपवर्ड्स प्रोजेक्ट: अफ्रीकी भाषाओं के लिए स्टॉपवर्ड्स को क्यूरेट करना
प्रश्न: किगाली, रवांडा में आपका वर्तमान कार्य क्या है?
मैं "भाषाविदों के लिए प्राकृतिक भाषा प्रसंस्करण" नामक पाठ्यक्रम पढ़ा रहा हूँ। मूल रूप से, मैं किगाली, रवांडा में अफ्रीकी संदर्भों में भाषाई प्राकृतिक भाषा प्रक्रियाओं को पढ़ा रहा हूँ।
मुझे विभिन्न एनएलपी कार्यों के लिए बहुभाषी डेटासेट के निर्माण, व्याख्या, क्यूरेटिंग, विश्लेषण और प्रकाशन की बारीकियों को प्रदान करने और प्रदर्शित करने का काम सौंपा गया है, जैसे कि बड़े भाषा मॉडल (एलएलएम) का निर्माण। एक बड़े भाषा मॉडल का अर्थ है एक ही धारा के भीतर कई भाषा प्रणालियों को कार्य करने के लिए लाना। हम लेटरलाइजेशन द्वारा इसे हासिल करने की कोशिश करते हैं, जो एआई सिस्टम को एक पैटर्न या टेम्पलेट के साथ प्रशिक्षित करने जैसा है। पैटर्न तब इसके अन्य अनुप्रयोगों का आधार बन जाता है।
संवादात्मक एआई से परे, हम जनरेटिव एआई के क्षेत्र में कुछ सार्थक करने पर विचार कर रहे हैं, जो अभी भी मॉडल की क्षमता के लिए लेटरलाइजेशन का एक हिस्सा है, जो डेटा को क्रमबद्ध करने और गणितीय संगणना जैसे संभाव्यता द्वारा परिणाम उत्पन्न करने के लिए है।
प्रश्न: क्या आप अफ्रीकी संदर्भ में एआई/एनएलपी की वर्तमान स्थिति और अनुप्रयोगों के बारे में बात कर सकते हैं?
एनएलपी का उपयोग पूरे अफ्रीका में कई उदाहरणों में किया गया है, जिनमें से कुछ में रोबोटिक्स और संवादी एआई शामिल हैं। एक संवादात्मक एआई का एक विशिष्ट उदाहरण लागोस अलाय है, जो प्राकृतिक पर्यटकों (अन्य राज्यों के नाइजीरियाई) को लागोस-एक मेगा-शहर और राज्य- के आसपास अपना रास्ता खोजने में मदद करने के लिए है और रेस्तरां, क्लब, दुकानों जैसे स्थानों की पहचान करने के लिए है। और यहां तक कि लोकप्रिय नाइजीरियाई पिजिन (नैजा पिजिन) का उपयोग करते हुए यातायात की स्थिति।
हम एआई मॉडल विकसित कर रहे हैं जिन्हें कार्यों को करने के लिए प्रशिक्षित किया जा सकता है - एक जटिल प्रणाली या प्रक्रिया को सरल कमांड स्ट्रिंग (मॉडलिंग) में संकुचित कर दिया जाता है। यह रोबोटिक्स में एनएलपी का व्यावहारिक अनुप्रयोग है क्योंकि यह इस समय अफ्रीका में खड़ा है।
वर्तमान में, भाषाविज्ञान में, एआई का अनुप्रयोग ज्यादातर स्वचालन में है, हालांकि रोबोट और चैटबॉट जैसे विभिन्न एआई अनुप्रयोगों में भाषाई मॉडल शामिल हैं।
हमारे पास कुछ लोग वास्तव में बहुत अच्छा काम कर रहे हैं, जैसे
अफ्रीकी भाषाओं के संदर्भ में एआई अनुप्रयोगों की क्या चुनौतियाँ हैं
एआई उद्योग में वैश्विक प्रासंगिकता खोजने में अफ्रीका के परिदृश्य के लिए एक बड़ी चुनौती भाषा संसाधनों (डेटा) की सीमा है। अफ्रीका बहुभाषी है, इसलिए हैं
यदि एआई को कुछ होगा, तो यह उच्च संसाधन वाली भाषाओं को होगा। यहां तक कि अगर यह अफ्रीकी भाषाओं के साथ होता है, तो हमारे पास उन्हें शक्ति देने के लिए सिस्टम नहीं है। इसलिए, हम पिछड़ रहे हैं क्योंकि हमारे पास काम करने के लिए पर्याप्त नहीं है, और यह मुद्दा हमारे दस्तावेज़ीकरण की कमी की लगभग आजीवन समस्या रही है।
उदाहरण के लिए, नाइजीरिया को लें, 200 से अधिक जनजातियाँ, फिर भी केवल तीन भाषाएँ ही सबसे अधिक लोकप्रिय हैं। योरूबा, इग्बो और हौसा के विपरीत, छोटी जनजातियों और भाषाओं में बहुत कम डेटा (कम संसाधन डेटा) होता है। हम यही करने की कोशिश कर रहे हैं
एआई और एनएलपी तकनीशियन निवेश नहीं कर रहे हैं क्योंकि वे इसमें विश्वास नहीं करते हैं, या उन्हें लगता है कि उनके आरओआई का पता लगाने के लिए पर्याप्त डेटा नहीं है। इसलिए, हम उम्मीद कर रहे हैं कि हमारे मौजूदा भूमिगत कार्य सफलता साबित होंगे।
इसके अलावा, अफ्रीका भाषाई एआई और एनएलपी के वैश्विक बाजार में हाशिए पर है क्योंकि सबसे लोकप्रिय खोज इंजन एशियाई और पश्चिमी (विशेष रूप से अमेरिकी) हैं। इसके अलावा, यहां हमारे कुछ कार्यों के लिए, प्रायोजन के कारण हम अफ्रीकियों के रूप में उनका श्रेय नहीं ले सकते।
प्रश्न: अफ्रीकी एनएलपी के अनुप्रयोगों में सबसे अधिक प्रगति वाले अफ्रीकी देश कौन से हैं?
सबसे अधिक प्रभाव डालने वाले अफ्रीकी देशों में दक्षिण अफ्रीका, केन्या और रवांडा शामिल हैं-वे लोग पागल हैं! नाइजीरिया भी कोशिश कर रहा है, लेकिन ज्यादातर लोग जो अंतरिक्ष की खोज कर रहे हैं, वे विकास नहीं बल्कि अकादमिक प्रमाणपत्रों की संतुष्टि चाहते हैं। हम अपनी भाषा (भाषाओं) को महत्व देते हैं, लेकिन हम उनके साथ डेटासेट नहीं बना रहे हैं। हम अपनी भाषा को एक विरासत के रूप में बोलना या उसका निजीकरण करना पसंद करेंगे, जब हमें भाषा को संरक्षित और संरक्षित करने के लिए प्रलेखन में निवेश करना चाहिए।
प्रश्न: तो, व्यवसाय के लिहाज से, अफ्रीकी भाषाओं के लिए एनएलपी के व्यावसायीकरण में अफ्रीका कहां खड़ा है?
ईमानदारी से, डेटासेट बेचने के व्यवसाय के अलावा और कुछ नहीं है। फिर भी, जो परियोजनाओं में पैसा लगाते हैं, वे बहुत कुछ देते हैं, लेकिन जो राशि फील्ड एजेंटों को मिलती है, वह मूल राशि की तुलना में बहुत कम होती है।
प्रश्न: यह मुझे नैतिकता के प्रश्न पर लाता है। क्या लोगों के डेटा को इकट्ठा करने और बेचने का कोई नैतिक मूल्य है? और क्या इन परियोजनाओं के लिए बड़ी राशि प्राप्त करना उचित है और इन भाषाओं के प्राथमिक स्रोतों को बहुत कम राशि (कभी-कभी शून्य) मिलती है? क्या इन डेटा या स्रोतों के लिए सुरक्षा है?
डेटा संग्रह के खिलाफ कोई कानून नहीं है। सबसे महत्वपूर्ण बात यह है कि देशी वक्ताओं से स्वेच्छा से डेटा एकत्र किया जाता है, और उन्हें उनके समय के लिए पुरस्कृत किया जाता है। हालांकि, सभी गतिविधियां अफ्रीकी संघ के अनुरूप होनी चाहिए
और आपके दूसरे प्रश्न के लिए, कोई भी उस राशि के बारे में कुछ नहीं कर सकता है जो अंततः इन क्षेत्रों में शामिल लोगों तक पहुँचती है। सबसे महत्वपूर्ण बात यह है कि हर कोई परियोजना को स्वेच्छा से करता है। लोगों को बताया जाता है कि उन्हें रिकॉर्ड किया जाएगा और पुरस्कृत किया जाएगा, और जब तक वे कीमत के साथ ठीक हैं, कोई "अनुचितता" नहीं है।
प्रश्न: यदि कोई एनएलपी और भाषा प्रशिक्षण में शामिल होना चाहता है, तो आप क्या सलाह देते हैं?
यह एक विस्तृत मैदान है। कई के पास पहले से ही नींव है और वे निर्माण के चरणों में हैं, लेकिन हमारे पास अभी भी अधिक पहलू हैं जो मुश्किल से मूलभूत हैं। मैं किसी को भी भाषा डेटा संग्रह और विश्लेषण में शामिल होने की सलाह दूंगा। हमें डेटासेट के लिए डेटा एनालिटिक्स की उतनी ही आवश्यकता है जितनी हमें डेटा की आवश्यकता है।
इसलिए, मैं उत्साही डेटा-संचालित समूहों में शामिल होने या स्वयंसेवा करने की सलाह दूंगा; डेटा संग्रह और विश्लेषण, सीखने के नामकरण और अन्य के लिए स्वयंसेवक।
अंतिम विचार
अलग-अलग एआई और एनएलपी के लिए कमांड या प्रॉम्प्ट के साथ वॉयस रिकग्निशन सॉफ्टवेयर में अफ्रीका को अनुचित तरीके से दर्शाया जाना जारी है। जब अफ़्रीकी लोग डेटासेट बनाने के लिए निकलेंगे और अपनी भाषा बाहर निकालेंगे और दस्तावेज़ीकरण में निवेश करना जारी रखेंगे, तो कथा अलग हो जाएगी। फिर भी, आप एआई और एनएलपी अनुप्रयोगों के संबंध में अफ्रीका से आने वाली कुछ कृतियों से प्रभावित होंगे।
मेरे शोध और निम्नलिखित सुरागों में, मैंने देखा है कि रोबोटों को स्थानीय अफ्रीकी भाषाओं के साथ प्रेरित किया जा रहा है, हमारे पास विभिन्न अफ्रीकी संदर्भों (पर्यटन, अन्वेषण) के लिए अधिक स्थानीय चैटबॉट हैं, कुछ भाषाओं का उपयोग घरेलू उपकरणों के लिए IoT के लिए किया जा रहा है। हालांकि, मेरा मानना है कि अभी दुनिया में बड़े पैमाने पर एआई और एनएलपी क्रांति चल रही है, इस पर विचार करते हुए हमें और अधिक करना चाहिए। अभी के लिए, हमारे पास और है