paint-brush
एआई खोज को समझनाद्वारा@algolia
4,620 रीडिंग
4,620 रीडिंग

एआई खोज को समझना

द्वारा Algolia5m2023/04/23
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

अल्गोलिया बताते हैं कि सर्च और एआई कैसे काम करते हैं। बिंग ने चैटजीपीटी जोड़ा है जो बड़े भाषा मॉडल (एलएलएम) का उपयोग करता है। Google ने हाल ही में नई छवि खोज क्षमताओं और अपनी एलएलएम सेवा की घोषणा की है। अल्गोलिया में हम अपनी खुद की एआई-संचालित तकनीक भी पेश करने वाले हैं जो किसी भी एप्लिकेशन के लिए बुद्धिमान खोज को स्केल करने के लिए न्यूरल हैशिंग का उपयोग करती है।
featured image - एआई खोज को समझना
Algolia HackerNoon profile picture


खोज कंपनियों को यह सुनना भ्रमित करने वाला हो सकता है कि खोज और AI कैसे काम करते हैं। बिंग ने चैटजीपीटी को जोड़ा है जो बड़े भाषा मॉडल (एलएलएम) का उपयोग करता है, लेकिन इससे पहले भी उनमें सीखने की गहरी क्षमता थी। गूगल ने हाल ही में नई छवि खोज क्षमताओं और अपनी एलएलएम सेवा की घोषणा की। अल्गोलिया में, हम अपनी एआई-संचालित तकनीक भी पेश करने वाले हैं जो किसी भी एप्लिकेशन के लिए बुद्धिमान खोज को स्केल करने के लिए न्यूरल हैशिंग का उपयोग करती है। ये सभी शर्तें भ्रामक हो सकती हैं।


आइए खोज में शामिल तकनीकों को तोड़कर इसे ठीक करें।

चलिए शुरू से शुरू करते हैं…कीवर्ड सर्च क्या है?

कीवर्ड सर्च इंजन दशकों से मौजूद हैं। Apache Lucene प्रोजेक्ट सबसे प्रसिद्ध ओपन सोर्स सर्च इंजनों में से एक है जो कीवर्ड सर्च कार्यक्षमता प्रदान करता है। इस प्रकार का सर्च इंजन इंडेक्स में आइटम्स के लिए प्रश्नों का मिलान करने के लिए सांख्यिकीय तकनीकों का उपयोग करता है। वे पुस्तक में उन सभी स्थानों की ओर इंगित करके जहाँ जानकारी स्थित है, एक पुस्तक के पीछे की अनुक्रमणिका की तरह काम करते हैं। टाइपो टॉलरेंस, वर्ड सेगमेंटेशन और स्टेमिंग जैसी क्वेरी प्रोसेसिंग तकनीकों का उपयोग खोज इंजनों को पचाने और वर्तनी और क्वेरी को समझने में मदद करने के लिए भी किया जाता है।


कीवर्ड खोज बहुत तेज़ होती है, और सटीक क्वेरी-कीवर्ड मिलानों के लिए अच्छा काम करती है। हालांकि, वे अक्सर लंबी पूंछ वाले प्रश्नों, अवधारणा खोजों, प्रश्न-शैली की खोजों, समानार्थी शब्दों और अन्य वाक्यांशों के साथ संघर्ष करते हैं जहां क्वेरी अनुक्रमणिका में सामग्री से बिल्कुल मेल नहीं खाती है। इस कारण से, कई कंपनियों ने सहायता के लिए एआई पर्यायवाची पीढ़ी जैसे अतिरिक्त फीचर जोड़े हैं।

सिमेंटिक सर्च क्या है?

शब्दार्थ खोज में खोज क्वेरी में शब्दों और वाक्यांशों के अर्थ को समझना और क्वेरी से शब्दार्थ से संबंधित परिणाम लौटाना शामिल है। सिमेंटिक सर्च इंजन शब्दों और वाक्यांशों के अर्थ को समझने और संबंधित अवधारणाओं, समानार्थी शब्दों और अन्य संबंधित जानकारी को खोजने के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकों का उपयोग करते हैं जो खोज क्वेरी के लिए प्रासंगिक हो सकती हैं।

यह AI खोज से किस प्रकार भिन्न है? क्या सिमेंटिक सर्च और एआई सर्च एक ही चीज हैं?

एआई सर्च एक सामान्य और व्यापक शब्द है जिसमें सिमेंटिक सर्च के साथ-साथ सर्च रिजल्ट देने के लिए अन्य मशीन लर्निंग तकनीक भी शामिल है। एआई सर्च में आमतौर पर क्वेरी प्रोसेसिंग, रिट्रीवल और रैंकिंग सहित कई चरण शामिल होते हैं।


  • क्वेरी प्रोसेसिंग : इस चरण में उपयोगकर्ता की क्वेरी का विश्लेषण उसके इरादे, दायरे और बाधाओं को समझने के लिए किया जाता है। क्वेरी प्रोसेसिंग में ऐसे कार्य शामिल हो सकते हैं जैसे क्वेरी को उसके घटक भागों में पार्स करना, कीवर्ड और वाक्यांशों की अर्थपूर्ण समझ, क्वेरी को एक मानक प्रारूप में सामान्य बनाना, और बहुत कुछ।


  • पुनर्प्राप्ति : एक बार क्वेरी संसाधित हो जाने के बाद, सिस्टम दस्तावेज़ या डेटा आइटम का एक सेट पुनर्प्राप्त करता है जो क्वेरी मानदंड से मेल खाता है। एआई सर्च आम तौर पर प्रासंगिक परिणाम देने के लिए शब्दों के बीच समानता निर्धारित करने और संबंधितता को मापने के लिए मशीन लर्निंग एल्गोरिदम का उपयोग करता है।


  • रैंकिंग : दस्तावेजों या डेटा आइटमों को पुनः प्राप्त करने के बाद, सिस्टम उपयोगकर्ता की क्वेरी के लिए उनकी प्रासंगिकता और महत्व के आधार पर उन्हें रैंक करता है। रीइन्फोर्समेंट लर्निंग जैसे लर्निंग-टू-रैंक मॉडल का उपयोग परिणामों को लगातार अनुकूलित करने के लिए किया जाता है।

क्या सर्च इंजन एआई जनरेटिव एआई से अलग है?

OpenAI की ChatGPT, Google की बार्ड, मिडजर्नी और इसी तरह की अन्य AI तकनीक को जनरेटिव AI कहा जाता है। ये सामान्य उद्देश्य समाधान इनपुट के आधार पर परिणामों की भविष्यवाणी करने का प्रयास करते हैं, और वास्तव में एक नई प्रतिक्रिया उत्पन्न करेंगे। वे कुछ नया उत्पन्न करने के लिए पहले से मौजूद पाठ और दृश्य सामग्री का उपयोग करते हैं।


दूसरी ओर, खोज इंजन खोज परिणामों को बेहतर बनाने के लिए AI का उपयोग कर सकते हैं। जनरेटिव एआई की तरह, सर्च एआई का उपयोग प्राकृतिक भाषा इनपुट को समझने के लिए किया जा सकता है। जनरेटिव एआई के विपरीत, खोज इंजन कोई नई, नई सामग्री नहीं बना रहे हैं। दोनों तकनीकों का एक साथ या स्वतंत्र रूप से उपयोग किया जा सकता है। रचनात्मक आउटपुट के साथ सहायता के लिए जनरेटिव एआई तकनीकों का उपयोग किया जा सकता है, और ऑर्डर परिणामों को फ़िल्टर करने और रैंक करने के लिए खोज का उपयोग किया जाता है। नए फैशन विचारों की तलाश करने वाला कोई व्यक्ति चैट बॉट से पूछ सकता है कि नवीनतम रुझान क्या हैं, परिणाम प्राप्त करें और फिर परिणाम खोजने के लिए खोज का उपयोग करें। या, आप उत्पादों को खोजने के लिए खोज का उपयोग कर सकते हैं और फिर चैट से प्रत्येक परिणाम के पेशेवरों और विपक्षों को समझाने के लिए कह सकते हैं।


जनरेटिव चैट एआई और सर्च एआई दोनों ही अक्सर प्राकृतिक भाषा की समझ के माध्यम से एक बेहतर उपयोगकर्ता अनुभव प्रदान करते हैं।

क्या AI सर्च भी LLM का उपयोग करता है?

बड़े भाषा मॉडल (एलएलएम) अभी कुछ समय के लिए हैं, लेकिन जीपीटी ने उन्हें सुर्खियों में ला दिया है। एलएलएम आर्टिफिशियल इंटेलिजेंस मॉडल हैं जिन्हें प्राकृतिक भाषा पाठ को संसाधित करने और उत्पन्न करने के लिए प्रशिक्षित किया जाता है। ये मॉडल आमतौर पर गहन शिक्षण तकनीकों का उपयोग करके बनाए जाते हैं और प्रशिक्षण के लिए बड़ी मात्रा में डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। अल्गोलिया में, हम एलएलएम का भी उपयोग करते हैं, लेकिन मशीन की समझ में सहायता के लिए। हम एलएलएम का उपयोग वैक्टर बनाने के लिए करते हैं जिसका उपयोग हम प्रश्नों की परिणामों से तुलना करने के लिए कर सकते हैं।

वेक्टर खोज क्या है?

वैश्वीकरण शब्दों को सदिशों (संख्याओं) में परिवर्तित करने की प्रक्रिया है जो उनके अर्थ को एन्कोडेड और गणितीय रूप से संसाधित करने की अनुमति देता है। आप वैक्टर को संख्याओं के समूह के रूप में सोच सकते हैं जो किसी चीज़ का प्रतिनिधित्व करते हैं। व्यवहार में, वैक्टर का उपयोग स्वचालित समानार्थक शब्द, क्लस्टरिंग दस्तावेज़, प्रश्नों में विशिष्ट अर्थों और उद्देश्यों का पता लगाने और रैंकिंग परिणामों के लिए किया जाता है। एम्बेडिंग बहुत बहुमुखी और अन्य ऑब्जेक्ट हैं - जैसे संपूर्ण दस्तावेज़, चित्र, वीडियो, ऑडियो, और बहुत कुछ - भी एम्बेड किया जा सकता है।


वेक्टर खोज शब्द एम्बेडिंग (या छवि, वीडियो, दस्तावेज़, आदि) का उपयोग करने का एक तरीका है, जो संबंधित वस्तुओं को खोजने के लिए मशीन लर्निंग मॉडल का उपयोग करके समान विशेषताओं वाले होते हैं जो एक सूचकांक में वस्तुओं के बीच सिमेंटिक संबंधों का पता लगाते हैं।


वेक्टर अंतरिक्ष आयाम दिखाने वाली छवि। समानता को अक्सर यूक्लिडियन दूरी या कोसाइन समानता का उपयोग करके मापा जाता है।


वेक्टर समानता की गणना के लिए कई अलग-अलग अनुमानित निकटतम पड़ोसी (एएनएन) एल्गोरिदम हैं। एचएनएसडब्ल्यू (पदानुक्रमित नेविगेशनल स्मॉल वर्ल्ड), आईवीएफ (इनवर्टेड फाइल), या पीक्यू (उत्पाद परिमाणीकरण, एक वेक्टर के आयामों की संख्या को कम करने की तकनीक) जैसी तकनीकें वैक्टर के बीच समानता खोजने के लिए सबसे लोकप्रिय एएनएन विधियों में से कुछ हैं। प्रत्येक तकनीक एक विशेष प्रदर्शन संपत्ति को बेहतर बनाने पर ध्यान केंद्रित करती है, जैसे कि PQ के साथ मेमोरी में कमी या HNSW और IVF के साथ तेज़ लेकिन सटीक खोज समय। किसी दिए गए उपयोग मामले के लिए इष्टतम प्रदर्शन प्राप्त करने के लिए 'समग्र' सूचकांक तैयार करने के लिए कई घटकों को मिलाना आम बात है।


वैक्टर के साथ काम करने की चुनौतियों में से एक उनका आकार है। वे बहुत बड़े तार होते हैं जिनके लिए विशेष डेटाबेस और जीपीयू प्रबंधन की आवश्यकता होती है। न्यूरल हैशिंग एक नई प्रक्रिया है जो वैक्टर को कंप्रेस करने के लिए न्यूरल नेटवर्क का उपयोग करती है ताकि उन्हें मानक वेक्टर गणनाओं की तुलना में 500 गुना तेजी से संसाधित किया जा सके और कमोडिटी हार्डवेयर पर चलाया जा सके।

कीवर्ड + वेक्टर... हाइब्रिड खोज क्या है?

हाइब्रिड सर्च कीवर्ड सर्च के साथ वेक्टर सर्च का संयोजन है। अस्पष्ट या व्यापक खोजों के लिए सदिश खोज शानदार है, लेकिन सटीक प्रश्नों के लिए खोजशब्द खोज अभी भी रोस्ट पर राज करती है। उदाहरण के लिए, जब आप किसी कीवर्ड इंजन पर "एडिडास" के लिए क्वेरी करते हैं, तो डिफ़ॉल्ट रूप से आपको केवल एडिडास ब्रांड दिखाई देगा। सदिश इंजन में डिफ़ॉल्ट व्यवहार समान परिणाम देने के लिए है - नाइके, प्यूमा, एडिडास, आदि, क्योंकि वे सभी एक ही वैचारिक स्थान में हैं। कीवर्ड खोज अभी भी विशिष्ट उद्देश्य से लघु प्रश्नों के लिए बेहतर परिणाम प्रदान करती है।


हाइब्रिड खोज सटीक मिलान और सरल वाक्यांशों के लिए गति और सटीकता प्रदान करने वाले दोनों शब्दों में से सर्वश्रेष्ठ प्रदान करती है, जबकि वैक्टर लंबी पूंछ वाले प्रश्नों में सुधार करते हैं और नए खोज समाधानों के द्वार खोलते हैं। अल्गोलिया में, हमारा हाइब्रिड एआई समाधान - अल्गोलिया न्यूरलसर्च - जल्द ही आ रहा है। और जानें


यहाँ भी प्रकाशित हुआ।