लेखक:
(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.
(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।
लिंक की तालिका
- सार और परिचय
- वर्तमान चुनौतियाँ
- टेंसर संग्रहण प्रारूप
- गहरी झील प्रणाली अवलोकन
- मशीन लर्निंग उपयोग के मामले
- प्रदर्शन बेंचमार्क
- चर्चा और सीमाएँ
- संबंधित कार्य
- निष्कर्ष, आभार और संदर्भ
2. वर्तमान चुनौतियाँ
इस अनुभाग में, हम असंरचित या जटिल डेटा प्रबंधन की वर्तमान और ऐतिहासिक चुनौतियों पर चर्चा करते हैं।
2.1 डेटाबेस में जटिल डेटा प्रकार
आम तौर पर बाइनरी डेटा, जैसे कि इमेज, को सीधे डेटाबेस में संग्रहीत करने की अनुशंसा नहीं की जाती है। ऐसा इसलिए है क्योंकि डेटाबेस बड़ी फ़ाइलों को संग्रहीत करने और परोसने के लिए अनुकूलित नहीं हैं और प्रदर्शन संबंधी समस्याएँ पैदा कर सकते हैं। इसके अलावा, बाइनरी डेटा डेटाबेस के संरचित प्रारूप में अच्छी तरह से फिट नहीं होता है, जिससे इसे क्वेरी करना और हेरफेर करना मुश्किल हो जाता है। इससे उपयोगकर्ताओं के लिए लोड समय धीमा हो सकता है। डेटाबेस आमतौर पर अन्य प्रकार के स्टोरेज, जैसे कि फ़ाइल सिस्टम या क्लाउड स्टोरेज सेवाओं की तुलना में संचालित और रखरखाव के लिए अधिक महंगे होते हैं। इसलिए, डेटाबेस में बड़ी मात्रा में बाइनरी डेटा संग्रहीत करना अन्य स्टोरेज समाधानों की तुलना में अधिक महंगा हो सकता है।
2.2 सारणीबद्ध प्रारूप के साथ जटिल डेटा
बड़े पैमाने पर विश्लेषणात्मक और BI कार्यभार में वृद्धि ने संपीड़ित संरचित प्रारूपों जैसे कि पार्क्वेट, ORC, एवरो, या एरो [79, 6, 20, 13] जैसे क्षणिक इन-मेमोरी प्रारूपों के विकास को प्रेरित किया। जैसे-जैसे सारणीबद्ध प्रारूपों को अपनाया गया, उन प्रारूपों को विस्तारित करने के प्रयास, जैसे कि पेटास्टॉर्म [18] या फेदर [7] डीप लर्निंग के लिए सामने आए। हमारे सर्वोत्तम ज्ञान के अनुसार, इन प्रारूपों को अभी तक व्यापक रूप से अपनाया जाना बाकी है। यह दृष्टिकोण मुख्य रूप से आधुनिक डेटा स्टैक (एमडीएस) के साथ मूल एकीकरण से लाभान्वित होता है। हालाँकि, जैसा कि पहले चर्चा की गई है, अपस्ट्रीम टूल को डीप लर्निंग अनुप्रयोगों के अनुकूल होने के लिए मौलिक संशोधनों की आवश्यकता होती है।
2.3 डीप लर्निंग के लिए ऑब्जेक्ट स्टोरेज
बड़े असंरचित डेटासेट को संग्रहीत करने के लिए वर्तमान क्लाउड-नेटिव विकल्प ऑब्जेक्ट स्टोरेज है जैसे कि AWS S3 [1], Google क्लाउड स्टोरेज (GCS) [3], या MinIO [17]। ऑब्जेक्ट स्टोरेज वितरित नेटवर्क फ़ाइल सिस्टम पर तीन मुख्य लाभ प्रदान करता है। वे (ए) लागत-कुशल हैं, (बी) स्केलेबल हैं, और (सी) एक प्रारूप-अज्ञेय भंडार के रूप में काम करते हैं। हालाँकि, क्लाउड स्टोरेज कमियों के बिना नहीं हैं। सबसे पहले, वे महत्वपूर्ण विलंबता ओवरहेड पेश करते हैं, खासकर जब कई छोटी फ़ाइलों जैसे कि टेक्स्ट या JSON पर पुनरावृत्ति होती है। अगला, मेटाडेटा नियंत्रण के बिना असंरचित डेटा अंतर्ग्रहण "डेटा दलदल" पैदा कर सकता है। इसके अलावा, ऑब्जेक्ट स्टोरेज में बिल्ट-इन वर्जन कंट्रोल होता है; इसका उपयोग डेटा साइंस वर्कफ़्लो में शायद ही कभी किया जाता है। अंत में, ऑब्जेक्ट स्टोरेज पर डेटा को प्रशिक्षण से पहले एक वर्चुअल मशीन में कॉपी किया जाता है, जिसके परिणामस्वरूप स्टोरेज ओवरहेड और अतिरिक्त लागत होती है।
2.4 डेटा झीलों की दूसरी पीढ़ी
डेल्टा, आइसबर्ग, हुडी [27, 15, 10] के नेतृत्व में दूसरी पीढ़ी के डेटा झील निम्नलिखित प्राथमिक गुणों के साथ सारणीबद्ध प्रारूप फ़ाइलों का प्रबंधन करके ऑब्जेक्ट स्टोरेज का विस्तार करते हैं।
(1) अद्यतन कार्य: सारणीबद्ध प्रारूप फ़ाइल के शीर्ष पर एक पंक्ति सम्मिलित करना या हटाना।
(2) स्ट्रीमिंग : एसीआईडी गुणों के साथ डाउनस्ट्रीम डेटा अंतर्ग्रहण और एसक्यूएल इंटरफ़ेस को उजागर करने वाले क्वेरी इंजन के साथ अपस्ट्रीम एकीकरण।
(3) स्कीमा विकास: पश्चगामी संगतता को संरक्षित करते हुए स्तंभ संरचना का विकास करना।
(4) समय यात्रा और ऑडिट लॉग ट्रेलिंग: रोलबैक प्रॉपर्टी के साथ ऐतिहासिक स्थिति को संरक्षित करना जहां क्वेरीज़ को पुन: प्रस्तुत किया जा सकता है। साथ ही, डेटा वंशावली पर पंक्ति-स्तरीय नियंत्रण के लिए समर्थन।
(5) लेआउट अनुकूलन: कस्टम ऑर्डरिंग समर्थन के साथ फ़ाइल आकार और डेटा कॉम्पैक्शन को अनुकूलित करने के लिए अंतर्निहित सुविधा। क्वेरी करने की गति को महत्वपूर्ण रूप से बढ़ाता है।
हालाँकि, दूसरी पीढ़ी के डेटा लेक अभी भी डीप लर्निंग में इस्तेमाल किए जाने वाले अंतर्निहित डेटा फ़ॉर्मेट की सीमाओं से बंधे हुए हैं, जैसा कि पहले सेक्शन 2.2 में चर्चा की गई थी। इसलिए इस पेपर में, हम डीप लर्निंग उपयोग मामलों के लिए डेटा लेक क्षमताओं की दूसरी पीढ़ी का विस्तार करते हैं, जिसमें क्वेरी, विज़ुअलाइज़ेशन और डीप लर्निंग फ़्रेमवर्क में नेटिव इंटीग्रेशन सहित फ़ॉर्मेट और अपस्ट्रीम सुविधाओं पर पुनर्विचार करके एमएल जीवनचक्र को पूरा करना शामिल है जैसा कि चित्र 2 में दिखाया गया है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।