लेखक:
(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.
(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।
डीप लेक के प्राथमिक उपयोग के मामलों में (ए) डीप लर्निंग मॉडल प्रशिक्षण, (बी) डेटा वंशावली और संस्करण नियंत्रण, (सी) डेटा क्वेरी और एनालिटिक्स, (डी) डेटा निरीक्षण और गुणवत्ता नियंत्रण शामिल हैं। हमने NumPy [55] सरणियों को एक बुनियादी ब्लॉक के रूप में लिया और कार्यान्वित किया
संस्करण नियंत्रण, स्ट्रीमिंग डेटा लोडर, विज़ुअलाइज़ेशन इंजन शुरू से।
टेंसर स्टोरेज फॉर्मेट (TSF) एक बाइनरी फ़ाइल फॉर्मेट है जिसे विशेष रूप से टेंसर को संग्रहीत करने के लिए डिज़ाइन किया गया है, जो कई मशीन लर्निंग और डीप लर्निंग एल्गोरिदम में उपयोग किए जाने वाले संख्यात्मक मानों की बहुआयामी सरणियाँ हैं। TSF फॉर्मेट को कुशल और कॉम्पैक्ट होने के लिए डिज़ाइन किया गया है, जिससे टेंसर डेटा का तेज़ और कुशल भंडारण और पहुँच संभव है। TSF फॉर्मेट का एक मुख्य लाभ यह है कि यह गतिशील रूप से आकार वाले टेंसर सहित टेंसर डेटा प्रकारों की एक विस्तृत श्रृंखला का समर्थन करता है।
इसकी तुलना में, पार्क्वेट [79] और एरो [13] प्रारूप स्तंभ फ़ाइल प्रारूप हैं जो बड़े विश्लेषणात्मक डेटासेट को संग्रहीत करने और संसाधित करने के लिए डिज़ाइन किए गए हैं। TSF के विपरीत, जिसे विशेष रूप से टेंसर डेटा के लिए डिज़ाइन किया गया है, पार्क्वेट और एरो को सारणीबद्ध और समय-श्रृंखला डेटा पर विश्लेषणात्मक कार्यभार के कुशल भंडारण और क्वेरी के लिए अनुकूलित किया गया है। वे भंडारण स्थान को कम करने और प्रदर्शन को बेहतर बनाने के लिए स्तंभ भंडारण और संपीड़न तकनीकों का उपयोग करते हैं, जिससे वे बड़े डेटा अनुप्रयोगों के लिए उपयुक्त हो जाते हैं। हालाँकि, टेंसर डेटा की बात करें तो TSF में पार्क्वेट और एरो के मुकाबले कुछ फायदे हैं। TSF टेंसर संचालन और डीप लर्निंग फ्रेमवर्क के लिए कुशल स्ट्रीमिंग का समर्थन कर सकता है।
अन्य टेंसर प्रारूप [18, 52, 23, 57] बड़े पैमाने पर समानांतर कार्यभार के लिए कुशल हैं क्योंकि उन्हें विखंडों में समन्वय की आवश्यकता नहीं होती है। टेंसर स्टोरेज फ़ॉर्मेट की मुख्य ट्रेड-ऑफ़ मेमोरी फ़ुटप्रिंट को पैडिंग किए बिना टेंसर के अंदर गतिशील रूप से आकार सरणियों को संग्रहीत करने में सक्षम है। उदाहरण के लिए, कंप्यूटर विज़न में अलग-अलग आकृतियों या वीडियो के साथ कई छवियों को संग्रहीत करना बहुत आम है जिसमें गतिशील लंबाई होती है। लचीलेपन का समर्थन करने के लिए, पहले से चर्चा किए गए चंक एनकोडर के रूप में मामूली ओवरहेड पेश किया गया है जिसका व्यवहार में हमने उत्पादन कार्यभार पर प्रभाव नहीं देखा है।
डीप लेक स्थानीय और दूरस्थ सेटिंग्स में अत्याधुनिक परिणाम प्राप्त करता है, जैसा कि बड़ी छवियों पर पुनरावृत्ति के लिए बेंचमार्क में देखा गया है चित्र 7। मुख्य रूप से, यह FFCV [39] से तेज़ रहा है, जिसने प्रति मॉडल प्रशिक्षण में 98 सेंट तक इमेजनेट मॉडल प्रशिक्षण में कमी का दावा किया है। इसके अलावा, डीप लेक वेबडाटासेट [19] के समान अंतर्ग्रहण प्रदर्शन प्राप्त करता है। डीप लेक बड़ी छवियों पर काफी बेहतर प्रदर्शन करता है। पार्केट छोटे सेल और विश्लेषणात्मक कार्यभार के लिए अनुकूलित है, जबकि डीप लेक बड़े, गतिशील रूप से आकार वाले टेंसोरियल डेटा के लिए अनुकूलित है। अन्य डेटा लेक समाधानों की तुलना में, इसका न्यूनतम पायथन पैकेज डिज़ाइन डीप लेक को बड़े पैमाने पर वितरित प्रशिक्षण या अनुमान कार्यभार में आसानी से एकीकृत करने में सक्षम बनाता है।
डीप लेक के वर्तमान कार्यान्वयन में और सुधार के अवसर हैं। सबसे पहले, स्टोरेज फ़ॉर्मेट वेक्टर खोज या कुंजी-मूल्य अनुक्रमण के लिए आवश्यक और भी अधिक कुशल स्टोरेज लेआउट के लिए कस्टम ऑर्डरिंग का समर्थन नहीं करता है। दूसरे, डीप लेक समवर्ती पहुँच के लिए शाखा-आधारित लॉक लागू करता है। डेल्टा एसीआईडी लेनदेन मॉडल [27] के समान, डीप लेक को अत्यधिक प्रदर्शन वाले समानांतर कार्यभार तक बढ़ाया जा सकता है। तीसरा, टीक्यूएल का वर्तमान कार्यान्वयन केवल SQL संचालन के एक सबसेट का समर्थन करता है (यानी, जॉइन जैसे संचालन का समर्थन नहीं करता है)। आगे का काम इसे SQL-पूर्ण बनाने, अधिक संख्यात्मक संचालन तक विस्तारित करने, बाहरी डेटा स्रोतों में फ़ेडरेटेड क्वेरी चलाने और SQL इंजन के विरुद्ध बेंचमार्किंग पर केंद्रित होगा।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।