paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: चर्चा और सीमाएँद्वारा@dataology
166 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: चर्चा और सीमाएँ

द्वारा Dataology: Study of Data in Computer Science3m2024/06/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: चर्चा और सीमाएँ
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

लेखक:

(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

7. चर्चा और सीमाएँ

डीप लेक के प्राथमिक उपयोग के मामलों में (ए) डीप लर्निंग मॉडल प्रशिक्षण, (बी) डेटा वंशावली और संस्करण नियंत्रण, (सी) डेटा क्वेरी और एनालिटिक्स, (डी) डेटा निरीक्षण और गुणवत्ता नियंत्रण शामिल हैं। हमने NumPy [55] सरणियों को एक बुनियादी ब्लॉक के रूप में लिया और कार्यान्वित किया


चित्र 10: 1B पैरामीटर CLIP मॉडल [60] को प्रशिक्षित करते समय एकल 16xA100 GPU मशीन का GPU उपयोग। डेटासेट LAION-400M [68] है जो AWS us-east से GCP us-central डेटासेंटर तक स्ट्रीमिंग करता है। प्रत्येक रंग प्रशिक्षण के दौरान एकल A100 GPU उपयोग को दर्शाता है।


संस्करण नियंत्रण, स्ट्रीमिंग डेटा लोडर, विज़ुअलाइज़ेशन इंजन शुरू से।

7.1 प्रारूप डिज़ाइन स्थान

टेंसर स्टोरेज फॉर्मेट (TSF) एक बाइनरी फ़ाइल फॉर्मेट है जिसे विशेष रूप से टेंसर को संग्रहीत करने के लिए डिज़ाइन किया गया है, जो कई मशीन लर्निंग और डीप लर्निंग एल्गोरिदम में उपयोग किए जाने वाले संख्यात्मक मानों की बहुआयामी सरणियाँ हैं। TSF फॉर्मेट को कुशल और कॉम्पैक्ट होने के लिए डिज़ाइन किया गया है, जिससे टेंसर डेटा का तेज़ और कुशल भंडारण और पहुँच संभव है। TSF फॉर्मेट का एक मुख्य लाभ यह है कि यह गतिशील रूप से आकार वाले टेंसर सहित टेंसर डेटा प्रकारों की एक विस्तृत श्रृंखला का समर्थन करता है।


इसकी तुलना में, पार्क्वेट [79] और एरो [13] प्रारूप स्तंभ फ़ाइल प्रारूप हैं जो बड़े विश्लेषणात्मक डेटासेट को संग्रहीत करने और संसाधित करने के लिए डिज़ाइन किए गए हैं। TSF के विपरीत, जिसे विशेष रूप से टेंसर डेटा के लिए डिज़ाइन किया गया है, पार्क्वेट और एरो को सारणीबद्ध और समय-श्रृंखला डेटा पर विश्लेषणात्मक कार्यभार के कुशल भंडारण और क्वेरी के लिए अनुकूलित किया गया है। वे भंडारण स्थान को कम करने और प्रदर्शन को बेहतर बनाने के लिए स्तंभ भंडारण और संपीड़न तकनीकों का उपयोग करते हैं, जिससे वे बड़े डेटा अनुप्रयोगों के लिए उपयुक्त हो जाते हैं। हालाँकि, टेंसर डेटा की बात करें तो TSF में पार्क्वेट और एरो के मुकाबले कुछ फायदे हैं। TSF टेंसर संचालन और डीप लर्निंग फ्रेमवर्क के लिए कुशल स्ट्रीमिंग का समर्थन कर सकता है।


अन्य टेंसर प्रारूप [18, 52, 23, 57] बड़े पैमाने पर समानांतर कार्यभार के लिए कुशल हैं क्योंकि उन्हें विखंडों में समन्वय की आवश्यकता नहीं होती है। टेंसर स्टोरेज फ़ॉर्मेट की मुख्य ट्रेड-ऑफ़ मेमोरी फ़ुटप्रिंट को पैडिंग किए बिना टेंसर के अंदर गतिशील रूप से आकार सरणियों को संग्रहीत करने में सक्षम है। उदाहरण के लिए, कंप्यूटर विज़न में अलग-अलग आकृतियों या वीडियो के साथ कई छवियों को संग्रहीत करना बहुत आम है जिसमें गतिशील लंबाई होती है। लचीलेपन का समर्थन करने के लिए, पहले से चर्चा किए गए चंक एनकोडर के रूप में मामूली ओवरहेड पेश किया गया है जिसका व्यवहार में हमने उत्पादन कार्यभार पर प्रभाव नहीं देखा है।

7.2 डेटा लोडर

डीप लेक स्थानीय और दूरस्थ सेटिंग्स में अत्याधुनिक परिणाम प्राप्त करता है, जैसा कि बड़ी छवियों पर पुनरावृत्ति के लिए बेंचमार्क में देखा गया है चित्र 7। मुख्य रूप से, यह FFCV [39] से तेज़ रहा है, जिसने प्रति मॉडल प्रशिक्षण में 98 सेंट तक इमेजनेट मॉडल प्रशिक्षण में कमी का दावा किया है। इसके अलावा, डीप लेक वेबडाटासेट [19] के समान अंतर्ग्रहण प्रदर्शन प्राप्त करता है। डीप लेक बड़ी छवियों पर काफी बेहतर प्रदर्शन करता है। पार्केट छोटे सेल और विश्लेषणात्मक कार्यभार के लिए अनुकूलित है, जबकि डीप लेक बड़े, गतिशील रूप से आकार वाले टेंसोरियल डेटा के लिए अनुकूलित है। अन्य डेटा लेक समाधानों की तुलना में, इसका न्यूनतम पायथन पैकेज डिज़ाइन डीप लेक को बड़े पैमाने पर वितरित प्रशिक्षण या अनुमान कार्यभार में आसानी से एकीकृत करने में सक्षम बनाता है।

7.3 भावी कार्य

डीप लेक के वर्तमान कार्यान्वयन में और सुधार के अवसर हैं। सबसे पहले, स्टोरेज फ़ॉर्मेट वेक्टर खोज या कुंजी-मूल्य अनुक्रमण के लिए आवश्यक और भी अधिक कुशल स्टोरेज लेआउट के लिए कस्टम ऑर्डरिंग का समर्थन नहीं करता है। दूसरे, डीप लेक समवर्ती पहुँच के लिए शाखा-आधारित लॉक लागू करता है। डेल्टा एसीआईडी लेनदेन मॉडल [27] के समान, डीप लेक को अत्यधिक प्रदर्शन वाले समानांतर कार्यभार तक बढ़ाया जा सकता है। तीसरा, टीक्यूएल का वर्तमान कार्यान्वयन केवल SQL संचालन के एक सबसेट का समर्थन करता है (यानी, जॉइन जैसे संचालन का समर्थन नहीं करता है)। आगे का काम इसे SQL-पूर्ण बनाने, अधिक संख्यात्मक संचालन तक विस्तारित करने, बाहरी डेटा स्रोतों में फ़ेडरेटेड क्वेरी चलाने और SQL इंजन के विरुद्ध बेंचमार्किंग पर केंद्रित होगा।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।