लेखक:
(1) सासुन हंबारडज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.
(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।
कई परियोजनाओं ने असंरचित डेटासेट संग्रहीत करने के लिए नए स्वरूपों को बेहतर बनाने या बनाने की कोशिश की है, जिसमें TFRecord प्रोटोबफ [5] का विस्तार कर रहा है, पेटास्टॉर्म [18] पार्क्वेट [79] का विस्तार कर रहा है, फेदर [7] तीर [13] का विस्तार कर रहा है, स्क्विरल मैसेजपैक [75] का उपयोग कर रहा है, एफएफसीवी [39] में बीटन। एक सार्वभौमिक डेटासेट प्रारूप डिजाइन करना जो सभी उपयोग के मामलों को हल करता है, बहुत चुनौतीपूर्ण है। हमारा दृष्टिकोण ज्यादातर क्लाउडवॉल्यूम [11] से प्रेरित था, जो बड़े वॉल्यूमेट्रिक बायोमेडिकल डेटा को संग्रहीत करने के लिए 4-डी चंक्ड न्यूम्पी स्टोरेज है। ज़ार [52], टेन्सरस्टोर [23], टाइलडीबी [57] जैसे अन्य समान चंक्ड न्यूम्पी सरणी संग्रहण प्रारूप हैं। बड़े पैमाने के डेटासेट को संग्रहीत करने का एक वैकल्पिक तरीका ल्यूस्टर [69] जैसे एचपीसी वितरित फ़ाइल सिस्टम का उपयोग करना है, जो पायटॉर्च कैश [45] या एआईस्टोर [26] जैसे प्रदर्शनकारी स्टोरेज लेयर के साथ विस्तारित होता है। डीप लेक डेटासेट को उनके लाभों का लाभ उठाकर POSIX या REST API-संगत वितरित स्टोरेज सिस्टम के शीर्ष पर संग्रहीत किया जा सकता है। एम्बेडिंग, फीचर स्टोर [73, 16] या डेटा संस्करण नियंत्रण प्रणाली जैसे DVC [46], या लेकएफएस [21] को संग्रहीत करने के लिए वेक्टर डेटाबेस [80, 8, 80] में अन्य तुलनीय दृष्टिकोण विकसित होते हैं। इसके विपरीत, डीप लेक संस्करण नियंत्रण Git सहित किसी बाहरी निर्भरता के बिना प्रारूप में अंतर्निहित है। टेंसर क्वेरी लैंग्वेज, TQP [41] और वेलॉक्स [59] कुल मिलाकर, डीप लेक हुडी, आइसबर्ग, डेल्टा [27, 15, 10] जैसे डेटा झीलों से समानताएं लेता है और डीप लर्निंग अनुप्रयोगों के लिए डेटाबारिक के लेकहाउस [28] जैसी प्रणालियों का पूरक है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।