16,223 रीडिंग

यह समझना कि AWS पर डेटा वेयरहाउसिंग कैसे काम करती है

द्वारा ramsjha4m2023/11/29

बहुत लंबा; पढ़ने के लिए

डेटा वेयरहाउसिंग की दुनिया का अन्वेषण करें, इसकी मूलभूत अवधारणाओं से लेकर AWS रेडशिफ्ट के साथ व्यावहारिक कार्यान्वयन तक। यह व्यापक गाइड डेटा मॉडलिंग दृष्टिकोण को कवर करता है, एडब्ल्यूएस रेडशिफ्ट सेटअप की जटिलताओं को उजागर करता है, और दिखाता है कि कैसे डेटा वेयरहाउसिंग व्यापक डेटा समाधान पारिस्थितिकी तंत्र में सहजता से फिट बैठता है, जो एनालिटिक्स और बिजनेस इंटेलिजेंस के लिए नई संभावनाओं को खोलता है।

featured image - यह समझना कि AWS पर डेटा वेयरहाउसिंग कैसे काम करती है

‘Breathtaking photograph of a warehouse’ Image created by HackerNoon AI Image Generator

यह ब्लॉग समग्र रूप से कवर करेगा:

(ए) डेटा वेयरहाउसिंग क्या है

(बी) डेटा वेयरहाउस के लिए डेटा मॉडलिंग दृष्टिकोण

(सी) एडब्ल्यूएस पर डेटा वेयरहाउस, और अंत में

(डी) प्रबंधित सेवा का उपयोग करके परिचालन भार को कम करने के लिए डेटा वेयरहाउसिंग।

आइए एक आम आदमी के दृष्टिकोण से समझें " डेटा वेयरहाउस क्या है "

विकिपीडिया के अनुसार - एक डेटा वेयरहाउस (डीडब्ल्यू या डीडब्ल्यूएच), जिसे एंटरप्राइज़ डेटा वेयरहाउस (ईडीडब्ल्यू) के रूप में भी जाना जाता है, रिपोर्टिंग और डेटा विश्लेषण के लिए उपयोग की जाने वाली एक प्रणाली है और इसे बिजनेस इंटेलिजेंस का एक मुख्य घटक माना जाता है। डेटा वेयरहाउस एक या अधिक अलग-अलग स्रोतों से एकीकृत डेटा के केंद्रीय भंडार हैं। वे वर्तमान और ऐतिहासिक डेटा को एक ही स्थान पर संग्रहीत करते हैं जिसका उपयोग पूरे उद्यम में श्रमिकों के लिए विश्लेषणात्मक रिपोर्ट बनाने के लिए किया जाता है। यह कंपनियों के लिए फायदेमंद है क्योंकि यह उन्हें अपने डेटा से पूछताछ करने और अंतर्दृष्टि प्राप्त करने और निर्णय लेने में सक्षम बनाता है।

बुनियादी शब्दों में, यह किसी व्यवसाय को डेटा-संचालित संगठन बनने में मदद करने के लिए अंतर्दृष्टि (व्यावसायिक खुफिया) एकत्र करने, संग्रहीत करने और कुशलतापूर्वक प्रदान करने की कला है। कुछ अर्थों में यह एक अन्य लेन-देन डेटाबेस है, लेकिन इसे विश्लेषणात्मक कार्यभार के लिए अनुकूलित किया गया है।

उपरोक्त आरेख के अनुसार, डेटा स्रोत से एकत्र किया जाता है, प्रति उपयोग (ईटीएल/ईएलटी) में परिवर्तित किया जाता है, और डीडब्ल्यूएच/डेटा मार्ट में संग्रहीत किया जाता है और बिजनेस इंटेलिजेंस टूल के माध्यम से उजागर किया जाता है।

ऑन-प्रिमाइसेस सेटअप के दिनों में सब कुछ सरल दिखता था जब ईएलटी (ईटीएल बनाम ईएलटी), क्लाउड डीडब्ल्यूएच (एडब्ल्यूएस रेडशिफ्ट, गूगल बिग क्वेरी, स्नोफ्लेक, डेटाब्रिक्स) और अन्य प्रबंधित डेटा समाधान अस्तित्व में नहीं थे, जो हाल ही में सरलीकृत और स्केल किए गए थे। DWH की पहुंच. आइए इस ब्लॉग में हर पहलू को एक-एक करके समझते हैं।

सरलता के लिए आइए इस आधार पर चलें कि कोई अनंत गणना और भंडारण नहीं है और लेनदेन प्रणाली विश्लेषणात्मक प्रश्नों को कुशलतापूर्वक संसाधित नहीं कर सकती है। यहीं पर डेटा वेयरहाउस को डिजाइन करने के लिए एक कुशल तरीके की आवश्यकता थी जो भंडारण में इष्टतम हो, विश्लेषणात्मक प्रश्नों (स्लाइसिंग/डाइसिंग/क्यूब, आदि) को कुशलतापूर्वक संभालता हो, और आवश्यक विलंबता प्रदान करता हो।

इस सब के लिए, डेटावेयरहाउस डिज़ाइन के लिए दो सैद्धांतिक डिज़ाइन मॉडल चित्र में आए:

(ए) बिल इनमोन - टॉप डाउन दृष्टिकोण (ईडीडब्ल्यू) और

(बी) राल्फ किमबॉल - बॉटम-अप अप्रोच (डेटा मार्ट)।

इनमोन का दृष्टिकोण वैश्विक स्तर पर केंद्रीय रूप से निर्माण करना और धीमी गति से निर्माण करना है जबकि किमबॉल का तरीका साइलो द्वारा एक स्वतंत्र डेटा मार्ट बनाना और बाद में एक साथ जुड़ना है। आइए इस बात पर ध्यान न दें कि कौन सा मॉडल सबसे अच्छा है या किसे चुनना है। मेरे मामले में, संक्षेप में, दोनों मॉडल काम करते हैं और यह पूरी तरह से उपयोग के मामले और संगठन की परिपक्वता पर निर्भर करता है। इस डिज़ाइन में एक अन्य मुख्य बिंदु "डेटा प्रतिनिधित्व" है, स्टार स्कीमा, स्नोफ्लेक स्कीमा, या स्टार और स्नोफ्लेक के हाइब्रिड का उपयोग करके आयामी मॉडलिंग जो तेज़ क्वेरी और आयामीता की एक प्रमुख धुरी है।

एकमात्र महत्वपूर्ण उपाय यह है कि अनंत लॉजिस्टिक्स के बावजूद, एक अच्छा डेटावेयरहाउस डिज़ाइन एक बहु-आयामी समस्या को हल कर सकता है। इसलिए, बेहतर होगा कि इसे नज़रअंदाज न किया जाए।

DW के निर्माण में अगला कदम पसंद का प्लेटफ़ॉर्म है जो ऑन-प्रिमाइस (टेराडेटा, IBM DB2, Oracle, आदि) से लेकर क्लाउड DW (स्नोफ्लेक, रेडशिफ्ट, बिगक्वेरी, आदि) तक भिन्न हो सकता है। पारंपरिक डेटा वेयरहाउस का निर्माण जटिल है, और चल रहा प्रबंधन और रखरखाव चुनौतीपूर्ण और महंगा हो सकता है। अगले भाग में, हम AWS रेडशिफ्ट के साथ निर्माण करने के तरीके के बारे में जानेंगे (यदि ऑन-प्रिमाइसेस बेहतर है या क्लाउड या कौन सा क्लाउड DWH बेहतर है तो कोई तर्क नहीं)।

अमेज़ॅन रेडशिफ्ट एक पूरी तरह से प्रबंधित पेटाबाइट स्केल एंटरप्राइज-ग्रेड डेटा वेयरहाउस है जो एनालिटिक्स प्रश्नों के लिए असाधारण प्रदर्शन प्रदान करता है जो उपयोग में आसान और लागत प्रभावी है। अमेज़ॅन रेडशिफ्ट पैचिंग, बैकअप और हार्डवेयर प्रावधान जैसे कार्यों को स्वचालित करके पारंपरिक डेटा वेयरहाउस के साथ आवश्यक परिचालन ओवरहेड को कम करता है। आप अमेज़ॅन रेडशिफ्ट क्लस्टर को कॉन्फ़िगर कर सकते हैं जहां आप अपने डेटा वेयरहाउस के लिए बुनियादी ढांचे और प्रदर्शन बेसलाइन को अनुकूलित कर सकते हैं। अमेज़ॅन रेडशिफ्ट रेडशिफ्ट स्पेक्ट्रम, डेटाशेयर, रेडशिफ्ट एमएल और सर्वर रहित सेटअप भी प्रदान करता है जो आपको डीडब्ल्यूएच से परे अमेज़ॅन रेडशिफ्ट क्लस्टर का उपयोग करने की अनुमति देता है।

सेटअप करने का तरीका,

परिभाषित करें कि डेटा संग्रह के लिए किन सेवाओं का लाभ उठाया जाए (AWS DMS, DynamoDB, EMR, ग्लू, किनेसिस, S3, SSH होस्ट, आदि)
बातचीत करने का एक तरीका परिभाषित करें (क्वेरी विश्लेषण उपकरण और प्रबंधन इंटरफेस)
रेडशिफ्ट एमपीपी आर्किटेक्चर को समझें (वितरित, साझा-कुछ नहीं)
आवश्यक डेटा आकार, वृद्धि, नोड और क्वेरी प्रदर्शन के साथ क्लस्टर (DC2, DS2, या RA3) लॉन्च करें
आवश्यक डेटा प्रकार, स्कीमा प्रकार, संपीड़न, बफर, एन्कोडिंग के साथ उपयोग के मामले या डीडब्ल्यूएच कार्यान्वयन के अनुसार डेटाबेस स्कीमा डिज़ाइन करें
विभिन्न फ़ाइल प्रकारों के लिए COPY, न्यूनतम परिवर्तन के लिए INSERT, और रखरखाव के लिए विश्लेषण और VACUUM का उपयोग करके डेटा लोड करना
क्वेरी अनुकूलन और प्रदर्शन संवर्द्धन करें
बाहरी तालिका के लिए स्पेक्ट्रम और शून्य-प्रतिलिपि के लिए डेटा शेयर का उपयोग करके S3 का लाभ उठाएं
गहरी जानकारी के लिए रेडशिफ्ट एमएल का उपयोग करें
अंतर्दृष्टि प्राप्त करने के लिए बीआई टूलींग के लिए एडब्ल्यूएस क्विकसाइट का लाभ उठाएं।

अब तक क्लाउड डीडब्ल्यूएच का उपयोग करना समझ में आता है लेकिन यह डेटा समाधान के लिए डीडब्ल्यूएच + डेटा लेक/प्रबंधित सेवाओं की बड़ी योजना में कैसे फिट बैठता है ? नीचे दी गई छवि बताती है कि डेटा लेक और डेटा वेयरहाउस एक साथ कैसे निर्बाध रूप से काम करते हैं। AWS RDS डेटा स्रोत के रूप में कार्य करता है, एक लागत प्रभावी और टिकाऊ समाधान प्रदान करता है, जो Amazon S3 में फीड होता है। फिर डेटा को ETL प्रक्रियाओं का उपयोग करके रूपांतरित किया जाता है और Redshift में ऑनबोर्ड किया जाता है। अतिरिक्त AWS सेवाएँ जैसे एथेना, ग्लू, स्पेक्ट्रम, लेक फॉर्मेशन और अन्य एक व्यापक डेटा समाधान बनाने के लिए अंतर को पाटने में महत्वपूर्ण भूमिका निभाते हैं।

अंत में, यह ब्लॉग डेटा वेयरहाउसिंग के बुनियादी सिद्धांतों को शामिल करता है, सैद्धांतिक रूप से और तकनीकी स्टैक पर ध्यान केंद्रित करते हुए कार्यान्वयन दृष्टिकोण पर प्रकाश डालता है। हम यह भी समझते हैं कि यह कैसे डेटा समाधानों के व्यापक परिदृश्य में सहजता से एकीकृत होता है।