paint-brush
AWS-এ ডেটা গুদামজাতকরণ কীভাবে কাজ করে তা বোঝাদ্বারা@ramsjha
16,189 পড়া
16,189 পড়া

AWS-এ ডেটা গুদামজাতকরণ কীভাবে কাজ করে তা বোঝা

দ্বারা ramsjha4m2023/11/29
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

AWS Redshift এর সাথে এর মৌলিক ধারণা থেকে শুরু করে হ্যান্ডস-অন ইমপ্লিমেন্টেশন পর্যন্ত ডেটা গুদামজাতকরণের বিশ্ব অন্বেষণ করুন। এই বিস্তৃত নির্দেশিকাটি ডেটা মডেলিং পদ্ধতিগুলিকে কভার করে, AWS রেডশিফ্ট সেটআপের জটিলতার মধ্যে পড়ে এবং প্রদর্শন করে যে কীভাবে ডেটা গুদামজাতকরণ বিস্তৃত ডেটা সলিউশন ইকোসিস্টেমে নির্বিঘ্নে ফিট করে, বিশ্লেষণ এবং ব্যবসায়িক বুদ্ধিমত্তার জন্য নতুন সম্ভাবনাগুলিকে আনলক করে৷
featured image - AWS-এ ডেটা গুদামজাতকরণ কীভাবে কাজ করে তা বোঝা
ramsjha HackerNoon profile picture

এই ব্লগটি সামগ্রিকভাবে কভার করবে:

(a) ডেটা গুদামজাতকরণ কী

(b) ডেটা গুদামের জন্য ডেটা মডেলিং পদ্ধতি

(c) AWS-এ ডেটা গুদাম, এবং সবশেষে

(d) পরিচালিত পরিষেবা ব্যবহার করে অপারেশনাল লোড কমানোর জন্য ডেটা গুদামজাতকরণ।


আসুন একজন সাধারণ মানুষের দৃষ্টিকোণ থেকে বুঝতে পারি “ ডাটা গুদাম কী


উইকিপিডিয়া অনুসারে - একটি ডেটা ওয়ারহাউস (DW বা DWH), যা একটি এন্টারপ্রাইজ ডেটা ওয়ারহাউস (EDW) নামেও পরিচিত, একটি সিস্টেম যা রিপোর্টিং এবং ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয় এবং এটি ব্যবসায়িক বুদ্ধিমত্তার একটি মূল উপাদান হিসাবে বিবেচিত হয়। ডেটা গুদামগুলি হল এক বা একাধিক অসম উৎস থেকে সমন্বিত ডেটার কেন্দ্রীয় ভান্ডার। তারা বর্তমান এবং ঐতিহাসিক ডেটা একটি একক জায়গায় সংরক্ষণ করে যা সমগ্র এন্টারপ্রাইজ জুড়ে কর্মীদের জন্য বিশ্লেষণাত্মক প্রতিবেদন তৈরি করতে ব্যবহৃত হয়। এটি কোম্পানিগুলির জন্য উপকারী কারণ এটি তাদের জিজ্ঞাসাবাদ করতে এবং তাদের ডেটা থেকে অন্তর্দৃষ্টি আঁকতে এবং সিদ্ধান্ত নিতে সক্ষম করে৷


মৌলিক পরিভাষায়, এটি একটি ব্যবসাকে ডেটা-চালিত সংস্থায় পরিণত করতে সাহায্য করার জন্য সংগ্রহ, সংরক্ষণ এবং দক্ষতার সাথে অন্তর্দৃষ্টি (ব্যবসায়িক বুদ্ধিমত্তা) প্রদানের শিল্প। কিছু অর্থে এটি আরেকটি লেনদেন ডাটাবেস কিন্তু একটি যা বিশ্লেষণমূলক কাজের চাপের জন্য অপ্টিমাইজ করা হয়।



উপরের চিত্র অনুসারে, উৎস থেকে ডেটা সংগ্রহ করা হয়, প্রতি ব্যবহারে রূপান্তরিত করা হয় (ETL/ELT), এবং DWH/Data mart এবং Insights-এ সংরক্ষিত হয় যা ব্যবসায়িক বুদ্ধিমত্তা টুলের মাধ্যমে প্রকাশ করা হয়।


অন-প্রিম সেটআপের দিনগুলিতে সবগুলিকে সহজ দেখাচ্ছিল যখন ELT (ETL বনাম ELT), ক্লাউড DWH (AWS Redshift, Google Big Query, Snowflake, Databricks), এবং অন্যান্য পরিচালিত ডেটা সমাধানগুলি বিদ্যমান ছিল না, যা সম্প্রতি সরলীকৃত এবং স্কেল করা হয়েছে DWH এর নাগাল। এই ব্লগে আসুন এক সময়ে প্রতিটি দিক বুঝতে পারি।


সরলতার জন্য আসুন এই ভিত্তির সাথে যাই যে কোনও অসীম গণনা এবং স্টোরেজ নেই এবং লেনদেন ব্যবস্থা বিশ্লেষণাত্মক প্রশ্নগুলি দক্ষতার সাথে প্রক্রিয়া করতে পারে না। এখানেই একটি দক্ষ উপায় প্রয়োজন ছিল একটি ডেটা গুদাম ডিজাইন করার জন্য যা স্টোরেজের জন্য সর্বোত্তম, দক্ষতার সাথে বিশ্লেষণাত্মক প্রশ্নগুলি পরিচালনা করে (স্লাইসিং/ডাইসিং/কিউব, ইত্যাদি), এবং প্রয়োজনীয় লেটেন্সি প্রদান করে।


এই সবের জন্য, ডেটাওয়্যারহাউস ডিজাইনের জন্য দুটি তাত্ত্বিক নকশা মডেল ছবিতে এসেছে:


(ক) বিল ইনমন - টপ ডাউন অ্যাপ্রোচ (EDW) এবং

(খ) রাল্ফ কিমবল – বটম-আপ অ্যাপ্রোচ (ডেটা মার্ট)।


Inmon এর পন্থা হল বিশ্বব্যাপী কেন্দ্রীভূতভাবে নির্মাণ করা এবং ধীরগতির নির্মাণের কারণ যেখানে Kimball এর উপায় হল সাইলো দ্বারা একটি স্বাধীন ডেটা মার্ট তৈরি করা এবং পরে একসাথে সংযোগ করা। আসুন কোন মডেলটি সেরা বা কোনটি বেছে নেওয়া উচিত সেদিকে ডুবে নেই। আমার ক্ষেত্রে, সংক্ষেপে, উভয় মডেলই কাজ করে এবং এটি সম্পূর্ণরূপে প্রতিষ্ঠানের ব্যবহারের ক্ষেত্রে এবং পরিপক্কতার উপর নির্ভর করে। এই ডিজাইনের আরেকটি মূল বিষয় হল "ডেটা রিপ্রেজেন্টেশন", স্টার স্কিমা, স্নোফ্লেক স্কিমা, বা স্টার এবং স্নোফ্লেকের একটি হাইব্রিড ব্যবহার করে ডাইমেনশনাল মডেলিং যা দ্রুত অনুসন্ধান এবং মাত্রার মূল পিভট।




অসীম লজিস্টিক থাকা সত্ত্বেও একমাত্র মূল উপায় হল, একটি ভাল ডেটাওয়ারহাউস ডিজাইন একটি বহুমাত্রিক সমস্যা সমাধান করতে পারে। সুতরাং, এটি উপেক্ষা না করাই ভাল।


DW তৈরির পরবর্তী ধাপ হল পছন্দের প্ল্যাটফর্ম যা অন-প্রিমিস (Teradata, IBM DB2, Oracle, ইত্যাদি) থেকে Cloud DW (Snowflake, Redshift, BigQuery, ইত্যাদি) পর্যন্ত পরিবর্তিত হতে পারে। একটি ঐতিহ্যগত ডেটা গুদাম তৈরি করা জটিল, এবং চলমান ব্যবস্থাপনা এবং রক্ষণাবেক্ষণ চ্যালেঞ্জিং এবং ব্যয়বহুল হতে পারে। পরবর্তী বিভাগে, আমরা এডব্লিউএস রেডশিফ্ট (অন-প্রেম ভাল বা ক্লাউড বা কোন ক্লাউড ডিডব্লিউএইচ ভাল) এর সাথে কীভাবে তৈরি করা যায় তা নিয়ে আলোচনা করব।


Amazon Redshift হল একটি সম্পূর্ণরূপে পরিচালিত পেটাবাইট স্কেল এন্টারপ্রাইজ-গ্রেড ডেটা গুদাম যা বিশ্লেষণমূলক প্রশ্নের জন্য ব্যতিক্রমী কর্মক্ষমতা প্রদান করে যা ব্যবহার করা সহজ এবং সাশ্রয়ী। অ্যামাজন রেডশিফ্ট প্যাচিং, ব্যাকআপ এবং হার্ডওয়্যার প্রভিশনিংয়ের মতো স্বয়ংক্রিয় কাজগুলি দ্বারা ঐতিহ্যগত ডেটা গুদামগুলির সাথে প্রয়োজনীয় অপারেশনাল ওভারহেড হ্রাস করে৷ আপনি একটি Amazon Redshift ক্লাস্টার কনফিগার করতে পারেন যেখানে আপনি আপনার ডেটা গুদামের জন্য অবকাঠামো এবং কর্মক্ষমতা বেসলাইনগুলি কাস্টমাইজ করতে পারেন। Amazon Redshift এছাড়াও Redshift Spectrum, Datashare, Redshift ML, এবং Serverless সেটআপ প্রদান করে যা আপনাকে DWH এর বাইরে Amazon Redshift ক্লাস্টার ব্যবহার করতে দেয়।


সেটআপ করার উপায়,

  • ডেটা সংগ্রহের জন্য কোন পরিষেবাগুলি ব্যবহার করতে হবে তা নির্ধারণ করুন (AWS DMS, DynamoDB, EMR, Glue, Kinesis, S3, SSH Host, ইত্যাদি)
  • ইন্টারঅ্যাক্ট করার একটি উপায় নির্ধারণ করুন (কোয়েরি বিশ্লেষণ টুল এবং ম্যানেজমেন্ট ইন্টারফেস)
  • Redshift MPP আর্কিটেকচার বুঝুন (ডিস্ট্রিবিউটেড, শেয়ার্ড-নথিং)
  • প্রয়োজনীয় ডেটা আকার, বৃদ্ধি, নোড এবং ক্যোয়ারী কর্মক্ষমতা সহ ক্লাস্টার (DC2, DS2, বা RA3) চালু করুন
  • প্রয়োজনীয় ডেটা টাইপ, স্কিমা টাইপ, কম্প্রেশন, বাফার, এনকোডিং সহ ব্যবহারের ক্ষেত্রে বা DWH বাস্তবায়ন অনুযায়ী ডাটাবেস স্কিমা ডিজাইন করুন
  • বিভিন্ন ধরনের ফাইলের জন্য কপি ব্যবহার করে ডেটা লোড করা হচ্ছে, ন্যূনতম পরিবর্তনের জন্য INSERT এবং রক্ষণাবেক্ষণের জন্য বিশ্লেষণ ও ভ্যাকুয়াম
  • ক্যোয়ারী অপ্টিমাইজেশান এবং কর্মক্ষমতা বৃদ্ধি সঞ্চালন
  • বাহ্যিক টেবিলের জন্য স্পেকট্রাম ব্যবহার করে S3 এবং শূন্য-কপির জন্য ডেটা শেয়ার ব্যবহার করে
  • গভীর অন্তর্দৃষ্টির জন্য Redshift ML ব্যবহার করুন
  • অন্তর্দৃষ্টি পেতে BI টুলিংয়ের জন্য AWS কুইকসাইট ব্যবহার করুন।


এখন পর্যন্ত ক্লাউড ডিডব্লিউএইচ ব্যবহার করা বোধগম্য, কিন্তু ডেটা সমাধানের জন্য ডিডব্লিউএইচ + ডেটা লেক/পরিচালিত পরিষেবাগুলির বিগ স্কিমে এটি কীভাবে ফিট করে ? নীচের চিত্রটি ব্যাখ্যা করে যে কীভাবে ডেটা লেক এবং ডেটা গুদামগুলি নির্বিঘ্নে একসাথে কাজ করে৷ AWS RDS ডেটা উৎস হিসেবে কাজ করে, একটি সাশ্রয়ী এবং টেকসই সমাধান প্রদান করে, যা Amazon S3- এ ফিড করে। ডেটা তারপর ETL প্রক্রিয়া ব্যবহার করে রূপান্তরিত হয় এবং Redshift এ অনবোর্ড করা হয়। অতিরিক্ত AWS পরিষেবা যেমন অ্যাথেনা, আঠালো, স্পেকট্রাম, লেক ফর্মেশন, এবং অন্যান্যগুলি একটি ব্যাপক ডেটা সলিউশন তৈরি করতে ব্যবধান পূরণে গুরুত্বপূর্ণ ভূমিকা পালন করে।






উপসংহারে, এই ব্লগটি ডেটা গুদামজাতকরণের মৌলিক বিষয়গুলিকে কভার করে, তাত্ত্বিকভাবে এবং প্রযুক্তিগত স্ট্যাকের উপর ফোকাস করে উভয়ই বাস্তবায়ন পদ্ধতির মধ্যে পড়ে। এটি কীভাবে ডেটা সমাধানের বিস্তৃত ল্যান্ডস্কেপে নির্বিঘ্নে একত্রিত হয় সে সম্পর্কেও আমরা একটি পাখির দৃষ্টিভঙ্গি অর্জন করি।