Row এবং Column ভিত্তিক Data Organization

Hive Data Model - হাইভ (Hive) - Big Data and Analytics

357

Hive একটি ডেটা ওয়্যারহাউজ সিস্টেম যা Hadoop এর উপর তৈরি হয়েছে এবং এটি বিভিন্ন ধরনের ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয়। Hive মূলত বড় ডেটাসেটের উপর কাজ করে, এবং ডেটাকে row-based এবং column-based উভয় ধরনে সংরক্ষণ করতে পারে। Hive-এর ডেটা সংগঠন কিভাবে কার্যকরীভাবে কাজ করে এবং এর row এবং column ভিত্তিক সংগঠনের পার্থক্য কী, তা বুঝতে হলে এর ডেটা মডেল এবং পারফরম্যান্সের উপর গভীরভাবে নজর দিতে হবে।

Row-Based Data Organization

Row-based data organization একটি প্রচলিত ডেটা স্টোরেজ পদ্ধতি, যেখানে ডেটা row-wise (লাইন অনুযায়ী) সঞ্চিত থাকে। এর মাধ্যমে প্রতিটি row আলাদা একটি ইউনিট হিসেবে সংরক্ষিত হয় এবং এই রো-এর মধ্যে সব কলামের ডেটা একই জায়গায় রাখা হয়।

Hive-এ Row-Based Storage

Hive-এ row-based স্টোরেজ মূলত Text File বা RCFile (Record Columnar File) ফরম্যাটে সংরক্ষিত হয়। এই ফরম্যাটে, ডেটার প্রতিটি রো একসাথে সংরক্ষিত থাকে, এবং প্রতি রো একটি লাইন হিসেবে বিবেচিত হয়। এতে ডেটার প্রতিটি রো আলাদা আলাদা ভাবে ডিস্ট্রিবিউটেড ফাইল সিস্টেমে সঞ্চিত থাকে।

Row-based storage এর কিছু বৈশিষ্ট্য:

ডেটা ইনসার্ট এবং আপডেট: Row ভিত্তিক সঞ্চয় ব্যবস্থায় ডেটা ইনসার্ট বা আপডেট করা সহজ, কারণ পুরো রো একসাথে সঞ্চিত থাকে এবং সহজেই আপডেট করা যায়।
উপযুক্ত সিলেকশন: ছোট ছোট ডেটাসেটের জন্য, যেখানে প্রতিটি রো-এর মধ্যে অনেক কলাম থাকে না, এটি বেশ কার্যকরী।
পারফরম্যান্স: যখন খুব বড় ডেটাসেট থাকে এবং বিশেষভাবে সিলেকশনে একাধিক কলাম থেকে তথ্য বের করা হয় না, তখন Row-based স্টোরেজ পারফরম্যান্সে কিছুটা পিছিয়ে পড়তে পারে।

যখন Row-based স্টোরেজ ব্যবহার করবেন:

ট্রানজেকশনাল ডেটা: যদি আপনি প্রায়ই ডেটার ইনসার্ট, আপডেট বা ডিলিট করতে চান তবে row-based স্টোরেজ ভালো কাজ করে।
ছোট ডেটাসেট: যদি ডেটাসেট ছোট হয়, যেখানে একাধিক কলামের তথ্য সিলেকশন প্রক্রিয়ায় ব্যবহার হয় না, তবে এটি উপযুক্ত।

Column-Based Data Organization

Column-based data organization এমন একটি স্টোরেজ পদ্ধতি যেখানে ডেটা column-wise (কলাম অনুযায়ী) সঞ্চিত থাকে। এই পদ্ধতিতে প্রতিটি কলামের ডেটা আলাদা করে সঞ্চিত হয়, এবং এই কলামগুলো আলাদা আলাদা ব্লকে রাখা হয়।

Hive-এ Column-Based Storage

Hive-এ column-based storage মূলত ORC (Optimized Row Columnar) বা Parquet ফরম্যাটে সঞ্চিত হয়। এই ফরম্যাটগুলো বড় ডেটাসেটের জন্য খুবই কার্যকরী, কারণ এগুলো ডেটার বিভিন্ন কলাম একত্রিতভাবে সঞ্চয় করে, যা দ্রুত ডেটা রিডিং এবং প্রসেসিংয়ের জন্য উপযুক্ত।

Column-based storage এর কিছু বৈশিষ্ট্য:

ডেটা কম্প্রেশন: কলাম ভিত্তিক ডেটা স্টোরেজ ডেটা কম্প্রেশনে সাহায্য করে, কারণ একই ধরনের ডেটা একসাথে সঞ্চিত থাকে এবং এটি কম্প্রেস করা সহজ।
পাঠযোগ্যতা: শুধুমাত্র প্রয়োজনীয় কলাম রিড করা হয়, তাই এটি বড় ডেটাসেটের ক্ষেত্রে পারফরম্যান্স অনেক উন্নত করে।
অ্যাগ্রিগেশন অপারেশন: যখন ডেটার শুধুমাত্র এক বা কয়েকটি কলাম থেকে অ্যাগ্রিগেশন করতে হয়, তখন column-based storage অনেক দ্রুত কাজ করে।
প্যারালাল প্রসেসিং: এটি বড় ডেটাসেটের উপর প্যারালাল প্রসেসিং পরিচালনা করতে সাহায্য করে।

যখন Column-based স্টোরেজ ব্যবহার করবেন:

বড় ডেটাসেট: যখন বিশাল ডেটাসেটের সাথে কাজ করতে হয় এবং বিশেষত যখন অনেক কলাম থেকে অ্যাগ্রিগেশন বা সিলেকশন করা হয়, তখন column-based স্টোরেজ খুবই কার্যকরী।
ডেটা রিডিং: যদি ডেটার নির্দিষ্ট কিছু কলাম প্রয়োজন হয়, তখন columnar ফরম্যাট ডেটা রিডিংয়ে অনেক দ্রুত এবং কার্যকরী হয়।
বিশ্লেষণাত্মক কাজ: যখন খুব বড় ডেটাসেটের উপর বিশ্লেষণমূলক কাজ করা হয়, যেমন, অ্যাগ্রিগেশন বা ফিল্টারিং, তখন columnar স্টোরেজ সিস্টেম সবচেয়ে উপযুক্ত।