Avro File Structure: Header, Schema, Data Blocks

Avro Schema এবং File Structure - অ্যাপাচি অভ্র (Avro) - Big Data and Analytics

471

Apache Avro হল একটি জনপ্রিয় সি-বেসড ফরম্যাট, যা বিশেষভাবে ডেটা সিরিয়ালাইজেশনের জন্য ব্যবহৃত হয়। এটি ডেটাকে একটি কাঠামোবদ্ধ ফরম্যাটে সংরক্ষণ করতে সাহায্য করে, যা সহজে বিভিন্ন ভাষা এবং প্ল্যাটফর্মের মধ্যে বিনিময় করা যায়। Avro ফাইলের মধ্যে তিনটি মূল উপাদান থাকে, যা ফাইলটির কাঠামো নির্ধারণ করে: হেডার (Header), স্কিমা (Schema), এবং ডেটা ব্লক (Data Blocks)।

এই উপাদানগুলোর প্রতিটির গুরুত্ব রয়েছে এবং একে অপরের সাথে সমন্বয় রেখে কাজ করে। আসুন, Avro ফাইল স্ট্রাকচারের প্রতিটি উপাদান সম্পর্কে বিস্তারিত জানি।

১. হেডার (Header)

Avro ফাইলের হেডার প্রথম অংশ। এটি ফাইলটির কিছু মৌলিক তথ্য ধারণ করে, যা ডেটার সিরিয়ালাইজেশন ও ডেসিরিয়ালাইজেশন প্রক্রিয়ায় গুরুত্বপূর্ণ। হেডারটি একটি নির্দিষ্ট কাঠামো অনুসরণ করে এবং এতে সাধারণত নিম্নলিখিত তথ্য থাকে:

Magic Number: এটি একটি ফিক্সড সিকোয়েন্স যা ফাইলটির প্রথমে থাকে এবং ফাইলটি Avro ফরম্যাটে তৈরি কিনা তা চিহ্নিত করে। Avro ফাইলের মধ্যে "Obj" ম্যাজিক নাম্বার থাকে।
File Metadata: ফাইলের সাথে সম্পর্কিত কিছু অতিরিক্ত তথ্য যেমন স্কিমা ভার্সন, সংরক্ষণ করার সময় ইত্যাদি থাকতে পারে।

হেডারের ভূমিকা হল ফাইলটি স্বীকৃত ও বৈধ কিনা তা নিশ্চিত করা এবং ফাইলের স্কিমা ও ডেটার জন্য প্রাথমিক তথ্য প্রদান করা।

২. স্কিমা (Schema)

Avro ফাইলে স্কিমা একটি অত্যন্ত গুরুত্বপূর্ণ উপাদান। এটি ডেটার কাঠামো নির্ধারণ করে, অর্থাৎ কোন ধরণের ডেটা কিভাবে সংগৃহীত হবে এবং কিভাবে স্টোর করা হবে তা নির্ধারণ করে।

Schema Definition: Avro স্কিমা একটি JSON ফরম্যাটে সংজ্ঞায়িত হয়। এতে ডেটার প্রতিটি ফিল্ডের নাম, টাইপ এবং ঐ ফিল্ডের প্রপার্টি সম্পর্কিত তথ্য থাকে। উদাহরণস্বরূপ, একটি পণ্যের স্কিমা হতে পারে যার মধ্যে id, name, এবং price ফিল্ড রয়েছে। প্রতিটি ফিল্ডের ডেটা টাইপ (যেমন string, int, float) উল্লেখ করা হয়।
Schema Evolution: Avro ফাইল স্কিমা এভলিউশন (schema evolution) সমর্থন করে, যার মাধ্যমে স্কিমার পরিবর্তন ঘটলেও পুরোনো ডেটা এবং নতুন ডেটা উভয়ের মধ্যে সামঞ্জস্য রক্ষা করা যায়। এটি বিভিন্ন সংস্করণের মধ্যে ডেটা সংরক্ষণ ও প্রক্রিয়াকরণে সহায়তা করে।

Avro ফাইলের স্কিমা ধারা অনুযায়ী ডেটার কাঠামো সঠিকভাবে অ্যাক্সেস এবং প্রক্রিয়া করা যায়।

৩. ডেটা ব্লক (Data Blocks)

ডেটা ব্লক Avro ফাইলের মূল অংশ, যেখানে ডেটা সংরক্ষিত থাকে। প্রতিটি ডেটা ব্লক একটি নির্দিষ্ট কাঠামো অনুসরণ করে এবং এতে ডেটার সাথে সম্পর্কিত তথ্য যেমন স্কিমা এবং ডেটা ভ্যালু থাকে।

Data Block Structure: প্রতিটি ডেটা ব্লক একটি শিরোনাম (Header) এবং ডেটা রেকর্ড (Data Records) এর সমন্বয়ে তৈরি। ডেটা ব্লকের শিরোনামে ডেটার ব্লক সাইজ, স্কিমা, এবং অন্য কোনো প্রাসঙ্গিক তথ্য থাকতে পারে। ডেটা রেকর্ডগুলো ফাইলের মূল ডেটা ধারণ করে।
Compression: ডেটা ব্লকগুলিতে সাধারণত কম্প্রেশন প্রয়োগ করা হয়, যা ফাইলের আকার কমাতে সাহায্য করে এবং ডেটা প্রক্রিয়াকরণ দ্রুত করে।
Data Encoding: ডেটা ব্লকগুলিতে ডেটা এনকোডিং প্রয়োগ করা হয়, যা ডেটার সঠিক স্টোরেজ এবং সঠিক ফর্ম্যাটে এক্সট্রাকশনের জন্য প্রয়োজনীয়।
Sync Mark: ডেটা ব্লকগুলো একে অপরের থেকে আলাদা করার জন্য একটি sync mark রাখা হয়, যা ডেটা ব্লকগুলির সঠিকভাবে পার্সিং (parsing) নিশ্চিত করে।

সারাংশ

Avro ফাইল স্ট্রাকচার তিনটি প্রধান উপাদান নিয়ে গঠিত: হেডার, স্কিমা, এবং ডেটা ব্লক।

হেডার ফাইলের মৌলিক তথ্য ধারণ করে এবং ফাইলটি বৈধ কিনা তা চিহ্নিত করে।
স্কিমা ডেটার কাঠামো এবং টাইপ নির্ধারণ করে, যা ডেটার প্রক্রিয়াকরণে সহায়ক।
ডেটা ব্লক মূল ডেটা ধারণ করে এবং সেগুলোর মধ্যে সংরক্ষিত ডেটার এনকোডিং এবং কম্প্রেশন নিশ্চিত করে।

এই তিনটি উপাদান একসাথে Avro ফাইলকে কার্যকর, স্কেলেবল, এবং দ্রুত ডেটা প্রক্রিয়াকরণের জন্য উপযুক্ত করে তোলে।

Content added By

Rezwan Siddiki Tamim

Avro Data Block এবং Sync Markers এর ধারণা Avro Object Container Files (OCF) এবং এর ব্যবহার Avro File Format এর Compactness এবং Efficiency

Avro File Structure: Header, Schema, Data Blocks

১. হেডার (Header)

২. স্কিমা (Schema)

৩. ডেটা ব্লক (Data Blocks)

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Avro File Structure: Header, Schema, Data Blocks

১. হেডার (Header)

২. স্কিমা (Schema)

৩. ডেটা ব্লক (Data Blocks)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!