Import এর জন্য বিভিন্ন Data Format (Text, Avro, Parquet)

Data Formats এবং Code Generation - স্কুপ (Sqoop) - Big Data and Analytics

322

Apache Sqoop ব্যবহার করে রিলেশনাল ডাটাবেস থেকে Hadoop-এর HDFS, Hive বা HBase-এ ডেটা ইম্পোর্ট করার সময় বিভিন্ন ধরনের ডেটা ফরম্যাট ব্যবহার করা যায়। প্রতিটি ফরম্যাটের নিজস্ব সুবিধা এবং ব্যবহার রয়েছে। এখানে আমরা Text, Avro, এবং Parquet ফরম্যাট নিয়ে আলোচনা করব, যেগুলি সাধারণত ডেটা ইম্পোর্টের জন্য ব্যবহৃত হয়।

Text ফরম্যাট

Text ফরম্যাট হল সবচেয়ে সহজ এবং প্রাথমিক ফরম্যাট, যেখানে ডেটা সাধারণত CSV বা TSV (Comma Separated Values / Tab Separated Values) ফরম্যাটে সংরক্ষিত হয়। Text ফরম্যাটটি ব্যবহার করা হয় যখন ডেটার সোজাসুজি টেক্সট ফরম্যাটে প্রয়োজন হয় এবং ডেটা হিউম্যান রিডেবল হতে হয়।

ব্যবহার:

প্রতিটি রেকর্ড আলাদা একটি লাইন হিসেবে থাকে।
ফিল্ডগুলি সাধারণত কমা বা ট্যাব দ্বারা আলাদা করা হয়।
সহজ এবং পোর্টেবল, তবে কম্প্রেসড বা দ্রুত প্রসেসিংয়ের জন্য উপযুক্ত নয়।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/mydb --username root --password mypassword \
--table employee --target-dir /user/hadoop/employee_data --as-textfile

এখানে --as-textfile অপশনটি ব্যবহার করে ডেটাকে টেক্সট ফরম্যাটে ইম্পোর্ট করা হচ্ছে।

Avro ফরম্যাট

Avro একটি বাইনরি ডেটা ফরম্যাট, যা Apache Hadoop এবং অন্যান্য Big Data প্রযুক্তির সাথে খুবই জনপ্রিয়। এটি কম্প্যাক্ট, স্কেলেবল, এবং হাই পারফরম্যান্স ফরম্যাট হিসাবে পরিচিত। Avro ফরম্যাটের প্রধান সুবিধা হল এর স্কিমাবল এবং ডেটা কম্প্রেসন ক্ষমতা। এতে ডেটা বাইনরি আকারে সংরক্ষিত হয়, যা অনেক কম জায়গা নেয় এবং দ্রুত প্রসেসিংয়ের জন্য উপযোগী।

ব্যবহার:

ডেটা কম্প্যাক্ট, দ্রুত প্রসেসযোগ্য, এবং স্কিমা ইনফরমেশন অন্তর্ভুক্ত থাকে।
ডেটার স্কিমা ডিফাইন করা থাকে, যার মাধ্যমে ডেটার ধরন ও কাঠামো বোঝা যায়।
Hadoop, Hive এবং HBase এর সাথে সঙ্গতিপূর্ণ।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/mydb --username root --password mypassword \
--table employee --target-dir /user/hadoop/employee_data --as-avrodatafile

এখানে --as-avrodatafile অপশনটি ব্যবহার করে ডেটাকে Avro ফরম্যাটে ইম্পোর্ট করা হচ্ছে।

Parquet ফরম্যাট

Parquet হলো একটি কলাম-অরিয়েন্টেড ডেটা ফরম্যাট যা বিশেষভাবে Big Data পরিবেশে ব্যবহৃত হয়। এটি Apache Hadoop, Apache Spark, Apache Hive ইত্যাদি প্রকল্পের জন্য উন্নত। Parquet ফরম্যাটের প্রধান সুবিধা হল এটি ডেটাকে কলাম আকারে সংরক্ষণ করে, যা বিশাল পরিমাণের ডেটার জন্য খুবই কার্যকরী এবং দ্রুত পারফরম্যান্স প্রদান করে।

ব্যবহার:

কলাম-অরিয়েন্টেড ফরম্যাট, যা বিশাল পরিমাণের ডেটা সংরক্ষণে কার্যকরী।
এটি স্কিমাবল, এবং ডেটা পার্টিশনিং এবং কম্প্রেশন সমর্থন করে।
বিশেষ করে বিশাল ডেটাসেট বা বিশাল কোয়েরি প্রসেসিংয়ের জন্য উপযোগী।

কমান্ড উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/mydb --username root --password mypassword \
--table employee --target-dir /user/hadoop/employee_data --as-parquetfile

এখানে --as-parquetfile অপশনটি ব্যবহার করে ডেটাকে Parquet ফরম্যাটে ইম্পোর্ট করা হচ্ছে।

তুলনা: Text, Avro, এবং Parquet

ফিচার	Text	Avro	Parquet
ফরম্যাট টাইপ	টেক্সট (CSV বা TSV)	বাইনারি (Binary)	কলাম-অরিয়েন্টেড (Columnar)
ডেটা কম্প্রেশন	নন-কম্প্রেসড	হ্যাঁ (কম্প্রেসড)	হ্যাঁ (অত্যন্ত কম্প্রেসড)
পারফরম্যান্স	কম পারফরম্যান্স	উচ্চ পারফরম্যান্স	অত্যন্ত উচ্চ পারফরম্যান্স
স্কিমা সাপোর্ট	স্কিমা নেই	স্কিমা সাপোর্ট করে	স্কিমা সাপোর্ট করে
ব্যবহার	সাধারণ ডেটা বা হিউম্যান রিডেবল	ডেটা প্রক্রিয়াকরণ ও স্টোরেজ	বিশাল ডেটাসেট এবং কোয়েরি প্রক্রিয়াকরণ

সারাংশ

Apache Sqoop দিয়ে RDBMS থেকে Hadoop সিস্টেমে ডেটা ইম্পোর্ট করার সময় বিভিন্ন ধরনের ডেটা ফরম্যাট ব্যবহার করা যায়, যেমন Text, Avro, এবং Parquet। Text ফরম্যাটটি সহজ এবং হিউম্যান রিডেবল, তবে কম্প্রেসড বা দ্রুত পারফরম্যান্সের জন্য উপযুক্ত নয়। Avro ফরম্যাট কম্প্যাক্ট এবং স্কিমাবল, যা দ্রুত ডেটা প্রক্রিয়াকরণের জন্য উপযোগী। Parquet ফরম্যাট কলাম-অরিয়েন্টেড, যা বিশাল পরিমাণ ডেটার জন্য সর্বোত্তম পারফরম্যান্স প্রদান করে। ডেটার ধরণ এবং ব্যবহারিক চাহিদা অনুযায়ী উপযুক্ত ফরম্যাট নির্বাচন করা উচিত।

Content added By

Rezwan Siddiki Tamim

Code Generation Techniques (Java Class এবং Schema Generation) Hive এবং HBase এর জন্য Data Import Techniques --as-avrodatafile এবং --as-parquetfile Options ব্যবহার

Import এর জন্য বিভিন্ন Data Format (Text, Avro, Parquet)

Text ফরম্যাট

Avro ফরম্যাট

Parquet ফরম্যাট

তুলনা: Text, Avro, এবং Parquet

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Import এর জন্য বিভিন্ন Data Format (Text, Avro, Parquet)

Text ফরম্যাট

Avro ফরম্যাট

Parquet ফরম্যাট

তুলনা: Text, Avro, এবং Parquet

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!