Big Data and Analytics HDFS থেকে RDBMS এ Data Export করা গাইড ও নোট

246

Apache Sqoop শুধুমাত্র RDBMS থেকে HDFS বা Hadoop সিস্টেমে ডেটা ইম্পোর্ট করার জন্য নয়, বরং HDFS থেকে RDBMS (যেমন MySQL, PostgreSQL, SQL Server ইত্যাদি) এ ডেটা এক্সপোর্ট করার জন্যও ব্যবহৃত হয়। এই প্রক্রিয়া ব্যবহারকারীকে Hadoop এর বিভিন্ন সিস্টেম থেকে ডেটা নিয়ে তা রিলেশনাল ডাটাবেসে ফেরত পাঠানোর সুযোগ দেয়। সাধারণত HDFS বা Hive টেবিল থেকে ডেটা এক্সপোর্ট করার জন্য Sqoop ব্যবহার করা হয়।


HDFS থেকে RDBMS এ Data Export করার প্রক্রিয়া

১. ডেটাবেস সংযোগ কনফিগারেশন:
প্রথমে, Sqoop ব্যবহারকারীকে যে রিলেশনাল ডাটাবেসে ডেটা এক্সপোর্ট করতে চান, সেটির সংযোগ কনফিগারেশন তৈরি করতে হয়। এই কনফিগারেশনে ডাটাবেসের নাম, ইউজারনেম, পাসওয়ার্ড ইত্যাদি অন্তর্ভুক্ত থাকে।

২. ডেটা ফাইল নির্বাচন:
HDFS থেকে ডেটা এক্সপোর্ট করতে হলে, আগে HDFS এ সংরক্ষিত ডেটা ফাইলটি নির্ধারণ করতে হবে। এটি সাধারণত CSV, Avro, বা Parquet ফরম্যাটে থাকে।

৩. এক্সপোর্ট কনফিগারেশন:
Sqoop কমান্ড ব্যবহার করে ডেটার এক্সপোর্টের জন্য আরও কিছু কনফিগারেশন সেট করা যায়, যেমন:

  • --export-dir: HDFS এ যেখানে ডেটা ফাইল রয়েছে, সেই ডিরেক্টরি পাথ।
  • --connect: রিলেশনাল ডাটাবেসের সংযোগ URL।
  • --table: এক্সপোর্ট করার জন্য লক্ষ্য টেবিলের নাম।
  • --input-fields-terminated-by: ফাইলের মধ্যে ক্ষেত্রগুলির মধ্যে কীভাবে বিভাজন হবে (যেমন, কমা দিয়ে)।
  • --update-mode: যদি রেকর্ড আপডেট করতে চান, তবে এটি নির্ধারণ করা যায়।

৪. এক্সপোর্ট অপশন ব্যবহার:
Sqoop ব্যবহারকারীদের বিভিন্ন অপশন দেয়, যার মাধ্যমে এক্সপোর্ট কনফিগারেশন কাস্টমাইজ করা যায়। যেমন:

  • --update-key: এই অপশন ব্যবহার করলে, এক্সপোর্ট করার সময় কোনো নির্দিষ্ট কোলাম দিয়ে রেকর্ড আপডেট করা যাবে।
  • --batch: এক্সপোর্টের সময় ব্যাচ প্রসেসিং ব্যবহার করলে দ্রুত ডেটা এক্সপোর্ট সম্ভব হয়।
  • --direct: ডেটাবেসের সাথে সরাসরি সংযোগ স্থাপন করে এক্সপোর্ট করা যেতে পারে, যা পারফরম্যান্সে উন্নতি ঘটায়।

৫. ডেটার এক্সপোর্ট:
এক্সপোর্ট প্রক্রিয়া শুরু হলে, Sqoop HDFS থেকে ডেটা পড়ে এবং তা নির্দিষ্ট SQL ইনসার্ট স্টেটমেন্টের মাধ্যমে রিলেশনাল ডাটাবেসে পাঠিয়ে দেয়। এটি একাধিক থ্রেড ব্যবহার করে ডেটা দ্রুত এক্সপোর্ট করতে সক্ষম।


উদাহরণ কমান্ড

ধরা যাক, আমাদের HDFS এ একটি CSV ফাইল রয়েছে এবং সেটি MySQL ডাটাবেসে এক্সপোর্ট করতে হবে। এর জন্য Sqoop কমান্ড হতে পারে:

sqoop export \
  --connect jdbc:mysql://localhost:3306/database_name \
  --username user_name --password password \
  --table target_table \
  --export-dir /user/hadoop/data \
  --input-fields-terminated-by ',' \
  --update-mode allowinsert \
  --update-key id

এখানে:

  • --connect: MySQL ডাটাবেসের URL।
  • --table: যে টেবিলে ডেটা এক্সপোর্ট করতে হবে।
  • --export-dir: HDFS এ সংরক্ষিত ডেটা ফাইলের পাথ।
  • --input-fields-terminated-by ',': ফাইলের ক্ষেত্রে ভেদকারী চিহ্ন, যেমন কমা।
  • --update-mode allowinsert: নতুন রেকর্ড সন্নিবেশ করার পাশাপাশি বিদ্যমান রেকর্ড আপডেট হবে।
  • --update-key id: আপডেট করার সময় যে কোলামটি ব্যবহৃত হবে।

HDFS থেকে RDBMS এ Data Export করার সুবিধা

  1. দ্রুত ও স্কেলেবল:
    Sqoop HDFS থেকে RDBMS এ ডেটা এক্সপোর্ট করার সময় মাল্টি-থ্রেডিং ও ব্যাচ প্রসেসিংয়ের মাধ্যমে উচ্চ পারফরম্যান্স নিশ্চিত করে।
  2. ফরম্যাট কাস্টমাইজেশন:
    আপনি HDFS থেকে বিভিন্ন ফরম্যাট (যেমন CSV, Avro, Parquet) সাপোর্ট করে ডেটা এক্সপোর্ট করতে পারেন, যা রিলেশনাল ডাটাবেসে এক্সপোর্ট করা সহজ করে।
  3. স্বয়ংক্রিয় আপডেট:
    যদি একই ডেটা একাধিক বার এক্সপোর্ট করা হয়, তবে --update-mode অপশন ব্যবহার করে রেকর্ডগুলো আপডেট করা যেতে পারে।

সারাংশ

Apache Sqoop HDFS থেকে RDBMS এ ডেটা এক্সপোর্ট করতে একটি অত্যন্ত কার্যকরী টুল। এটি মাল্টি-থ্রেডিং এবং ব্যাচ প্রসেসিং ব্যবহার করে ডেটার এক্সপোর্ট প্রক্রিয়া দ্রুত ও কার্যকরী করে তোলে। Sqoop ডেটা এক্সপোর্টের জন্য বিভিন্ন কাস্টমাইজেশন অপশন সরবরাহ করে, যা ডেটার ফরম্যাট, আপডেট পদ্ধতি এবং পারফরম্যান্স উন্নত করতে সাহায্য করে।

Content added By
Promotion

Are you sure to start over?

Loading...