Hadoop এবং HDFS এর সাথে Avro এর Integration

Avro এবং Hadoop Integration - অ্যাপাচি অভ্র (Avro) - Big Data and Analytics

481

Apache Avro একটি জনপ্রিয় ডেটা সিরিয়ালাইজেশন ফরম্যাট যা Hadoop এবং HDFS (Hadoop Distributed File System) এর সঙ্গে ব্যাপকভাবে ব্যবহৃত হয়। Hadoop এর ডিস্ট্রিবিউটেড কম্পিউটিং পরিবেশে ডেটার সঞ্চয় এবং প্রক্রিয়াকরণের জন্য Avro একটি কার্যকরী মাধ্যম হিসেবে কাজ করে, বিশেষত যখন ডেটা ট্রান্সফার এবং স্টোরেজের প্রয়োজন হয়।

Avro এর সাথে Hadoop এবং HDFS এর ইন্টিগ্রেশন ডেটার প্রক্রিয়াকরণ, স্টোরেজ, এবং ট্রান্সফারকে আরও দ্রুত এবং কার্যকরী করে তোলে, কারণ এটি কমপ্যাক্ট এবং দক্ষ ডেটা ফরম্যাট প্রদান করে যা ডিস্ট্রিবিউটেড সিস্টেমে সহজে ব্যবহৃত হয়।


Hadoop এবং HDFS এর সাথে Avro এর ইন্টিগ্রেশন

Avro এর মাধ্যমে Hadoop এবং HDFS এর সাথে ডেটা সঞ্চয় ও প্রক্রিয়াকরণ করতে হলে কিছু নির্দিষ্ট পদক্ষেপ অনুসরণ করতে হয়। Avro প্রাথমিকভাবে ডেটার স্কিমা এবং ডেটা সংরক্ষণের জন্য হ্যাডুপ পরিবেশে ব্যবহৃত হয়।

১. Avro Data Storage on HDFS

Avro ডেটা HDFS এ সঞ্চয় করতে হলে প্রথমে ডেটাকে Avro ফরম্যাটে সিরিয়ালাইজ করতে হবে। Avro ফরম্যাটে ডেটা HDFS এ কম জায়গায় সংরক্ষিত হয়, কারণ এটি একটি বাইনারি ফরম্যাট ব্যবহার করে যা কম স্টোরেজ স্পেস নেয় এবং দ্রুত প্রক্রিয়াকরণের জন্য উপযুক্ত।

Avro ডেটা HDFS এ লিখতে উদাহরণ (Java):

// Define schema
Schema schema = new Schema.Parser().parse(new File("user_schema.avsc"));
DatumWriter<GenericRecord> writer = new GenericDatumWriter<>(schema);

// HDFS path
Path outputPath = new Path("hdfs://namenode_host:8020/user/hadoop/output.avro");

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create("hdfs://namenode_host:8020"), conf);

// Create HDFS output stream
FSDataOutputStream out = fs.create(outputPath);

// Create Avro data file writer
DataFileWriter<GenericRecord> dataFileWriter = new DataFileWriter<>(writer);
dataFileWriter.create(schema, out);

// Create and append records
GenericRecord user = new GenericData.Record(schema);
user.put("name", "John Doe");
user.put("age", 25);
user.put("emails", Arrays.asList("john.doe@example.com"));
dataFileWriter.append(user);

// Close file writer
dataFileWriter.close();
out.close();

এখানে, Avro ফাইলটি HDFS তে সংরক্ষিত হচ্ছে এবং DataFileWriter এর মাধ্যমে ডেটা ফাইলটি তৈরি করা হচ্ছে।

২. Avro Data Reading from HDFS

HDFS থেকে Avro ডেটা পড়তে হলে প্রথমে Avro ফরম্যাটের ডেটা ফাইলটি ডেসিরিয়ালাইজ করতে হয়। ডেটা পুনঃপ্রসেস করার জন্য স্কিমা প্রয়োজন, যাতে ডেটার গঠন পুনরুদ্ধার করা যায়।

Avro ডেটা HDFS থেকে পড়ার উদাহরণ (Java):

// Define schema
Schema schema = new Schema.Parser().parse(new File("user_schema.avsc"));
DatumReader<GenericRecord> reader = new GenericDatumReader<>(schema);

// HDFS path
Path inputPath = new Path("hdfs://namenode_host:8020/user/hadoop/output.avro");

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create("hdfs://namenode_host:8020"), conf);

// Create HDFS input stream
FSDataInputStream in = fs.open(inputPath);

// Create Avro data file reader
DataFileReader<GenericRecord> dataFileReader = new DataFileReader<>(in, reader);

// Read records from Avro file
while (dataFileReader.hasNext()) {
   GenericRecord user = dataFileReader.next();
   System.out.println("Name: " + user.get("name"));
   System.out.println("Age: " + user.get("age"));
   System.out.println("Emails: " + user.get("emails"));
}

// Close the reader
dataFileReader.close();
in.close();

এখানে, DataFileReader ব্যবহার করে HDFS থেকে Avro ফাইলের ডেটা পড়া হচ্ছে এবং এর GenericRecord এর মাধ্যমে ডেটার মান অ্যাক্সেস করা হচ্ছে।


Hadoop Cluster এ Avro ব্যবহার

Hadoop ক্লাস্টারে MapReduce বা Apache Spark এর মাধ্যমে Avro ডেটা প্রক্রিয়াকরণ করা যায়। এটি দ্রুত ডেটা প্রক্রিয়াকরণ নিশ্চিত করে এবং HDFS থেকে ডেটা রিড এবং রাইটের ক্ষেত্রে Avro একটি সুবিধাজনক ফরম্যাট হিসেবে ব্যবহৃত হয়। Avro ফরম্যাটটি বিশেষভাবে Hadoop এর জন্য ডিজাইন করা হয়েছে যাতে ডিস্ট্রিবিউটেড সিস্টেমে ডেটা প্রক্রিয়াকরণ দ্রুত এবং কার্যকরী হয়।

Avro এবং MapReduce

MapReduce এ Avro ব্যবহার করতে হলে আপনাকে Avro ফরম্যাটের ডেটাকে ইনপুট এবং আউটপুট ফরম্যাট হিসেবে কনফিগার করতে হবে।

Avro InputFormat and OutputFormat Example (MapReduce)

public class AvroExample {
   public static class AvroMapper extends Mapper<LongWritable, AvroWrapper<GenericRecord>, Text, IntWritable> {
      @Override
      public void map(LongWritable key, AvroWrapper<GenericRecord> value, Context context) throws IOException, InterruptedException {
         GenericRecord record = value.datum();
         String name = record.get("name").toString();
         int age = (int) record.get("age");
         context.write(new Text(name), new IntWritable(age));
      }
   }

   public static class AvroReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
      @Override
      public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
         int sum = 0;
         for (IntWritable val : values) {
            sum += val.get();
         }
         context.write(key, new IntWritable(sum));
      }
   }

   public static void main(String[] args) throws Exception {
      Configuration conf = new Configuration();
      Job job = Job.getInstance(conf, "Avro Example");
      job.setJarByClass(AvroExample.class);

      job.setMapperClass(AvroMapper.class);
      job.setReducerClass(AvroReducer.class);
      job.setInputFormatClass(AvroKeyInputFormat.class);
      job.setOutputFormatClass(AvroKeyOutputFormat.class);

      AvroJob.setInputSchema(job, User.class);  // Avro schema for the input
      AvroJob.setOutputSchema(job, User.class); // Avro schema for the output

      FileInputFormat.addInputPath(job, new Path("hdfs://namenode_host:8020/user/input"));
      FileOutputFormat.setOutputPath(job, new Path("hdfs://namenode_host:8020/user/output"));

      System.exit(job.waitForCompletion(true) ? 0 : 1);
   }
}

এই উদাহরণে, MapReduce কাজটি Avro ইনপুট এবং আউটপুট ফরম্যাট হিসেবে ব্যবহার করা হয়েছে। AvroKeyInputFormat এবং AvroKeyOutputFormat এর মাধ্যমে Avro ডেটা পড়া এবং লেখা হচ্ছে।


Avro এর সুবিধা Hadoop এবং HDFS এর মধ্যে

  1. কমপ্যাক্ট এবং ইফিশিয়েন্ট: Avro বাইনারি ফরম্যাটে ডেটা সংরক্ষণ করে, যা কম স্পেস নেয় এবং দ্রুত ডেটা প্রক্রিয়াকরণ নিশ্চিত করে।
  2. স্কিমা সহ ডেটা সংরক্ষণ: Avro স্কিমার মাধ্যমে ডেটার গঠন নির্ধারণ করা হয়, যা ডেটার সঠিকতা এবং ভ্যালিডেশন নিশ্চিত করে।
  3. ডিস্ট্রিবিউটেড প্রসেসিংয়ে সহায়ক: Hadoop এবং HDFS এর সাথে Avro ব্যবহারের ফলে ডিস্ট্রিবিউটেড পরিবেশে ডেটা সঞ্চয় এবং প্রসেসিং আরও কার্যকরী হয়।
  4. স্কিমা ইভোলিউশন: Avro ডেটার স্কিমা ইভোলিউশনের সাথে সামঞ্জস্যপূর্ণ, যা ডেটার পরিবর্তন সহকারে হ্যাডুপ সিস্টেমে ডেটা সঞ্চয় এবং প্রক্রিয়াকরণ সম্ভব করে।

সারাংশ

Apache Avro Hadoop এবং HDFS এর সাথে সহজে ইন্টিগ্রেট করা যায় এবং ডিস্ট্রিবিউটেড সিস্টেমে ডেটা সংরক্ষণ, ট্রান্সফার এবং প্রক্রিয়াকরণের জন্য একটি উপযুক্ত ফরম্যাট প্রদান করে। এটি কমপ্যাক্ট, স্কিমা-ভিত্তিক এবং দ্রুত ডেটা প্রক্রিয়াকরণের জন্য আদর্শ। Avro ডেটা MapReduce এবং Spark এর মতো Hadoop-based কাজগুলির জন্য একটি কার্যকরী ফরম্যাট হিসেবে ব্যবহৃত হয়, যা দ্রুত এবং কার্যকর ডিস্ট্রিবিউটেড ডেটা প্রসেসিং নিশ্চিত করে।

Content added By
Promotion

Are you sure to start over?

Loading...