Data Transformation Techniques (FLATTEN, SPLIT, etc.)

Big Data and Analytics - অ্যাপাচি পিগ (Apache Pig) - Data Transformation এবং Complex Data Types
443

অ্যাপাচি পিগ (Apache Pig) একটি শক্তিশালী ডেটা প্রসেসিং প্ল্যাটফর্ম যা হাডুপ (Hadoop) ইকোসিস্টেমে বিশাল পরিমাণ ডেটা ট্রান্সফরমেশন এবং অ্যানালাইসিস করতে ব্যবহৃত হয়। পিগে ডেটা ট্রান্সফরমেশনের জন্য বিভিন্ন কমান্ড এবং ফাংশন রয়েছে, যা ডেটাকে আরও কার্যকরভাবে প্রক্রিয়া করতে সাহায্য করে। এই নিবন্ধে আমরা FLATTEN, SPLIT, এবং অন্যান্য গুরুত্বপূর্ণ ডেটা ট্রান্সফরমেশন টেকনিকস সম্পর্কে আলোচনা করব।


FLATTEN

FLATTEN একটি পিগ ফাংশন যা Bag অথবা Tuple এর মধ্যে থাকা ডেটাকে "flatten" করে অর্থাৎ একটি সিঙ্গেল রেকর্ডে রূপান্তর করে। যখন আপনার কাছে একটি Bag বা Tuple থাকে এবং আপনি সেই ডেটার প্রতিটি উপাদান আলাদাভাবে প্রসেস করতে চান, তখন FLATTEN কমান্ড ব্যবহার করা হয়।

FLATTEN এর ব্যবহার

  • FLATTEN সাধারণত Bag অথবা Tuple এর মধ্যে থাকা ডেটাকে এক্সপ্যান্ড করে একক রেকর্ডে রূপান্তর করতে ব্যবহৃত হয়।
  • এটি একাধিক রেকর্ডকে একটি একক রেকর্ডের মধ্যে নিয়ে আসে, যা পরবর্তী প্রসেসিংয়ে সহজ করে তোলে।

FLATTEN উদাহরণ:

ধরা যাক, একটি ডেটাসেট আছে যেখানে ব্যক্তি এবং তাদের পছন্দের খাবারের তথ্য Bag আকারে রয়েছে এবং আপনি এই খাবারের তথ্য আলাদা আলাদা রেকর্ডে নিয়ে আসতে চান।

data = LOAD 'input_data.txt' USING PigStorage(',') AS (name:chararray, food_preferences:bag{tuple(food:chararray)});

-- FLATTEN the food_preferences bag into separate records
flattened_data = FOREACH data GENERATE name, FLATTEN(food_preferences);

STORE flattened_data INTO 'output_data.txt' USING PigStorage(',');

এখানে:

  • food_preferences হল একটি Bag যা একাধিক Tuple ধারণ করে।
  • FLATTEN(food_preferences) এই Bag এর প্রতিটি Tuple কে একক রেকর্ডে রূপান্তরিত করবে।

SPLIT

SPLIT কমান্ড পিগে ডেটাকে একাধিক ডেটাসেটে ভাগ করার জন্য ব্যবহৃত হয়। এটি একটি শর্তের ভিত্তিতে ডেটাকে ভাগ করে দুটি (বা আরও) আলাদা আলাদা ডেটাসেটে পাঠায়। এটি বিশেষভাবে তখন ব্যবহৃত হয় যখন আপনাকে ডেটার একটি নির্দিষ্ট অংশ আলাদা করতে হয়।

SPLIT এর ব্যবহার

  • SPLIT ডেটাসেটকে দুটি বা তার বেশি অংশে বিভক্ত করে, যেখানে প্রতিটি অংশে একটি নির্দিষ্ট শর্ত থাকে।
  • এটি খুবই উপকারী যখন আপনি ডেটার বিভিন্ন অংশের ওপর আলাদা আলাদা ট্রান্সফরমেশন বা প্রসেসিং করতে চান।

SPLIT উদাহরণ:

ধরা যাক, আপনার কাছে একটি ডেটাসেট আছে যেখানে বয়সের ভিত্তিতে ডেটা রয়েছে এবং আপনি ১৮ বছরের নিচে এবং ১৮ বছরের উপরের লোকদের আলাদা আলাদা ডেটাসেটে ভাগ করতে চান।

data = LOAD 'input_data.txt' USING PigStorage(',') AS (name:chararray, age:int);

-- SPLIT the data into two sets: one for age >= 18 and one for age < 18
SPLIT data INTO adults IF age >= 18, minors IF age < 18;

STORE adults INTO 'adults_data.txt' USING PigStorage(',');
STORE minors INTO 'minors_data.txt' USING PigStorage(',');

এখানে:

  • SPLIT কমান্ডটি data ডেটাসেটকে দুটি ভাগে ভাগ করছে:
    • adults: যাদের বয়স ১৮ বছরের বেশি।
    • minors: যাদের বয়স ১৮ বছরের কম।

GENERATE

GENERATE পিগে ডেটাকে প্রসেস করার জন্য ব্যবহৃত একটি কমান্ড, যা নতুন ফিল্ড বা নতুন রেকর্ড তৈরি করতে ব্যবহৃত হয়। এটি সাধারণত FOREACH কমান্ডের মধ্যে ব্যবহৃত হয়, যাতে নতুন ডেটা গঠিত হয়।

GENERATE এর ব্যবহার

  • GENERATE কমান্ডটি নতুন কলাম তৈরি করতে বা পূর্বের কলামের মান পরিবর্তন করতে ব্যবহৃত হয়।
  • এটি সাধারণত FOREACH কমান্ডের সাথে একত্রে ব্যবহৃত হয়।

GENERATE উদাহরণ:

data = LOAD 'input_data.txt' USING PigStorage(',') AS (name:chararray, age:int);

-- Generate new field where age is incremented by 1
incremented_data = FOREACH data GENERATE name, age + 1;

STORE incremented_data INTO 'output_data.txt' USING PigStorage(',');

এখানে, GENERATE কমান্ডটি age ফিল্ডের মানে 1 যোগ করে একটি নতুন ফিল্ড তৈরি করেছে।


CONCATENATE

CONCATENATE পিগে দুটি বা ততোধিক ডেটাসেট একত্রিত করার জন্য ব্যবহৃত হয়। এটি UNION এর মতো কাজ করে, কিন্তু এটি একমাত্র ডেটাসেটের সঙ্গে আরও ডেটাসেট যোগ করে।

CONCATENATE এর ব্যবহার

  • এটি একাধিক ডেটাসেটকে একত্রিত করে একটি বড় ডেটাসেট তৈরি করতে সহায়তা করে।
  • এটি সাধারণত সেই সময় ব্যবহৃত হয় যখন আপনি আলাদা আলাদা ডেটাসেটকে একত্রে মেশাতে চান।

CONCATENATE উদাহরণ:

data1 = LOAD 'input_data1.txt' USING PigStorage(',') AS (name:chararray, age:int);
data2 = LOAD 'input_data2.txt' USING PigStorage(',') AS (name:chararray, age:int);

-- Concatenate data1 and data2 into a single dataset
concatenated_data = CONCATENATE data1, data2;

STORE concatenated_data INTO 'output_data.txt' USING PigStorage(',');

এখানে, data1 এবং data2 ডেটাসেটগুলো একত্রিত হয়ে concatenated_data তৈরি হচ্ছে।


DISTINCT

DISTINCT কমান্ড পিগে ডুপ্লিকেট রেকর্ড সরানোর জন্য ব্যবহৃত হয়। এটি একটি ডেটাসেটে থেকে একক অনন্য রেকর্ডগুলো নির্বাচন করে এবং ডুপ্লিকেট রেকর্ডগুলো বাদ দেয়।

DISTINCT এর ব্যবহার

  • এটি ডুপ্লিকেট ডেটা সরানোর জন্য ব্যবহৃত হয়।
  • এটি ডেটাকে পরিষ্কার করতে এবং কেবলমাত্র ইউনিক রেকর্ড রাখতে সাহায্য করে।

DISTINCT উদাহরণ:

data = LOAD 'input_data.txt' USING PigStorage(',') AS (name:chararray, age:int);

-- Remove duplicate records
distinct_data = DISTINCT data;

STORE distinct_data INTO 'output_data.txt' USING PigStorage(',');

এখানে, DISTINCT কমান্ডটি data ডেটাসেট থেকে ডুপ্লিকেট রেকর্ডগুলো সরিয়ে দেবে।


সারাংশ

Data Transformation Techniques যেমন FLATTEN, SPLIT, GENERATE, CONCATENATE, এবং DISTINCT পিগে ডেটা ট্রান্সফরমেশন এবং প্রসেসিংয়ের জন্য গুরুত্বপূর্ণ টুলস। এগুলি ডেটাকে বিভিন্ন ফরম্যাটে রূপান্তর, ফিল্টার, গ্রুপ, বা ম্যানিপুলেট করতে ব্যবহৃত হয়। এই কমান্ডগুলি ডেটার উপর বিভিন্ন অপারেশন প্রয়োগ করে এবং ডেটাকে আরও কার্যকরীভাবে প্রক্রিয়া করতে সহায়তা করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...