Eval, Load/Store এবং Math Functions গাইড ও নোট

Big Data and Analytics - অ্যাপাচি পিগ (Apache Pig) - Functions এবং UDF (User Defined Functions)
416

অ্যাপাচি পিগ (Apache Pig) একটি শক্তিশালী ডেটা প্রক্রিয়াকরণ প্ল্যাটফর্ম যা হ্যাডুপ (Hadoop) ক্লাস্টারের উপর ডিস্ট্রিবিউটেড ডেটা প্রসেসিং সহজ করে তোলে। পিগের মাধ্যমে আপনি Pig Latin ভাষায় ডেটা ট্রান্সফরমেশন এবং বিশ্লেষণ করতে পারেন। পিগে বেশ কিছু গুরুত্বপূর্ণ ফাংশন রয়েছে যা ডেটা লোড, স্টোর, প্রক্রিয়াকরণ এবং গণনা করার জন্য ব্যবহৃত হয়। এখানে, আমরা Eval, Load/Store, এবং Math Functions নিয়ে বিস্তারিত আলোচনা করব।


১. Eval Functions

Eval Functions পিগের সবচেয়ে গুরুত্বপূর্ণ ফাংশনগুলোর মধ্যে একটি, যা ডেটার প্রক্রিয়াকরণ এবং রূপান্তরের জন্য ব্যবহৃত হয়। Eval ফাংশন ডেটার উপরে কাজ করে এবং এটি ডেটার এক বা একাধিক ফিল্ডে নির্দিষ্ট কার্যকরী প্রক্রিয়া সম্পাদন করে।

Eval Function এর উদাহরণ

ধরা যাক, আমরা একটি কর্মী ডেটা সেট ব্যবহার করছি, যার মধ্যে কর্মীদের নাম এবং বেতন রয়েছে। আমরা যদি কর্মীদের বেতনের উপর ভিত্তি করে কিছু ট্রান্সফরমেশন করতে চাই, তবে Eval Functions ব্যবহার করা হবে।

-- Load employee data
employees = LOAD 'employee_data.csv' USING PigStorage(',') AS (id:int, name:chararray, salary:int);

-- Apply an eval function to calculate the annual salary (salary * 12)
annual_salary = FOREACH employees GENERATE name, salary, salary * 12 AS annual_salary;

-- Display the result
DUMP annual_salary;

এখানে, salary * 12 একটি Eval Function হিসেবে কাজ করছে, যা মাসিক বেতনকে বার্ষিক বেতনে রূপান্তরিত করছে।

Common Eval Functions in Pig

  1. CONCAT: দুইটি স্ট্রিং একত্রিত করার জন্য ব্যবহৃত হয়।

    full_name = CONCAT(first_name, last_name);
    
  2. UPPER: স্ট্রিংটিকে বড় হাতের অক্ষরে রূপান্তর করার জন্য ব্যবহৃত হয়।

    upper_case_name = UPPER(name);
    
  3. LOWER: স্ট্রিংটিকে ছোট হাতের অক্ষরে রূপান্তর করার জন্য ব্যবহৃত হয়।

    lower_case_name = LOWER(name);
    
  4. SUBSTRING: স্ট্রিংয়ের একটি অংশ বের করার জন্য ব্যবহৃত হয়।

    sub_name = SUBSTRING(name, 0, 3);
    

২. Load/Store Functions

Load/Store Functions পিগে ডেটা লোড এবং সংরক্ষণের জন্য ব্যবহৃত হয়। পিগ বিভিন্ন ডেটা সোর্স থেকে ডেটা লোড করতে পারে এবং তারপর প্রক্রিয়াকৃত ডেটা অন্য সোর্সে সংরক্ষণ করতে পারে। পিগের LOAD এবং STORE ফাংশন ডেটার এক্সটেনসিভ ম্যানিপুলেশন এবং শেয়ারিংকে সহজ করে তোলে।

LOAD Function

LOAD ফাংশনটি পিগে ডেটা লোড করতে ব্যবহৃত হয়। এটি বিভিন্ন সোর্স যেমন HDFS, Local File System, HBase, Hive থেকে ডেটা লোড করতে সক্ষম।

-- Load employee data from CSV file
employees = LOAD 'hdfs://localhost:9000/user/hadoop/employee_data.csv' USING PigStorage(',') AS (id:int, name:chararray, salary:int);

এখানে, PigStorage(',') ব্যবহার করা হয়েছে CSV ফাইল থেকে ডেটা লোড করতে, যেখানে ডেটা কমা দিয়ে আলাদা করা রয়েছে।

STORE Function

STORE ফাংশনটি পিগে প্রক্রিয়াকৃত ডেটা সংরক্ষণ করতে ব্যবহৃত হয়। এটি ডেটাকে HDFS, Local File System, HBase, Hive ইত্যাদিতে সংরক্ষণ করতে পারে।

-- Store the processed data into an output file in HDFS
STORE employees INTO 'hdfs://localhost:9000/user/hadoop/output' USING PigStorage(',');

এখানে, PigStorage(',') ব্যবহৃত হয়েছে ডেটাকে CSV ফরম্যাটে স্টোর করার জন্য।

Common Load/Store Functions in Pig

  1. PigStorage: এটি সবচেয়ে সাধারণ লোড এবং স্টোর ফাংশন, যা ডেটাকে সিম্পল টেক্সট ফাইল (CSV, TSV) থেকে লোড এবং স্টোর করতে ব্যবহৃত হয়।

    LOAD 'file_path' USING PigStorage(',') AS (field1:type, field2:type);
    STORE data INTO 'file_path' USING PigStorage(',');
    
  2. HBaseStorage: এটি HBase থেকে ডেটা লোড এবং HBase টেবিলে ডেটা স্টোর করতে ব্যবহৃত হয়।

    LOAD 'hbase://table_name' USING org.apache.pig.backend.hadoop.datastorage.hbase.HBaseStorage();
    STORE data INTO 'hbase://table_name' USING org.apache.pig.backend.hadoop.datastorage.hbase.HBaseStorage();
    
  3. HiveStorage: এটি হাইভ টেবিল থেকে ডেটা লোড এবং হাইভ টেবিলে ডেটা স্টোর করতে ব্যবহৃত হয়।

    LOAD 'hive://table_name' USING org.apache.hive.hcatalog.pig.HCatLoader();
    STORE data INTO 'hive://table_name' USING org.apache.hive.hcatalog.pig.HCatStorer();
    

৩. Math Functions

পিগে Math Functions ব্যবহার করে আপনি গণনা, অ্যাগ্রিগেশন, এবং অন্যান্য ম্যাথমেটিক্যাল অপারেশন করতে পারেন। পিগের ম্যাথ ফাংশনগুলো বিশেষভাবে নম্বরিক ডেটা এর উপর কাজ করতে সহায়তা করে।

Common Math Functions in Pig

  1. ROUND: এটি একটি সংখ্যাকে নির্দিষ্ট দশমিক স্থানে রাউন্ড করতে ব্যবহৃত হয়।

    rounded_value = ROUND(salary, 2);  -- Rounds the salary to 2 decimal places.
    
  2. ABS: এটি একটি সংখ্যার অ্যাবসোলিউট ভ্যালু বের করে।

    absolute_value = ABS(negative_value);
    
  3. POW: এটি একটি সংখ্যার শক্তি (power) বের করে।

    power_value = POW(base, exponent);  -- base raised to the power of exponent
    
  4. SQRT: এটি একটি সংখ্যার বর্গমূল বের করে।

    sqrt_value = SQRT(salary);
    
  5. RAND: এটি একটি র্যান্ডম সংখ্যা উৎপন্ন করে।

    random_value = RAND();
    
  6. MIN এবং MAX: এই ফাংশন দুটি সবচেয়ে ছোট এবং বড় মান বের করতে ব্যবহৃত হয়।

    min_value = MIN(salary);
    max_value = MAX(salary);
    

Math Functions Example

ধরা যাক, আপনি কর্মীদের বেতন এবং তাদের বেতন বৃদ্ধি সম্পর্কিত কিছু ম্যাথ অপারেশন করতে চান।

-- Load employee data
employees = LOAD 'employee_data.csv' USING PigStorage(',') AS (id:int, name:chararray, salary:int);

-- Calculate 10% increment on salary
salary_increment = FOREACH employees GENERATE name, salary, salary * 1.10 AS new_salary;

-- Calculate the average salary
average_salary = FOREACH employees GENERATE AVG(salary);

-- Display results
DUMP salary_increment;
DUMP average_salary;

এখানে, salary * 1.10 ব্যবহার করে কর্মীদের বেতনের উপর ১০% বৃদ্ধি হিসাব করা হয়েছে এবং AVG(salary) ব্যবহার করে গড় বেতন হিসাব করা হয়েছে।


সারাংশ

অ্যাপাচি পিগ (Apache Pig) এর Eval Functions, Load/Store Functions, এবং Math Functions ডেটা ট্রান্সফরমেশন এবং বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ। Eval Functions ডেটার উপর ট্রান্সফরমেশন এবং রূপান্তরের কাজ করে, Load/Store Functions ডেটা লোড এবং স্টোর করার কাজ সহজ করে, এবং Math Functions ম্যাথমেটিক্যাল অপারেশন এবং গণনা করার জন্য ব্যবহৃত হয়। এই ফাংশনগুলো পিগ স্ক্রিপ্টে দ্রুত এবং কার্যকরী ডেটা প্রসেসিং নিশ্চিত করে, যা হ্যাডুপ ক্লাস্টারের উপর স্কেলেবিলিটি এবং পারফরম্যান্স বৃদ্ধি করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...