Data Merging এবং Joining Techniques

Advanced Data Handling Techniques - স্যাস (SAS) - Big Data and Analytics

377

স্যাস (SAS): Data Merging এবং Joining Techniques

SAS-এ Data Merging এবং Joining Techniques হল দুটি অত্যন্ত গুরুত্বপূর্ণ কৌশল, যা দুটি বা একাধিক ডেটাসেটকে একত্রিত (combine) করার জন্য ব্যবহৃত হয়। ডেটা মার্জিং এবং জয়েনিং এর মাধ্যমে আমরা বিভিন্ন ডেটাসেট থেকে প্রয়োজনীয় তথ্য একত্রিত করতে পারি, যা পরবর্তী বিশ্লেষণ এবং সিদ্ধান্ত গ্রহণের জন্য খুবই উপকারী। এই প্রক্রিয়াগুলো ব্যবহার করে বিভিন্ন ডেটাসেটের সম্পর্কযুক্ত তথ্য একত্রিত করা সহজ হয়।


১. Data Merging (MERGE)

SAS-এ Data Merging একটি খুবই সাধারণ প্রক্রিয়া যা দুইটি বা তার বেশি ডেটাসেটকে একত্রিত করতে ব্যবহৃত হয়। ডেটাসেট মার্জ করার সময়, ডেটার মধ্যে কোনো সাধারণ ভেরিয়েবল থাকে, যার মাধ্যমে রেকর্ডগুলো একত্রিত হয়। MERGE স্টেটমেন্ট ব্যবহার করে ডেটাসেট মার্জ করা হয়।

MERGE Syntax:

data output_dataset;
   merge dataset1 dataset2;
   by common_variable;
run;
  • dataset1, dataset2: যেসব ডেটাসেটকে মার্জ করা হবে।
  • common_variable: যে ভেরিয়েবলের মাধ্যমে ডেটাসেটগুলো মার্জ করা হবে।
  • output_dataset: যে নতুন ডেটাসেটটি তৈরি হবে।

উদাহরণ: Data Merging

data employees;
   input id $ name $;
   datalines;
1 John
2 Sarah
3 Mike
;
run;

data salary;
   input id $ salary;
   datalines;
1 50000
2 60000
3 55000
;
run;

data employee_salary;
   merge employees(in=a) salary(in=b);
   by id;
run;

proc print data=employee_salary;
run;

এখানে:

  • employees এবং salary দুটি ডেটাসেট id ভেরিয়েবলের মাধ্যমে মার্জ করা হয়েছে।
  • employee_salary নামক নতুন ডেটাসেট তৈরি করা হয়েছে, যেখানে কর্মচারীদের নাম এবং তাদের বেতন একত্রিত হয়েছে।

২. Data Joining (JOIN)

SAS-এ Data Joining হল একাধিক ডেটাসেটের মধ্যে সম্পর্কিত তথ্য একত্রিত করার প্রক্রিয়া। এটি সাধারণত PROC SQL ব্যবহার করে সম্পন্ন হয়, যেখানে INNER JOIN, LEFT JOIN, RIGHT JOIN, এবং FULL OUTER JOIN ইত্যাদি ব্যবহৃত হয়।

PROC SQL Syntax:

proc sql;
   create table output_table as
   select a.*, b.*
   from dataset1 as a
   join dataset2 as b
   on a.common_variable = b.common_variable;
quit;
  • select a., b.: dataset1 এবং dataset2 থেকে সমস্ত ভেরিয়েবল নির্বাচন করা হয়েছে।
  • on a.common_variable = b.common_variable: দুইটি ডেটাসেটের সাধারণ ভেরিয়েবল ব্যবহার করে জয়েন করা হয়েছে।
  • output_table: যে নতুন টেবিলটি তৈরি হবে।

Types of Joins

  1. INNER JOIN: উভয় ডেটাসেটের মধ্যে মিল থাকা রেকর্ডগুলো শুধুমাত্র একত্রিত করবে।
  2. LEFT JOIN: বাম ডেটাসেটের সমস্ত রেকর্ড রাখবে এবং ডান ডেটাসেটের সাথে মিল পাওয়া রেকর্ডগুলো যোগ করবে।
  3. RIGHT JOIN: ডান ডেটাসেটের সমস্ত রেকর্ড রাখবে এবং বাম ডেটাসেটের সাথে মিল পাওয়া রেকর্ডগুলো যোগ করবে।
  4. FULL OUTER JOIN: উভয় ডেটাসেটের সমস্ত রেকর্ড রাখবে এবং যেসব রেকর্ডের মিল পাওয়া যাবে সেগুলো একত্রিত করবে।

৩. INNER JOIN

INNER JOIN দুটি ডেটাসেটের মধ্যে কেবলমাত্র সেই রেকর্ডগুলো একত্রিত করবে যেখানে মিল পাওয়া যাবে।

উদাহরণ: INNER JOIN

proc sql;
   create table employee_details as
   select a.id, a.name, b.salary
   from employees as a
   inner join salary as b
   on a.id = b.id;
quit;

এখানে:

  • INNER JOIN ব্যবহৃত হয়েছে যা কেবলমাত্র এমন রেকর্ডগুলো একত্রিত করবে যেখানে id ভেরিয়েবলের মান উভয় ডেটাসেটের মধ্যে মিলে।

৪. LEFT JOIN

LEFT JOIN ডেটাসেটের বাম দিকে থাকা সমস্ত রেকর্ড রাখে এবং ডান দিকের ডেটাসেটের সাথে মিল পাওয়া রেকর্ডগুলো যোগ করে।

উদাহরণ: LEFT JOIN

proc sql;
   create table employee_details as
   select a.id, a.name, b.salary
   from employees as a
   left join salary as b
   on a.id = b.id;
quit;

এখানে:

  • LEFT JOIN ব্যবহৃত হয়েছে, ফলে employees ডেটাসেটের সব রেকর্ড থাকবে, এবং salary ডেটাসেটের সাথে মিল পাওয়া তথ্য যোগ করা হবে।

৫. FULL OUTER JOIN

FULL OUTER JOIN ডেটাসেটের উভয় দিকের সমস্ত রেকর্ড রাখে এবং যেসব রেকর্ডের মিল পাওয়া যায় সেগুলো একত্রিত করে।

উদাহরণ: FULL OUTER JOIN

proc sql;
   create table employee_details as
   select a.id, a.name, b.salary
   from employees as a
   full outer join salary as b
   on a.id = b.id;
quit;

এখানে:

  • FULL OUTER JOIN ব্যবহৃত হয়েছে, ফলে উভয় ডেটাসেটের সব রেকর্ড থাকবে এবং মিল পাওয়া রেকর্ডগুলো একত্রিত হবে।

সারাংশ

  • Data Merging: MERGE স্টেটমেন্ট ব্যবহার করে SAS-এ ডেটাসেটগুলিকে একত্রিত করা যায়, যা সাধারণত BY ভেরিয়েবলের মাধ্যমে হয়।
  • Data Joining: PROC SQL ব্যবহার করে বিভিন্ন ধরনের INNER JOIN, LEFT JOIN, RIGHT JOIN, এবং FULL OUTER JOIN করা যায়, যা ডেটাসেটের মধ্যে সম্পর্কিত রেকর্ড একত্রিত করতে ব্যবহৃত হয়।

এই দুইটি কৌশল ব্যবহার করে আপনি আপনার ডেটাসেটের সম্পর্কিত তথ্য একত্রিত করতে পারেন এবং পরবর্তী বিশ্লেষণ বা রিপোর্ট তৈরির জন্য প্রয়োজনীয় ডেটা প্রস্তুত করতে পারেন।

Content added By
Promotion

Are you sure to start over?

Loading...