ডেটা অ্যাগ্রিগেশন (Data Aggregation) এবং সারাংশ তৈরি (Data Summarization) ডেটা বিশ্লেষণের গুরুত্বপূর্ণ অংশ, যা ডেটাসেটের বিভিন্ন তথ্য সংক্ষিপ্ত এবং গুরুত্বপূর্ণ আকারে উপস্থাপন করতে সহায়তা করে। SAS এ এই কাজগুলি সাধারণত PROC MEANS, PROC FREQ, PROC SUMMARY, এবং PROC SQL ব্যবহার করে করা হয়। এই কৌশলগুলি আপনাকে ডেটার ওপর পরিসংখ্যানগত বিশ্লেষণ, গড় বের করা, মুঠোফল (total) হিসাব করা, ডেটাকে গ্রুপ করা, এবং নির্দিষ্ট গোষ্ঠী অনুযায়ী সারাংশ তৈরি করতে সাহায্য করে।
১. PROC MEANS: পরিসংখ্যানগত সারাংশ তৈরি
PROC MEANS ব্যবহার করে আপনি ডেটার পরিসংখ্যান (যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, সর্বনিম্ন, সর্বাধিক মান) সহজেই বের করতে পারেন। এটি সাধারণত সংখ্যাসূচক ভেরিয়েবলের জন্য ব্যবহৃত হয়।
গঠন:
PROC MEANS DATA=dataset_name N MEAN STD MIN MAX;
VAR variable_name;
RUN;
এখানে:
- DATA: ডেটাসেটের নাম।
- N: রেকর্ডের সংখ্যা।
- MEAN, STD, MIN, MAX: গড়, স্ট্যান্ডার্ড ডেভিয়েশন, সর্বনিম্ন এবং সর্বাধিক মানের হিসাব।
উদাহরণ:
PROC MEANS DATA=work.sales N MEAN STD MIN MAX;
VAR Revenue;
RUN;
এখানে:
Revenueভেরিয়েবলের গড়, স্ট্যান্ডার্ড ডেভিয়েশন, সর্বনিম্ন এবং সর্বাধিক মান বের করা হবে।
গ্রুপিং এবং অ্যাগ্রিগেশন:
PROC MEANS DATA=work.sales N MEAN;
VAR Revenue;
CLASS Region; /* Region অনুযায়ী গোষ্ঠী তৈরি */
RUN;
এখানে:
CLASS Regionদ্বারা Region অনুযায়ী গোষ্ঠী তৈরি করা হয়েছে এবং প্রতিটি অঞ্চলের জন্য গড় এবং সংখ্যা হিসাব করা হয়েছে।
২. PROC FREQ: ফ্রিকোয়েন্সি টেবিল এবং ক্যাটাগরিক্যাল ডেটার সারাংশ
PROC FREQ ব্যবহার করে আপনি ক্যাটাগোরিক্যাল ডেটার জন্য ফ্রিকোয়েন্সি টেবিল তৈরি করতে পারেন, যা দেখায় প্রতিটি ক্যাটাগরি কতবার ঘটেছে।
গঠন:
PROC FREQ DATA=dataset_name;
TABLES variable_name;
RUN;
এখানে:
- TABLES: ভেরিয়েবল যার জন্য ফ্রিকোয়েন্সি টেবিল তৈরি করতে হবে।
উদাহরণ:
PROC FREQ DATA=work.sales;
TABLES Region Gender;
RUN;
এখানে:
RegionএবংGenderভেরিয়েবলের ফ্রিকোয়েন্সি টেবিল তৈরি করা হবে।
ফ্রিকোয়েন্সি এবং পদ্ধতি:
PROC FREQ DATA=work.sales ORDER=FREQ;
TABLES Region;
RUN;
এখানে:
ORDER=FREQফ্রিকোয়েন্সি অনুযায়ী টেবিল সাজাবে।
৩. PROC SUMMARY: অ্যাগ্রিগেশন এবং সারাংশ তৈরি
PROC SUMMARY ডেটার অ্যাগ্রিগেশন এবং সারাংশ তৈরির জন্য ব্যবহৃত হয়, তবে এটি PROC MEANS এর মতো কাজ করে, কিন্তু output dataset তৈরির জন্য বেশি উপযুক্ত।
গঠন:
PROC SUMMARY DATA=dataset_name;
VAR variable_name;
CLASS grouping_variable;
OUTPUT OUT=output_dataset_name MEAN=mean_variable;
RUN;
এখানে:
- CLASS: যেসব ভেরিয়েবলের ভিত্তিতে ডেটা গ্রুপ করতে হবে।
- OUTPUT: নতুন আউটপুট ডেটাসেট তৈরি করে, যেখানে অ্যাগ্রিগেটেড মান থাকবে।
উদাহরণ:
PROC SUMMARY DATA=work.sales;
VAR Revenue;
CLASS Region;
OUTPUT OUT=summary_data MEAN=avg_revenue;
RUN;
PROC PRINT DATA=summary_data;
RUN;
এখানে:
Revenueএর গড় বের করা হচ্ছে এবং আউটপুটsummary_dataডেটাসেটেavg_revenueনামে সংরক্ষিত হচ্ছে।
৪. PROC SQL: অ্যাগ্রিগেশন এবং গ্রুপিং
PROC SQL ব্যবহার করে আপনি SQL কোয়েরি দিয়ে ডেটা অ্যাগ্রিগেশন এবং গ্রুপিং করতে পারেন। এটি একটি শক্তিশালী পদ্ধতি যখন আপনাকে ডেটাসেটের ওপর SQL ভিত্তিক বিশ্লেষণ করতে হয়।
গঠন:
PROC SQL;
SELECT column_name, AGGREGATE_FUNCTION(column_name)
FROM dataset_name
GROUP BY column_name;
QUIT;
এখানে:
- AGGREGATE_FUNCTION: উদাহরণস্বরূপ
SUM,AVG,COUNTইত্যাদি। - GROUP BY: ডেটাকে গ্রুপ করে।
উদাহরণ:
PROC SQL;
SELECT Region, AVG(Revenue) AS avg_revenue
FROM work.sales
GROUP BY Region;
QUIT;
এখানে:
AVG(Revenue)ব্যবহার করে প্রতিRegionএর গড় বিক্রয় (Revenue) বের করা হচ্ছে।
৫. ডেটা অ্যাগ্রিগেশন এবং সারাংশের জন্য অন্যান্য টেকনিক
- SUM: একটি ভেরিয়েবলের মোট যোগফল বের করা।
- COUNT: নির্দিষ্ট ভেরিয়েবলের উপস্থিতি গোনার জন্য।
- MAX, MIN: সর্বাধিক এবং সর্বনিম্ন মান বের করা।
উদাহরণ:
PROC SQL;
SELECT Region, SUM(Revenue) AS total_revenue
FROM work.sales
GROUP BY Region;
QUIT;
এখানে:
- প্রতিটি
Regionএর জন্য মোট বিক্রয় (SUM(Revenue)) বের করা হচ্ছে।
সারাংশ
SAS-এ ডেটা অ্যাগ্রিগেশন এবং সারাংশ তৈরির কৌশল অত্যন্ত গুরুত্বপূর্ণ, যা আপনাকে ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ তথ্য সহজে সংক্ষেপে উপস্থাপন করতে সাহায্য করে। PROC MEANS, PROC FREQ, PROC SUMMARY, এবং PROC SQL এর মাধ্যমে আপনি সহজেই ডেটার পরিসংখ্যান এবং সারাংশ তৈরি করতে পারেন। এই কৌশলগুলি ডেটার গড়, সর্বোচ্চ, সর্বনিম্ন, এবং গ্রুপভিত্তিক বিশ্লেষণ করতে সহায়তা করে এবং ডেটার ওপর কার্যকরী অন্তর্দৃষ্টি প্রদান করে।
Read more