SAS (Statistical Analysis System) একটি শক্তিশালী সফটওয়্যার যা পরিসংখ্যানগত বিশ্লেষণ (statistical analysis) এবং ডেটা ম্যানিপুলেশন করতে ব্যবহৃত হয়। SAS-এর Statistical Procedures (PROC) আপনাকে বিভিন্ন পরিসংখ্যানগত বিশ্লেষণ সম্পাদন করতে সাহায্য করে, যেমন ডেটার উপস্থাপনা, মডেলিং, পরীক্ষাগুলি, এবং বিভিন্ন ধরনের পরিসংখ্যানগত পরীক্ষা।
নিচে স্যাসের কিছু জনপ্রিয় পরিসংখ্যানগত প্রসিডিউর (statistical procedures) এবং তাদের ব্যবহার সম্পর্কিত বিস্তারিত আলোচনা করা হলো।
১. PROC MEANS
PROC MEANS ব্যবহার করা হয় একটি ডেটাসেটের জন্য বিভিন্ন পরিসংখ্যানগত পরিমাপ বের করতে, যেমন গড় (Mean), স্ট্যান্ডার্ড ডিভিয়েশন (Standard Deviation), সর্বনিম্ন (Minimum), সর্বাধিক (Maximum), মিডিয়ান (Median), ইত্যাদি।
উদাহরণ:
PROC MEANS DATA=work.sales;
VAR revenue age;
OUTPUT OUT=summary_data MEAN=avg_revenue avg_age;
RUN;
এখানে:
VARস্টেটমেন্টের মাধ্যমে আপনি কোন ভেরিয়েবলের জন্য পরিসংখ্যান বের করতে চান তা নির্ধারণ করেছেন।OUTPUTস্টেটমেন্টের মাধ্যমে নির্দিষ্ট পরিসংখ্যান যেমন গড় (Mean) সংরক্ষণ করতে পারেন।
২. PROC FREQ
PROC FREQ ব্যবহার করা হয় ক্যাটাগোরিক্যাল ডেটার ফ্রিকোয়েন্সি টেবিল তৈরি করতে। এটি একটি ভেরিয়েবলের বিভিন্ন মানের সংখ্যা এবং তাদের শতাংশ (percentage) বের করতে সহায়তা করে।
উদাহরণ:
PROC FREQ DATA=work.sales;
TABLES region gender;
RUN;
এখানে:
TABLESস্টেটমেন্টে আপনি যেসব ভেরিয়েবল (যেমনregionএবংgender) বিশ্লেষণ করতে চান তা উল্লেখ করেছেন।- এটি সেই ভেরিয়েবলগুলোর ফ্রিকোয়েন্সি টেবিল তৈরি করবে এবং এর মানের বারংবারত্ব দেখাবে।
৩. PROC REG
PROC REG ব্যবহার করা হয় রিগ্রেশন বিশ্লেষণ করার জন্য, যা নির্ধারণ করে কিভাবে এক বা একাধিক স্বাধীন ভেরিয়েবল (independent variables) নির্ভরশীল ভেরিয়েবল (dependent variable) এর মানকে প্রভাবিত করে।
উদাহরণ:
PROC REG DATA=work.sales;
MODEL revenue = age salary;
RUN;
এখানে:
MODELস্টেটমেন্টেrevenueহল নির্ভরশীল ভেরিয়েবল এবংage,salaryস্বাধীন ভেরিয়েবল।- এটি একটি রৈখিক রিগ্রেশন মডেল তৈরি করবে এবং নির্ভরশীল ভেরিয়েবলের উপর স্বাধীন ভেরিয়েবলগুলোর প্রভাব বিশ্লেষণ করবে।
৪. PROC TTEST
PROC TTEST ব্যবহার করা হয় দুইটি গোষ্ঠীর মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য। এটি বিশেষভাবে t-test করার জন্য ব্যবহৃত হয়, যা নির্ধারণ করে যে দুটি গোষ্ঠীর গড় পরিসংখ্যানগতভাবে ভিন্ন কিনা।
উদাহরণ:
PROC TTEST DATA=work.sales;
CLASS region;
VAR revenue;
RUN;
এখানে:
CLASS regionদ্বারাregionভেরিয়েবলটি দুটি গোষ্ঠীতে ভাগ করা হয়েছে।VAR revenueদ্বারা আপনিrevenueভেরিয়েবলের গড়ের মধ্যে পার্থক্য পরীক্ষা করছেন।
৫. PROC ANOVA
PROC ANOVA ব্যবহার করা হয় একাধিক গোষ্ঠীর মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য। এটি Analysis of Variance (ANOVA) পরীক্ষা চালায় এবং বিভিন্ন গোষ্ঠীর মধ্যে গড়ের পার্থক্য বিশ্লেষণ করে।
উদাহরণ:
PROC ANOVA DATA=work.sales;
CLASS region;
MODEL revenue = region;
RUN;
এখানে:
CLASS regionদ্বারাregionভেরিয়েবলটি গোষ্ঠীভুক্ত করা হয়েছে।MODEL revenue = regionদ্বারাrevenueভেরিয়েবলের গড়ের পার্থক্যregionভেরিয়েবলের গোষ্ঠীভুক্ত মানগুলোর মধ্যে পরীক্ষা করা হচ্ছে।
৬. PROC CORR
PROC CORR ব্যবহার করা হয় দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক (correlation) পরীক্ষা করতে। এটি পিয়ারসন কোরেলেশন কোঅফিসিয়েন্ট বের করে, যা ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।
উদাহরণ:
PROC CORR DATA=work.sales;
VAR age salary revenue;
RUN;
এখানে:
VARস্টেটমেন্টে আপনি যেসব ভেরিয়েবলের মধ্যে সম্পর্ক পরীক্ষা করতে চান তা উল্লেখ করেছেন।- এটি
age,salary, এবংrevenueএর মধ্যে সম্পর্কের কোরেলেশন কোঅফিসিয়েন্ট দেখাবে।
৭. PROC LIFETEST
PROC LIFETEST ব্যবহার করা হয় লাইফ টাইম (survival analysis) ডেটা বিশ্লেষণ করতে। এটি সাধারনত মেডিক্যাল গবেষণা বা বিজনেস অ্যানালাইসিসে ব্যবহৃত হয় যেখানে ইভেন্টের সময়কাল পরীক্ষা করা হয়, যেমন একটি রোগের আগমনের সময় বা একটি পণ্যের কার্যকারিতা।
উদাহরণ:
PROC LIFETEST DATA=work.medical;
TIME survival_time*status(0);
RUN;
এখানে:
TIMEস্টেটমেন্টে সময়কাল এবং স্ট্যাটাস (0 বা 1) নির্দিষ্ট করা হয়েছে, যেখানে 0 অর্থাৎ ইভেন্টটি হয়নি এবং 1 অর্থাৎ ইভেন্টটি ঘটেছে।
সারাংশ
SAS-এ Statistical Procedures পরিসংখ্যানগত বিশ্লেষণ এবং ডেটা ম্যানিপুলেশনের জন্য শক্তিশালী টুল সরবরাহ করে। PROC MEANS, PROC FREQ, PROC REG, PROC TTEST, PROC ANOVA, PROC CORR, এবং PROC LIFETEST এর মত প্রক্রিয়াগুলির মাধ্যমে আপনি গাণিতিক পরিসংখ্যান, সম্পর্ক বিশ্লেষণ, রিগ্রেশন, t-test, ANOVA, এবং লাইফটাইম বিশ্লেষণ করতে পারেন। এই প্রসিডিউরগুলি ডেটা বিশ্লেষণের জন্য অত্যন্ত কার্যকরী এবং বিভিন্ন শিল্পে ব্যবহৃত হয়, যেমন স্বাস্থ্যসেবা, ব্যবসা, আর্থিক অ্যানালাইসিস, এবং বিজ্ঞান।
SAS-এ PROC MEANS এবং PROC UNIVARIATE দুটি অত্যন্ত জনপ্রিয় প্রোসিডিউর (procedure) যা ডেটার মৌলিক পরিসংখ্যান (Basic Statistics) হিসাব করতে ব্যবহৃত হয়। এগুলি পরিসংখ্যানগত বিশ্লেষণ করতে সহায়তা করে যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, মিডিয়ান, শার্পল প্রমাণীকরণ এবং অন্যান্য পরিসংখ্যান।
এই প্রসিডিউরগুলির মাধ্যমে ডেটার বৈশিষ্ট্যগুলি বের করা সহজ এবং দ্রুত হয়ে যায়।
১. PROC MEANS: মৌলিক পরিসংখ্যান হিসাব করা
PROC MEANS ফাংশনটি একাধিক পরিসংখ্যান বের করতে ব্যবহৃত হয়, যেমন গড় (Mean), সর্বনিম্ন (Min), সর্বাধিক (Max), স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation), কুইন্টাইল (Quantiles) ইত্যাদি।
গঠন:
PROC MEANS DATA=dataset_name <options>;
VAR variable_name;
RUN;
এখানে:
- DATA=dataset_name: ডেটাসেটের নাম, যেটি থেকে পরিসংখ্যান বের করতে হবে।
- VAR variable_name: যেই ভেরিয়েবলটির পরিসংখ্যান বের করতে হবে, সেটি।
উদাহরণ: PROC MEANS ব্যবহার
PROC MEANS DATA=work.sales;
VAR revenue age salary;
RUN;
এখানে:
revenue,age, এবংsalaryভেরিয়েবলের গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, এবং অন্যান্য পরিসংখ্যান বের করা হবে।
অপশন: PROC MEANS এর অপশন ব্যবহার
PROC MEANS বিভিন্ন অপশন দিয়ে আরো বিশেষভাবে পরিসংখ্যান বের করতে সহায়তা করে।
১. N - রেকর্ডের সংখ্যা বের করা
PROC MEANS DATA=work.sales N;
VAR salary;
RUN;
এখানে, N অপশনটি salary ভেরিয়েবলের রেকর্ডের সংখ্যা (যতটি পরিসংখ্যান আছে) বের করবে।
২. MIN, MAX, MEAN, STD - নির্দিষ্ট পরিসংখ্যান বের করা
PROC MEANS DATA=work.sales MIN MAX MEAN STD;
VAR salary;
RUN;
এখানে:
- MIN: সর্বনিম্ন মান।
- MAX: সর্বোচ্চ মান।
- MEAN: গড়।
- STD: স্ট্যান্ডার্ড ডেভিয়েশন।
২. PROC UNIVARIATE: আরও গভীর পরিসংখ্যান বিশ্লেষণ
PROC UNIVARIATE ফাংশনটি আরো গভীর পরিসংখ্যান বিশ্লেষণের জন্য ব্যবহৃত হয়। এটি ডেটার স্বাভাবিকতা (Normality), মিডিয়ান, কিউটাইল, শার্পল টেস্ট এবং আরও অনেক পরিসংখ্যান বের করতে ব্যবহৃত হয়।
গঠন:
PROC UNIVARIATE DATA=dataset_name;
VAR variable_name;
RUN;
এখানে:
- DATA=dataset_name: ডেটাসেটের নাম।
- VAR variable_name: যেই ভেরিয়েবলের জন্য পরিসংখ্যান বের করতে হবে।
উদাহরণ: PROC UNIVARIATE ব্যবহার
PROC UNIVARIATE DATA=work.sales;
VAR revenue;
RUN;
এখানে:
- revenue ভেরিয়েবলের জন্য বিভিন্ন পরিসংখ্যান যেমন গড়, মিডিয়ান, কুইন্টাইল, এবং স্বাভাবিকতা টেস্ট (Normality Test) বের করা হবে।
PROC UNIVARIATE এর বিশ্লেষণ
PROC UNIVARIATE এর মাধ্যমে আপনি বিভিন্ন পরিসংখ্যান এবং টেস্ট বের করতে পারেন:
১. স্বাভাবিকতা টেস্ট (Normality Test)
PROC UNIVARIATE DATA=work.sales NORMAL;
VAR revenue;
RUN;
এখানে:
- NORMAL অপশনটি ডেটার স্বাভাবিকতা পরীক্ষা করবে (যেমন শার্পল-ভিলকসন টেস্ট, Anderson-Darling Test)।
২. কিউটাইল এবং মিডিয়ান
PROC UNIVARIATE DATA=work.sales;
VAR revenue;
OUTPUT OUT=stats PCTLPTS=25 50 75 PCTLPRE=Q;
RUN;
এখানে:
- PCTLPTS=25 50 75: ২৫%, ৫০%, এবং ৭৫% কিউটাইল (Quintiles) বের করা হচ্ছে।
- PCTLPRE=Q: কিউটাইলের জন্য পূর্বনির্ধারিত মান (Q25, Q50, Q75) আউটপুট ফাইলে সংরক্ষণ করা হবে।
সারাংশ
SAS-এ PROC MEANS এবং PROC UNIVARIATE দুটি অত্যন্ত গুরুত্বপূর্ণ প্রসিডিউর যা মৌলিক পরিসংখ্যান বের করতে ব্যবহৃত হয়:
- PROC MEANS সাধারণত গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, ইত্যাদি পরিসংখ্যান বের করার জন্য ব্যবহৃত হয়।
- PROC UNIVARIATE আরও গভীর পরিসংখ্যান বিশ্লেষণ করতে ব্যবহৃত হয়, যেমন স্বাভাবিকতা টেস্ট, মিডিয়ান, কিউটাইল, এবং আরও অনেক পরিসংখ্যান।
এই দুটি প্রসিডিউর ব্যবহার করে আপনি ডেটার বৈশিষ্ট্যগুলি সহজে বিশ্লেষণ করতে পারবেন এবং পরবর্তী বিশ্লেষণের জন্য উপযোগী তথ্য পেতে সহায়তা করবে।
PROC REG একটি গুরুত্বপূর্ণ SAS procedure যা লিনিয়ার রিগ্রেশন মডেল তৈরি করতে ব্যবহৃত হয়। লিনিয়ার রিগ্রেশন একটি পরিসংখ্যানগত পদ্ধতি, যা নির্দিষ্ট এক বা একাধিক স্বাধীন ভেরিয়েবলের (independent variables) মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের (dependent variable) মান পূর্বাভাস বা অনুমান করতে ব্যবহৃত হয়।
লিনিয়ার রিগ্রেশন মডেলটি সাধারণত নীচের সমীকরণের মাধ্যমে প্রকাশ করা হয়:
এখানে:
- Y: নির্ভরশীল ভেরিয়েবল (dependent variable)
- X₁, X₂, ... Xₙ: স্বাধীন ভেরিয়েবল (independent variables)
- β₀, β₁, β₂, ... βₙ: রিগ্রেশন কোঅফিসিয়েন্ট (regression coefficients)
- ε: ত্রুটি বা বাকি অংশ (error term)
PROC REG এর মাধ্যমে Linear Regression মডেল তৈরি
SAS-এ PROC REG ব্যবহার করে সহজেই লিনিয়ার রিগ্রেশন মডেল তৈরি করা যায়। এখানে আমরা একটি উদাহরণ দিয়ে দেখব কিভাবে PROC REG ব্যবহার করা হয়।
PROC REG এর মৌলিক সিনট্যাক্স
PROC REG DATA=dataset_name;
MODEL dependent_variable = independent_variables;
RUN;
- DATA=dataset_name: যেখানে আপনার ডেটাসেট সংরক্ষিত আছে।
- MODEL dependent_variable = independent_variables: এখানে আপনি নির্ভরশীল ভেরিয়েবল এবং স্বাধীন ভেরিয়েবলের নাম উল্লেখ করবেন।
উদাহরণ: Simple Linear Regression
ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে যেখানে Sales (বিক্রয়) নির্ভরশীল ভেরিয়েবল এবং Advertising (বিজ্ঞাপন খরচ) একটি স্বাধীন ভেরিয়েবল হিসেবে রয়েছে। আমাদের উদ্দেশ্য হল বিজ্ঞাপন খরচের উপর ভিত্তি করে বিক্রয়ের পূর্বাভাস তৈরি করা।
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising;
RUN;
এখানে:
- Sales হল নির্ভরশীল ভেরিয়েবল (Y)।
- Advertising হল স্বাধীন ভেরিয়েবল (X)।
- এই কোডটি একটি সিম্পল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং বিজ্ঞাপন খরচের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।
Multiple Linear Regression
যদি একাধিক স্বাধীন ভেরিয়েবল থাকে, তবে Multiple Linear Regression তৈরি করা যায়। উদাহরণস্বরূপ, যদি আমাদের কাছে বিক্রয় (Sales) এবং বিজ্ঞাপন খরচ (Advertising), দাম (Price), এবং মৌসুম (Season) নামে আরো কিছু স্বাধীন ভেরিয়েবল থাকে, তবে কোডটি হবে:
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising Price Season;
RUN;
এখানে:
- Sales হল নির্ভরশীল ভেরিয়েবল।
- Advertising, Price, এবং Season হল স্বাধীন ভেরিয়েবল।
এই কোডটি একটি মাল্টিপল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং অন্যান্য ফ্যাক্টরের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।
Output এবং গুরুত্বপূর্ণ পরিসংখ্যান
PROC REG এর আউটপুটে অনেক গুরুত্বপূর্ণ পরিসংখ্যান পাওয়া যায়, যা মডেলের কার্যকারিতা মূল্যায়ন করতে সহায়ক। কিছু গুরুত্বপূর্ণ আউটপুট:
- Parameter Estimates:
- রিগ্রেশন কোঅফিসিয়েন্ট এবং তাদের মান।
- R-Square:
- মডেলটি কতটুকু বৈশ্বিক ভ্যারিয়েশন ব্যাখ্যা করতে সক্ষম (যত বেশি R², তত ভালো মডেল)।
- p-Value:
- প্রতিটি স্বাধীন ভেরিয়েবলের গুরুত্বপূর্ণতা পরীক্ষা করতে ব্যবহৃত হয়। সাধারনত p-value ≤ 0.05 মানে সেই ভেরিয়েবল গুরুত্বপূর্ণ।
- F-statistic:
- পুরো মডেলের কার্যকারিতা পরীক্ষা করতে ব্যবহৃত হয়।
উদাহরণ: বিশ্লেষণ আউটপুট
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising Price Season;
OUTPUT OUT=work.reg_output PREDICTED=predicted_values RESIDUAL=residuals;
RUN;
এখানে:
- PREDICTED: মডেল দ্বারা পূর্বাভাসিত মান।
- RESIDUAL: পূর্বাভাসিত মান এবং আসল মানের মধ্যে পার্থক্য (ত্রুটি)।
এই কোডটি একটি নতুন ডেটাসেট তৈরি করবে যার মধ্যে পূর্বাভাসিত মান এবং ত্রুটিগুলি থাকবে।
সারাংশ
SAS-এ PROC REG ব্যবহার করে লিনিয়ার রিগ্রেশন মডেল তৈরি করা খুবই সহজ। এটি ডেটা বিশ্লেষণে একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক চিহ্নিত করতে সহায়তা করে। আপনি Simple Linear Regression (একটি স্বাধীন ভেরিয়েবল) এবং Multiple Linear Regression (একাধিক স্বাধীন ভেরিয়েবল) করতে পারেন।
- R-Square এবং p-Value সহ গুরুত্বপূর্ণ পরিসংখ্যান বিশ্লেষণ মডেলের কার্যকারিতা পরিমাপ করতে সহায়তা করে।
- PROC REG এর আউটপুটে আপনি পূর্বাভাসিত মান এবং ত্রুটিগুলি অন্তর্ভুক্ত করতে পারেন, যা ভবিষ্যতের পূর্বাভাসের জন্য ব্যবহার করা যেতে পারে।
এই ফিচারগুলো ব্যবহার করে আপনি অত্যন্ত শক্তিশালী পরিসংখ্যানগত বিশ্লেষণ করতে পারবেন।
Logistic Regression একটি পরিসংখ্যানগত পদ্ধতি যা নির্দিষ্ট আউটকাম বা শ্রেণীবিভাগের জন্য পূর্বাভাস তৈরি করতে ব্যবহৃত হয়, যেখানে আউটকামটি সাধারণত দুটি শ্রেণী বা বাইনারি (binary) হয়। এটি PROC LOGISTIC ব্যবহৃত হয় স্যাসে (SAS) বাইনারি আউটকাম ভেরিয়েবল (যেমন: হ্যাঁ/না, সত্য/মিথ্যা, ১/০) বিশ্লেষণ করতে।
Logistic Regression মডেলটি ভবিষ্যদ্বাণী করতে ব্যবহৃত হয় যেখানে ডিপেন্ডেন্ট ভেরিয়েবল বা আউটকাম ভেরিয়েবল একটি ক্যাটাগোরিক্যাল ভেরিয়েবল হয়। এই মডেলটি আউটকাম ভেরিয়েবল (যেমন: বর্ণনামূলক ‘সুস্থ’ বা ‘অসুস্থ’) এর উপর নির্ভরশীল ভেরিয়েবলগুলি বিশ্লেষণ করে।
PROC LOGISTIC এর গঠন
PROC LOGISTIC এর সাধারণ গঠন এইরকম:
proc logistic data=dataset;
model dependent_variable = independent_variable1 independent_variable2 ...;
run;
- data=dataset: আপনার ডেটাসেটের নাম।
- model dependent_variable: এটি আউটকাম ভেরিয়েবল, যেটি আপনি পূর্বাভাস করতে চান।
- independent_variable1, independent_variable2: স্বাধীন ভেরিয়েবলগুলি, যা আউটকাম ভেরিয়েবলকে প্রভাবিত করে।
Logistic Regression এর উদাহরণ
ধরা যাক, একটি ডেটাসেটে রোগী (patient) এর তথ্য রয়েছে, এবং আপনি পূর্বাভাস করতে চান যে রোগীটি রোগী কিনা (1 = রোগী, 0 = সুস্থ)।
উদাহরণ: বাইনারি Logistic Regression
proc logistic data=work.patient_data;
model disease_status = age gender cholesterol_level blood_pressure;
run;
এখানে:
disease_statusহল আউটকাম ভেরিয়েবল, যা রোগী (1) বা সুস্থ (0) হতে পারে।age,gender,cholesterol_level, এবংblood_pressureহল স্বাধীন ভেরিয়েবল, যা রোগীর অবস্থা প্রভাবিত করতে পারে।
এটি রোগীর রোগে আক্রান্ত হওয়ার সম্ভাবনা পূর্বাভাস করার জন্য Logistic Regression মডেল তৈরি করবে।
Logistic Regression Model Output
PROC LOGISTIC এর আউটপুট সাধারণত কয়েকটি অংশে বিভক্ত থাকে:
- Model Information:
- মডেলের ধরন এবং আউটকাম ভেরিয়েবল সহ বিভিন্ন তথ্য প্রদান করা হয়।
- Odds Ratios:
- আউটকাম ভেরিয়েবলের জন্য স্বাধীন ভেরিয়েবলের
odds ratioপ্রদান করা হয়, যা আউটকাম পরিবর্তন করার সম্ভাবনা নির্ধারণ করে।
- আউটকাম ভেরিয়েবলের জন্য স্বাধীন ভেরিয়েবলের
- Parameter Estimates:
- প্রতিটি ভেরিয়েবলের জন্য প্যারামিটার ইস্টিমেট এবং তাদের p-value দেওয়া হয়, যা প্রতিটি ভেরিয়েবলের গুরুত্ব এবং সম্পর্ক বোঝায়।
- Model Fit Statistics:
- মডেলের মানানসই (goodness of fit) এবং বিভিন্ন পরিমাপ যেমন AIC, BIC, এবং Chi-square পরীক্ষার ফলাফল।
Odds Ratio
Odds Ratio (OR) হল একটি পরিসংখ্যানগত পরিমাপ যা একটি নির্দিষ্ট ভেরিয়েবলের জন্য আউটকাম ভেরিয়েবল পরিবর্তন করার সম্ভাবনা বোঝায়। এটি সাধারণত এইভাবে হিসাব করা হয়:
- Odds Ratio > 1 হলে আউটকাম ঘটার সম্ভাবনা বাড়ে।
- Odds Ratio < 1 হলে আউটকাম ঘটার সম্ভাবনা কমে।
উদাহরণ: Odds Ratio Calculation
Parameter Estimate for Age = 0.05
Odds Ratio for Age = exp(0.05) = 1.051
এখানে, যদি Age এর odds ratio 1.051 হয়, তাহলে প্রতিটি বছর বৃদ্ধির সাথে রোগী হওয়ার সম্ভাবনা ৫.১% বৃদ্ধি পাবে।
১. Multivariable Logistic Regression
এটি তখন ব্যবহৃত হয় যখন আপনি একাধিক স্বাধীন ভেরিয়েবল নিয়ে Logistic Regression মডেল তৈরি করতে চান। এই ধরনের মডেলটি বিভিন্ন ভেরিয়েবল একসাথে বিশ্লেষণ করতে সহায়ক।
উদাহরণ: Multivariable Logistic Regression
proc logistic data=work.patient_data;
model disease_status(event='1') = age gender cholesterol_level blood_pressure smoking_status;
run;
এখানে:
event='1'দ্বারা আউটকাম ভেরিয়েবল 1 (রোগী) কে একটি ইভেন্ট হিসেবে নির্দিষ্ট করা হচ্ছে।- এটি আউটকাম ভেরিয়েবল
disease_statusএর উপর age, gender, cholesterol_level, blood_pressure, এবং smoking_status এর প্রভাব বিশ্লেষণ করবে।
২. Checking Model Fit
মডেলটির উপযুক্ততা নিশ্চিত করার জন্য মডেল ফিট পরিমাপ এবং পরিসংখ্যানের মাধ্যমে সঠিকতার বিশ্লেষণ করা যেতে পারে। এটি Goodness-of-Fit Statistics এবং Chi-Square Test দ্বারা মূল্যায়ন করা হয়।
proc logistic data=work.patient_data;
model disease_status = age gender cholesterol_level blood_pressure;
output out=predicted_values p=predicted_probabilities;
run;
এখানে:
- output স্টেটমেন্টটি predicted_probabilities নামে একটি নতুন ভেরিয়েবল তৈরি করবে, যা রোগী হওয়ার পূর্বাভাসযোগ্য সম্ভাবনা (probability) ধারণ করবে।
সারাংশ
SAS-এ PROC LOGISTIC ব্যবহৃত হয় Logistic Regression মডেল তৈরি করতে, যা বাইনারি আউটকাম ভেরিয়েবলের উপর ভিত্তি করে পূর্বাভাস করতে সহায়তা করে। এটি একটি শক্তিশালী টুল, যা স্বাধীন ভেরিয়েবলগুলির প্রভাব বিশ্লেষণ করে আউটকাম ভেরিয়েবলের সম্ভাবনা নির্ধারণ করে।
- Odds Ratio এই প্রক্রিয়ায় ব্যবহৃত হয়, যা আউটকাম ভেরিয়েবলের সম্ভাবনা পরিবর্তনকারী ফ্যাক্টর হিসেবেও কাজ করে।
- Model Fit Statistics ব্যবহার করে মডেলের উপযুক্ততা চেক করা যায়।
এটি পরিসংখ্যানগত বিশ্লেষণ এবং ভবিষ্যদ্বাণী তৈরি করতে অত্যন্ত কার্যকরী এবং প্রভাবশালী একটি পদ্ধতি।
Analysis of Variance (ANOVA) হল একটি পরিসংখ্যানগত পদ্ধতি যা একাধিক গ্রুপের মধ্যে গড়ের পার্থক্য পরীক্ষা করতে ব্যবহৃত হয়। ANOVA পরীক্ষার মাধ্যমে আপনি নির্ধারণ করতে পারেন যে বিভিন্ন গ্রুপের মধ্যে গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা। SAS-এ PROC ANOVA এই পরিসংখ্যানগত পরীক্ষাটি সম্পাদন করার জন্য ব্যবহৃত হয়।
PROC ANOVA সাধারণত একটি একক ভেরিয়েবলের (one-way ANOVA) এবং একাধিক ভেরিয়েবলের (two-way ANOVA) মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য ব্যবহৃত হয়।
PROC ANOVA এর গঠন
PROC ANOVA এর সাধারণ সিনট্যাক্স:
PROC ANOVA DATA=dataset;
CLASS categorical_variable;
MODEL dependent_variable = categorical_variable;
MEANS categorical_variable / TUKEY;
RUN;
এখানে:
- DATA=dataset: ডেটাসেট যা আপনি বিশ্লেষণ করতে চান।
- CLASS categorical_variable: যে ক্যাটাগরিক্যাল ভেরিয়েবলটি আপনি গ্রুপ হিসেবে ব্যবহার করবেন।
- MODEL dependent_variable = categorical_variable: নির্ভরশীল ভেরিয়েবল এবং ক্যাটাগরিক্যাল ভেরিয়েবলের মধ্যে সম্পর্ক নির্ধারণ করা।
- MEANS categorical_variable: গড়ের তুলনা এবং বিভিন্ন গ্রুপের মধ্যে গড়ের পার্থক্য পরীক্ষা করা।
- TUKEY: গ্রুপগুলির মধ্যে গড়ের তুলনা করতে Tukey's HSD (Honestly Significant Difference) টেস্ট চালানো।
১. One-Way ANOVA Example (একক ভেরিয়েবলের মাধ্যমে ANOVA)
ধরা যাক, আমরা জানি কিছু ভিন্ন ধরনের প্রশিক্ষণ পদ্ধতির (Training Method) পারফরম্যান্স (Exam Scores) উপর কী ধরনের প্রভাব পড়েছে। এখানে, Training Method একটি ক্যাটাগরিক্যাল ভেরিয়েবল এবং Exam Score একটি নির্ভরশীল ভেরিয়েবল হিসেবে কাজ করবে।
উদাহরণ: One-Way ANOVA
data exam_scores;
input Method $ Score;
datalines;
A 80
A 85
A 88
B 90
B 92
B 95
C 78
C 81
C 85
;
run;
PROC ANOVA DATA=exam_scores;
CLASS Method;
MODEL Score = Method;
MEANS Method / TUKEY;
RUN;
এখানে:
Methodহল ক্যাটাগরিক্যাল ভেরিয়েবল (Training Method) যা তিনটি গ্রুপ (A, B, C) এ বিভক্ত।Scoreহল নির্ভরশীল ভেরিয়েবল (Exam Scores) যা ANOVA পরীক্ষা করা হবে।MEANS Method / TUKEY;কমান্ডটি গ্রুপগুলির মধ্যে গড়ের পার্থক্য নির্ধারণ করার জন্য Tukey's HSD টেস্ট ব্যবহার করবে।
আউটপুট:
- ANOVA Table: গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা তা জানাবে।
- Tukey's HSD: গড়ের তুলনা করে দেখাবে কোন দুটি গ্রুপের মধ্যে পার্থক্য রয়েছে।
২. Two-Way ANOVA Example (দ্বৈত ভেরিয়েবলের মাধ্যমে ANOVA)
Two-way ANOVA দুটি স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক এবং তাদের পারস্পরিক প্রভাব পরীক্ষা করে। ধরুন, একটি ডেটাসেটে প্রশিক্ষণ পদ্ধতি (Training Method) এবং ছাত্রদের লিঙ্গ (Gender) দুটি ভেরিয়েবল আছে, এবং আমরা জানতে চাই, এই দুটি ভেরিয়েবল একে অপরের সাথে মিলিতভাবে পরীক্ষার ফলাফলে (Exam Score) কী প্রভাব ফেলছে।
উদাহরণ: Two-Way ANOVA
data exam_scores;
input Method $ Gender $ Score;
datalines;
A M 80
A F 85
A M 88
B M 90
B F 92
B M 95
C F 78
C M 81
C F 85
;
run;
PROC ANOVA DATA=exam_scores;
CLASS Method Gender;
MODEL Score = Method|Gender;
MEANS Method Gender / TUKEY;
RUN;
এখানে:
MethodএবংGenderদুটি ক্যাটাগরিক্যাল ভেরিয়েবল হিসেবে কাজ করছে।Scoreহল নির্ভরশীল ভেরিয়েবল (Exam Scores) যা আমরা পরীক্ষা করছি।MODEL Score = Method|Gender;দ্বারা আমরা দুটি ভেরিয়েবল এবং তাদের মধ্যে ইন্টারঅ্যাকশন পরীক্ষা করছি।MEANS Method Gender / TUKEY;কমান্ডটি দুইটি ভেরিয়েবলের গড়ের তুলনা করবে।
আউটপুট:
- Main Effects:
MethodএবংGenderএর আলাদা আলাদা প্রভাব দেখাবে। - Interaction Effects:
MethodএবংGenderএর মধ্যে পারস্পরিক প্রভাব পর্যালোচনা করবে। - Tukey's HSD: গ্রুপগুলোর মধ্যে গড়ের পার্থক্য দেখাবে।
৩. Post-Hoc Test
Post-hoc পরীক্ষা (যেমন Tukey, Bonferroni) ANOVA এর পরে ব্যবহৃত হয়, যেখানে একাধিক গ্রুপের মধ্যে গড়ের তুলনা করা হয়। SAS-এ Tukey's HSD একটি জনপ্রিয় post-hoc পরীক্ষা যা একে অপরের মধ্যে গড়ের পার্থক্য পরিমাপ করতে সাহায্য করে।
উদাহরণ: Post-Hoc Test (Tukey)
PROC ANOVA DATA=exam_scores;
CLASS Method;
MODEL Score = Method;
MEANS Method / TUKEY; /* Tukey's HSD Test */
RUN;
এখানে:
- Tukey's HSD Test ব্যবহার করা হচ্ছে গ্রুপগুলোর মধ্যে গড়ের পার্থক্য যাচাই করার জন্য।
সারাংশ
PROC ANOVA ব্যবহার করে আপনি Analysis of Variance (ANOVA) পরীক্ষা করতে পারেন, যা গ্রুপগুলির মধ্যে গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা তা যাচাই করে। SAS-এ ANOVA পরীক্ষার মাধ্যমে আপনি একক ভেরিয়েবল (One-Way ANOVA) এবং একাধিক ভেরিয়েবলের (Two-Way ANOVA) মধ্যে সম্পর্ক এবং তাদের পারস্পরিক প্রভাব পরীক্ষা করতে পারেন। Tukey's HSD সহ post-hoc টেস্টের মাধ্যমে আপনি গ্রুপগুলির মধ্যে গড়ের তুলনা করতে পারেন। ANOVA একটি অত্যন্ত গুরুত্বপূর্ণ পরিসংখ্যানগত টেস্ট যা বিভিন্ন বৈজ্ঞানিক গবেষণা, ব্যবসায়িক বিশ্লেষণ, এবং অন্যান্য ক্ষেত্রগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।
Read more