SAS Statistical Procedures

স্যাস (SAS) - Big Data and Analytics

419

SAS (Statistical Analysis System) একটি শক্তিশালী সফটওয়্যার যা পরিসংখ্যানগত বিশ্লেষণ (statistical analysis) এবং ডেটা ম্যানিপুলেশন করতে ব্যবহৃত হয়। SAS-এর Statistical Procedures (PROC) আপনাকে বিভিন্ন পরিসংখ্যানগত বিশ্লেষণ সম্পাদন করতে সাহায্য করে, যেমন ডেটার উপস্থাপনা, মডেলিং, পরীক্ষাগুলি, এবং বিভিন্ন ধরনের পরিসংখ্যানগত পরীক্ষা।

নিচে স্যাসের কিছু জনপ্রিয় পরিসংখ্যানগত প্রসিডিউর (statistical procedures) এবং তাদের ব্যবহার সম্পর্কিত বিস্তারিত আলোচনা করা হলো।

১. PROC MEANS

PROC MEANS ব্যবহার করা হয় একটি ডেটাসেটের জন্য বিভিন্ন পরিসংখ্যানগত পরিমাপ বের করতে, যেমন গড় (Mean), স্ট্যান্ডার্ড ডিভিয়েশন (Standard Deviation), সর্বনিম্ন (Minimum), সর্বাধিক (Maximum), মিডিয়ান (Median), ইত্যাদি।

উদাহরণ:

PROC MEANS DATA=work.sales;
   VAR revenue age;
   OUTPUT OUT=summary_data MEAN=avg_revenue avg_age;
RUN;

এখানে:

VAR স্টেটমেন্টের মাধ্যমে আপনি কোন ভেরিয়েবলের জন্য পরিসংখ্যান বের করতে চান তা নির্ধারণ করেছেন।
OUTPUT স্টেটমেন্টের মাধ্যমে নির্দিষ্ট পরিসংখ্যান যেমন গড় (Mean) সংরক্ষণ করতে পারেন।

২. PROC FREQ

PROC FREQ ব্যবহার করা হয় ক্যাটাগোরিক্যাল ডেটার ফ্রিকোয়েন্সি টেবিল তৈরি করতে। এটি একটি ভেরিয়েবলের বিভিন্ন মানের সংখ্যা এবং তাদের শতাংশ (percentage) বের করতে সহায়তা করে।

উদাহরণ:

PROC FREQ DATA=work.sales;
   TABLES region gender;
RUN;

এখানে:

TABLES স্টেটমেন্টে আপনি যেসব ভেরিয়েবল (যেমন region এবং gender) বিশ্লেষণ করতে চান তা উল্লেখ করেছেন।
এটি সেই ভেরিয়েবলগুলোর ফ্রিকোয়েন্সি টেবিল তৈরি করবে এবং এর মানের বারংবারত্ব দেখাবে।

৩. PROC REG

PROC REG ব্যবহার করা হয় রিগ্রেশন বিশ্লেষণ করার জন্য, যা নির্ধারণ করে কিভাবে এক বা একাধিক স্বাধীন ভেরিয়েবল (independent variables) নির্ভরশীল ভেরিয়েবল (dependent variable) এর মানকে প্রভাবিত করে।

উদাহরণ:

PROC REG DATA=work.sales;
   MODEL revenue = age salary;
RUN;

এখানে:

MODEL স্টেটমেন্টে revenue হল নির্ভরশীল ভেরিয়েবল এবং age, salary স্বাধীন ভেরিয়েবল।
এটি একটি রৈখিক রিগ্রেশন মডেল তৈরি করবে এবং নির্ভরশীল ভেরিয়েবলের উপর স্বাধীন ভেরিয়েবলগুলোর প্রভাব বিশ্লেষণ করবে।

৪. PROC TTEST

PROC TTEST ব্যবহার করা হয় দুইটি গোষ্ঠীর মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য। এটি বিশেষভাবে t-test করার জন্য ব্যবহৃত হয়, যা নির্ধারণ করে যে দুটি গোষ্ঠীর গড় পরিসংখ্যানগতভাবে ভিন্ন কিনা।

উদাহরণ:

PROC TTEST DATA=work.sales;
   CLASS region;
   VAR revenue;
RUN;

এখানে:

CLASS region দ্বারা region ভেরিয়েবলটি দুটি গোষ্ঠীতে ভাগ করা হয়েছে।
VAR revenue দ্বারা আপনি revenue ভেরিয়েবলের গড়ের মধ্যে পার্থক্য পরীক্ষা করছেন।

৫. PROC ANOVA

PROC ANOVA ব্যবহার করা হয় একাধিক গোষ্ঠীর মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য। এটি Analysis of Variance (ANOVA) পরীক্ষা চালায় এবং বিভিন্ন গোষ্ঠীর মধ্যে গড়ের পার্থক্য বিশ্লেষণ করে।

উদাহরণ:

PROC ANOVA DATA=work.sales;
   CLASS region;
   MODEL revenue = region;
RUN;

এখানে:

CLASS region দ্বারা region ভেরিয়েবলটি গোষ্ঠীভুক্ত করা হয়েছে।
MODEL revenue = region দ্বারা revenue ভেরিয়েবলের গড়ের পার্থক্য region ভেরিয়েবলের গোষ্ঠীভুক্ত মানগুলোর মধ্যে পরীক্ষা করা হচ্ছে।

৬. PROC CORR

PROC CORR ব্যবহার করা হয় দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক (correlation) পরীক্ষা করতে। এটি পিয়ারসন কোরেলেশন কোঅফিসিয়েন্ট বের করে, যা ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।

উদাহরণ:

PROC CORR DATA=work.sales;
   VAR age salary revenue;
RUN;

এখানে:

VAR স্টেটমেন্টে আপনি যেসব ভেরিয়েবলের মধ্যে সম্পর্ক পরীক্ষা করতে চান তা উল্লেখ করেছেন।
এটি age, salary, এবং revenue এর মধ্যে সম্পর্কের কোরেলেশন কোঅফিসিয়েন্ট দেখাবে।

৭. PROC LIFETEST

PROC LIFETEST ব্যবহার করা হয় লাইফ টাইম (survival analysis) ডেটা বিশ্লেষণ করতে। এটি সাধারনত মেডিক্যাল গবেষণা বা বিজনেস অ্যানালাইসিসে ব্যবহৃত হয় যেখানে ইভেন্টের সময়কাল পরীক্ষা করা হয়, যেমন একটি রোগের আগমনের সময় বা একটি পণ্যের কার্যকারিতা।

উদাহরণ:

PROC LIFETEST DATA=work.medical;
   TIME survival_time*status(0);
RUN;

এখানে:

TIME স্টেটমেন্টে সময়কাল এবং স্ট্যাটাস (0 বা 1) নির্দিষ্ট করা হয়েছে, যেখানে 0 অর্থাৎ ইভেন্টটি হয়নি এবং 1 অর্থাৎ ইভেন্টটি ঘটেছে।

সারাংশ

SAS-এ Statistical Procedures পরিসংখ্যানগত বিশ্লেষণ এবং ডেটা ম্যানিপুলেশনের জন্য শক্তিশালী টুল সরবরাহ করে। PROC MEANS, PROC FREQ, PROC REG, PROC TTEST, PROC ANOVA, PROC CORR, এবং PROC LIFETEST এর মত প্রক্রিয়াগুলির মাধ্যমে আপনি গাণিতিক পরিসংখ্যান, সম্পর্ক বিশ্লেষণ, রিগ্রেশন, t-test, ANOVA, এবং লাইফটাইম বিশ্লেষণ করতে পারেন। এই প্রসিডিউরগুলি ডেটা বিশ্লেষণের জন্য অত্যন্ত কার্যকরী এবং বিভিন্ন শিল্পে ব্যবহৃত হয়, যেমন স্বাস্থ্যসেবা, ব্যবসা, আর্থিক অ্যানালাইসিস, এবং বিজ্ঞান।

Content added By

Rezwan Siddiki Tamim

PROC MEANS এবং PROC UNIVARIATE এর মাধ্যমে Basic Statistics

381

SAS-এ PROC MEANS এবং PROC UNIVARIATE দুটি অত্যন্ত জনপ্রিয় প্রোসিডিউর (procedure) যা ডেটার মৌলিক পরিসংখ্যান (Basic Statistics) হিসাব করতে ব্যবহৃত হয়। এগুলি পরিসংখ্যানগত বিশ্লেষণ করতে সহায়তা করে যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, মিডিয়ান, শার্পল প্রমাণীকরণ এবং অন্যান্য পরিসংখ্যান।

এই প্রসিডিউরগুলির মাধ্যমে ডেটার বৈশিষ্ট্যগুলি বের করা সহজ এবং দ্রুত হয়ে যায়।

১. PROC MEANS: মৌলিক পরিসংখ্যান হিসাব করা

PROC MEANS ফাংশনটি একাধিক পরিসংখ্যান বের করতে ব্যবহৃত হয়, যেমন গড় (Mean), সর্বনিম্ন (Min), সর্বাধিক (Max), স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation), কুইন্টাইল (Quantiles) ইত্যাদি।

গঠন:

PROC MEANS DATA=dataset_name <options>;
   VAR variable_name;
RUN;

এখানে:

DATA=dataset_name: ডেটাসেটের নাম, যেটি থেকে পরিসংখ্যান বের করতে হবে।
VAR variable_name: যেই ভেরিয়েবলটির পরিসংখ্যান বের করতে হবে, সেটি।

উদাহরণ: PROC MEANS ব্যবহার

PROC MEANS DATA=work.sales;
   VAR revenue age salary;
RUN;

এখানে:

revenue, age, এবং salary ভেরিয়েবলের গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, এবং অন্যান্য পরিসংখ্যান বের করা হবে।

অপশন: PROC MEANS এর অপশন ব্যবহার

PROC MEANS বিভিন্ন অপশন দিয়ে আরো বিশেষভাবে পরিসংখ্যান বের করতে সহায়তা করে।

১. `N` - রেকর্ডের সংখ্যা বের করা

PROC MEANS DATA=work.sales N;
   VAR salary;
RUN;

এখানে, N অপশনটি salary ভেরিয়েবলের রেকর্ডের সংখ্যা (যতটি পরিসংখ্যান আছে) বের করবে।

২. `MIN`, `MAX`, `MEAN`, `STD` - নির্দিষ্ট পরিসংখ্যান বের করা

PROC MEANS DATA=work.sales MIN MAX MEAN STD;
   VAR salary;
RUN;

এখানে:

MIN: সর্বনিম্ন মান।
MAX: সর্বোচ্চ মান।
MEAN: গড়।
STD: স্ট্যান্ডার্ড ডেভিয়েশন।

২. PROC UNIVARIATE: আরও গভীর পরিসংখ্যান বিশ্লেষণ

PROC UNIVARIATE ফাংশনটি আরো গভীর পরিসংখ্যান বিশ্লেষণের জন্য ব্যবহৃত হয়। এটি ডেটার স্বাভাবিকতা (Normality), মিডিয়ান, কিউটাইল, শার্পল টেস্ট এবং আরও অনেক পরিসংখ্যান বের করতে ব্যবহৃত হয়।

গঠন:

PROC UNIVARIATE DATA=dataset_name;
   VAR variable_name;
RUN;

এখানে:

DATA=dataset_name: ডেটাসেটের নাম।
VAR variable_name: যেই ভেরিয়েবলের জন্য পরিসংখ্যান বের করতে হবে।

উদাহরণ: PROC UNIVARIATE ব্যবহার

PROC UNIVARIATE DATA=work.sales;
   VAR revenue;
RUN;

এখানে:

revenue ভেরিয়েবলের জন্য বিভিন্ন পরিসংখ্যান যেমন গড়, মিডিয়ান, কুইন্টাইল, এবং স্বাভাবিকতা টেস্ট (Normality Test) বের করা হবে।

PROC UNIVARIATE এর বিশ্লেষণ

PROC UNIVARIATE এর মাধ্যমে আপনি বিভিন্ন পরিসংখ্যান এবং টেস্ট বের করতে পারেন:

১. স্বাভাবিকতা টেস্ট (Normality Test)

PROC UNIVARIATE DATA=work.sales NORMAL;
   VAR revenue;
RUN;

এখানে:

NORMAL অপশনটি ডেটার স্বাভাবিকতা পরীক্ষা করবে (যেমন শার্পল-ভিলকসন টেস্ট, Anderson-Darling Test)।

২. কিউটাইল এবং মিডিয়ান

PROC UNIVARIATE DATA=work.sales;
   VAR revenue;
   OUTPUT OUT=stats PCTLPTS=25 50 75 PCTLPRE=Q;
RUN;

এখানে:

PCTLPTS=25 50 75: ২৫%, ৫০%, এবং ৭৫% কিউটাইল (Quintiles) বের করা হচ্ছে।
PCTLPRE=Q: কিউটাইলের জন্য পূর্বনির্ধারিত মান (Q25, Q50, Q75) আউটপুট ফাইলে সংরক্ষণ করা হবে।

সারাংশ

SAS-এ PROC MEANS এবং PROC UNIVARIATE দুটি অত্যন্ত গুরুত্বপূর্ণ প্রসিডিউর যা মৌলিক পরিসংখ্যান বের করতে ব্যবহৃত হয়:

PROC MEANS সাধারণত গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম, ইত্যাদি পরিসংখ্যান বের করার জন্য ব্যবহৃত হয়।
PROC UNIVARIATE আরও গভীর পরিসংখ্যান বিশ্লেষণ করতে ব্যবহৃত হয়, যেমন স্বাভাবিকতা টেস্ট, মিডিয়ান, কিউটাইল, এবং আরও অনেক পরিসংখ্যান।

এই দুটি প্রসিডিউর ব্যবহার করে আপনি ডেটার বৈশিষ্ট্যগুলি সহজে বিশ্লেষণ করতে পারবেন এবং পরবর্তী বিশ্লেষণের জন্য উপযোগী তথ্য পেতে সহায়তা করবে।

Content added By

Rezwan Siddiki Tamim

PROC REG এর মাধ্যমে Linear Regression

345

PROC REG একটি গুরুত্বপূর্ণ SAS procedure যা লিনিয়ার রিগ্রেশন মডেল তৈরি করতে ব্যবহৃত হয়। লিনিয়ার রিগ্রেশন একটি পরিসংখ্যানগত পদ্ধতি, যা নির্দিষ্ট এক বা একাধিক স্বাধীন ভেরিয়েবলের (independent variables) মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের (dependent variable) মান পূর্বাভাস বা অনুমান করতে ব্যবহৃত হয়।

লিনিয়ার রিগ্রেশন মডেলটি সাধারণত নীচের সমীকরণের মাধ্যমে প্রকাশ করা হয়:

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon$

এখানে:

Y: নির্ভরশীল ভেরিয়েবল (dependent variable)
X₁, X₂, ... Xₙ: স্বাধীন ভেরিয়েবল (independent variables)
β₀, β₁, β₂, ... βₙ: রিগ্রেশন কোঅফিসিয়েন্ট (regression coefficients)
ε: ত্রুটি বা বাকি অংশ (error term)

PROC REG এর মাধ্যমে Linear Regression মডেল তৈরি

SAS-এ PROC REG ব্যবহার করে সহজেই লিনিয়ার রিগ্রেশন মডেল তৈরি করা যায়। এখানে আমরা একটি উদাহরণ দিয়ে দেখব কিভাবে PROC REG ব্যবহার করা হয়।

PROC REG এর মৌলিক সিনট্যাক্স

PROC REG DATA=dataset_name;
   MODEL dependent_variable = independent_variables;
RUN;

DATA=dataset_name: যেখানে আপনার ডেটাসেট সংরক্ষিত আছে।
MODEL dependent_variable = independent_variables: এখানে আপনি নির্ভরশীল ভেরিয়েবল এবং স্বাধীন ভেরিয়েবলের নাম উল্লেখ করবেন।

উদাহরণ: Simple Linear Regression

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে যেখানে Sales (বিক্রয়) নির্ভরশীল ভেরিয়েবল এবং Advertising (বিজ্ঞাপন খরচ) একটি স্বাধীন ভেরিয়েবল হিসেবে রয়েছে। আমাদের উদ্দেশ্য হল বিজ্ঞাপন খরচের উপর ভিত্তি করে বিক্রয়ের পূর্বাভাস তৈরি করা।

PROC REG DATA=work.sales_data;
   MODEL Sales = Advertising;
RUN;

এখানে:

Sales হল নির্ভরশীল ভেরিয়েবল (Y)।
Advertising হল স্বাধীন ভেরিয়েবল (X)।
এই কোডটি একটি সিম্পল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং বিজ্ঞাপন খরচের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।

Multiple Linear Regression

যদি একাধিক স্বাধীন ভেরিয়েবল থাকে, তবে Multiple Linear Regression তৈরি করা যায়। উদাহরণস্বরূপ, যদি আমাদের কাছে বিক্রয় (Sales) এবং বিজ্ঞাপন খরচ (Advertising), দাম (Price), এবং মৌসুম (Season) নামে আরো কিছু স্বাধীন ভেরিয়েবল থাকে, তবে কোডটি হবে:

PROC REG DATA=work.sales_data;
   MODEL Sales = Advertising Price Season;
RUN;

এখানে:

Sales হল নির্ভরশীল ভেরিয়েবল।
Advertising, Price, এবং Season হল স্বাধীন ভেরিয়েবল।

এই কোডটি একটি মাল্টিপল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং অন্যান্য ফ্যাক্টরের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।

Output এবং গুরুত্বপূর্ণ পরিসংখ্যান

PROC REG এর আউটপুটে অনেক গুরুত্বপূর্ণ পরিসংখ্যান পাওয়া যায়, যা মডেলের কার্যকারিতা মূল্যায়ন করতে সহায়ক। কিছু গুরুত্বপূর্ণ আউটপুট:

Parameter Estimates:
- রিগ্রেশন কোঅফিসিয়েন্ট এবং তাদের মান।
R-Square:
- মডেলটি কতটুকু বৈশ্বিক ভ্যারিয়েশন ব্যাখ্যা করতে সক্ষম (যত বেশি R², তত ভালো মডেল)।
p-Value:
- প্রতিটি স্বাধীন ভেরিয়েবলের গুরুত্বপূর্ণতা পরীক্ষা করতে ব্যবহৃত হয়। সাধারনত p-value ≤ 0.05 মানে সেই ভেরিয়েবল গুরুত্বপূর্ণ।
F-statistic:
- পুরো মডেলের কার্যকারিতা পরীক্ষা করতে ব্যবহৃত হয়।

উদাহরণ: বিশ্লেষণ আউটপুট

PROC REG DATA=work.sales_data;
   MODEL Sales = Advertising Price Season;
   OUTPUT OUT=work.reg_output PREDICTED=predicted_values RESIDUAL=residuals;
RUN;

এখানে:

PREDICTED: মডেল দ্বারা পূর্বাভাসিত মান।
RESIDUAL: পূর্বাভাসিত মান এবং আসল মানের মধ্যে পার্থক্য (ত্রুটি)।

এই কোডটি একটি নতুন ডেটাসেট তৈরি করবে যার মধ্যে পূর্বাভাসিত মান এবং ত্রুটিগুলি থাকবে।

সারাংশ

SAS-এ PROC REG ব্যবহার করে লিনিয়ার রিগ্রেশন মডেল তৈরি করা খুবই সহজ। এটি ডেটা বিশ্লেষণে একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক চিহ্নিত করতে সহায়তা করে। আপনি Simple Linear Regression (একটি স্বাধীন ভেরিয়েবল) এবং Multiple Linear Regression (একাধিক স্বাধীন ভেরিয়েবল) করতে পারেন।

R-Square এবং p-Value সহ গুরুত্বপূর্ণ পরিসংখ্যান বিশ্লেষণ মডেলের কার্যকারিতা পরিমাপ করতে সহায়তা করে।
PROC REG এর আউটপুটে আপনি পূর্বাভাসিত মান এবং ত্রুটিগুলি অন্তর্ভুক্ত করতে পারেন, যা ভবিষ্যতের পূর্বাভাসের জন্য ব্যবহার করা যেতে পারে।

এই ফিচারগুলো ব্যবহার করে আপনি অত্যন্ত শক্তিশালী পরিসংখ্যানগত বিশ্লেষণ করতে পারবেন।

Content added By

Rezwan Siddiki Tamim

PROC LOGISTIC এর মাধ্যমে Logistic Regression

290

Logistic Regression একটি পরিসংখ্যানগত পদ্ধতি যা নির্দিষ্ট আউটকাম বা শ্রেণীবিভাগের জন্য পূর্বাভাস তৈরি করতে ব্যবহৃত হয়, যেখানে আউটকামটি সাধারণত দুটি শ্রেণী বা বাইনারি (binary) হয়। এটি PROC LOGISTIC ব্যবহৃত হয় স্যাসে (SAS) বাইনারি আউটকাম ভেরিয়েবল (যেমন: হ্যাঁ/না, সত্য/মিথ্যা, ১/০) বিশ্লেষণ করতে।

Logistic Regression মডেলটি ভবিষ্যদ্বাণী করতে ব্যবহৃত হয় যেখানে ডিপেন্ডেন্ট ভেরিয়েবল বা আউটকাম ভেরিয়েবল একটি ক্যাটাগোরিক্যাল ভেরিয়েবল হয়। এই মডেলটি আউটকাম ভেরিয়েবল (যেমন: বর্ণনামূলক ‘সুস্থ’ বা ‘অসুস্থ’) এর উপর নির্ভরশীল ভেরিয়েবলগুলি বিশ্লেষণ করে।

PROC LOGISTIC এর গঠন

PROC LOGISTIC এর সাধারণ গঠন এইরকম:

proc logistic data=dataset;
   model dependent_variable = independent_variable1 independent_variable2 ...;
run;

data=dataset: আপনার ডেটাসেটের নাম।
model dependent_variable: এটি আউটকাম ভেরিয়েবল, যেটি আপনি পূর্বাভাস করতে চান।
independent_variable1, independent_variable2: স্বাধীন ভেরিয়েবলগুলি, যা আউটকাম ভেরিয়েবলকে প্রভাবিত করে।

Logistic Regression এর উদাহরণ

ধরা যাক, একটি ডেটাসেটে রোগী (patient) এর তথ্য রয়েছে, এবং আপনি পূর্বাভাস করতে চান যে রোগীটি রোগী কিনা (1 = রোগী, 0 = সুস্থ)।

উদাহরণ: বাইনারি Logistic Regression

proc logistic data=work.patient_data;
   model disease_status = age gender cholesterol_level blood_pressure;
run;

এখানে:

disease_status হল আউটকাম ভেরিয়েবল, যা রোগী (1) বা সুস্থ (0) হতে পারে।
age, gender, cholesterol_level, এবং blood_pressure হল স্বাধীন ভেরিয়েবল, যা রোগীর অবস্থা প্রভাবিত করতে পারে।

এটি রোগীর রোগে আক্রান্ত হওয়ার সম্ভাবনা পূর্বাভাস করার জন্য Logistic Regression মডেল তৈরি করবে।

Logistic Regression Model Output

PROC LOGISTIC এর আউটপুট সাধারণত কয়েকটি অংশে বিভক্ত থাকে:

Model Information:
- মডেলের ধরন এবং আউটকাম ভেরিয়েবল সহ বিভিন্ন তথ্য প্রদান করা হয়।
Odds Ratios:
- আউটকাম ভেরিয়েবলের জন্য স্বাধীন ভেরিয়েবলের odds ratio প্রদান করা হয়, যা আউটকাম পরিবর্তন করার সম্ভাবনা নির্ধারণ করে।
Parameter Estimates:
- প্রতিটি ভেরিয়েবলের জন্য প্যারামিটার ইস্টিমেট এবং তাদের p-value দেওয়া হয়, যা প্রতিটি ভেরিয়েবলের গুরুত্ব এবং সম্পর্ক বোঝায়।
Model Fit Statistics:
- মডেলের মানানসই (goodness of fit) এবং বিভিন্ন পরিমাপ যেমন AIC, BIC, এবং Chi-square পরীক্ষার ফলাফল।

Odds Ratio

Odds Ratio (OR) হল একটি পরিসংখ্যানগত পরিমাপ যা একটি নির্দিষ্ট ভেরিয়েবলের জন্য আউটকাম ভেরিয়েবল পরিবর্তন করার সম্ভাবনা বোঝায়। এটি সাধারণত এইভাবে হিসাব করা হয়:

Odds Ratio > 1 হলে আউটকাম ঘটার সম্ভাবনা বাড়ে।
Odds Ratio < 1 হলে আউটকাম ঘটার সম্ভাবনা কমে।

উদাহরণ: Odds Ratio Calculation

Parameter Estimate for Age = 0.05
Odds Ratio for Age = exp(0.05) = 1.051

এখানে, যদি Age এর odds ratio 1.051 হয়, তাহলে প্রতিটি বছর বৃদ্ধির সাথে রোগী হওয়ার সম্ভাবনা ৫.১% বৃদ্ধি পাবে।

১. Multivariable Logistic Regression

এটি তখন ব্যবহৃত হয় যখন আপনি একাধিক স্বাধীন ভেরিয়েবল নিয়ে Logistic Regression মডেল তৈরি করতে চান। এই ধরনের মডেলটি বিভিন্ন ভেরিয়েবল একসাথে বিশ্লেষণ করতে সহায়ক।

উদাহরণ: Multivariable Logistic Regression

proc logistic data=work.patient_data;
   model disease_status(event='1') = age gender cholesterol_level blood_pressure smoking_status;
run;

এখানে:

event='1' দ্বারা আউটকাম ভেরিয়েবল 1 (রোগী) কে একটি ইভেন্ট হিসেবে নির্দিষ্ট করা হচ্ছে।
এটি আউটকাম ভেরিয়েবল disease_status এর উপর age, gender, cholesterol_level, blood_pressure, এবং smoking_status এর প্রভাব বিশ্লেষণ করবে।

২. Checking Model Fit

মডেলটির উপযুক্ততা নিশ্চিত করার জন্য মডেল ফিট পরিমাপ এবং পরিসংখ্যানের মাধ্যমে সঠিকতার বিশ্লেষণ করা যেতে পারে। এটি Goodness-of-Fit Statistics এবং Chi-Square Test দ্বারা মূল্যায়ন করা হয়।

proc logistic data=work.patient_data;
   model disease_status = age gender cholesterol_level blood_pressure;
   output out=predicted_values p=predicted_probabilities;
run;

এখানে:

output স্টেটমেন্টটি predicted_probabilities নামে একটি নতুন ভেরিয়েবল তৈরি করবে, যা রোগী হওয়ার পূর্বাভাসযোগ্য সম্ভাবনা (probability) ধারণ করবে।

সারাংশ

SAS-এ PROC LOGISTIC ব্যবহৃত হয় Logistic Regression মডেল তৈরি করতে, যা বাইনারি আউটকাম ভেরিয়েবলের উপর ভিত্তি করে পূর্বাভাস করতে সহায়তা করে। এটি একটি শক্তিশালী টুল, যা স্বাধীন ভেরিয়েবলগুলির প্রভাব বিশ্লেষণ করে আউটকাম ভেরিয়েবলের সম্ভাবনা নির্ধারণ করে।

Odds Ratio এই প্রক্রিয়ায় ব্যবহৃত হয়, যা আউটকাম ভেরিয়েবলের সম্ভাবনা পরিবর্তনকারী ফ্যাক্টর হিসেবেও কাজ করে।
Model Fit Statistics ব্যবহার করে মডেলের উপযুক্ততা চেক করা যায়।

এটি পরিসংখ্যানগত বিশ্লেষণ এবং ভবিষ্যদ্বাণী তৈরি করতে অত্যন্ত কার্যকরী এবং প্রভাবশালী একটি পদ্ধতি।

Content added By

Rezwan Siddiki Tamim

PROC ANOVA এর মাধ্যমে Analysis of Variance

337

Analysis of Variance (ANOVA) হল একটি পরিসংখ্যানগত পদ্ধতি যা একাধিক গ্রুপের মধ্যে গড়ের পার্থক্য পরীক্ষা করতে ব্যবহৃত হয়। ANOVA পরীক্ষার মাধ্যমে আপনি নির্ধারণ করতে পারেন যে বিভিন্ন গ্রুপের মধ্যে গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা। SAS-এ PROC ANOVA এই পরিসংখ্যানগত পরীক্ষাটি সম্পাদন করার জন্য ব্যবহৃত হয়।

PROC ANOVA সাধারণত একটি একক ভেরিয়েবলের (one-way ANOVA) এবং একাধিক ভেরিয়েবলের (two-way ANOVA) মধ্যে গড়ের পার্থক্য পরীক্ষা করার জন্য ব্যবহৃত হয়।

PROC ANOVA এর গঠন

PROC ANOVA এর সাধারণ সিনট্যাক্স:

PROC ANOVA DATA=dataset;
   CLASS categorical_variable;
   MODEL dependent_variable = categorical_variable;
   MEANS categorical_variable / TUKEY;
RUN;

এখানে:

DATA=dataset: ডেটাসেট যা আপনি বিশ্লেষণ করতে চান।
CLASS categorical_variable: যে ক্যাটাগরিক্যাল ভেরিয়েবলটি আপনি গ্রুপ হিসেবে ব্যবহার করবেন।
MODEL dependent_variable = categorical_variable: নির্ভরশীল ভেরিয়েবল এবং ক্যাটাগরিক্যাল ভেরিয়েবলের মধ্যে সম্পর্ক নির্ধারণ করা।
MEANS categorical_variable: গড়ের তুলনা এবং বিভিন্ন গ্রুপের মধ্যে গড়ের পার্থক্য পরীক্ষা করা।
TUKEY: গ্রুপগুলির মধ্যে গড়ের তুলনা করতে Tukey's HSD (Honestly Significant Difference) টেস্ট চালানো।

১. One-Way ANOVA Example (একক ভেরিয়েবলের মাধ্যমে ANOVA)

ধরা যাক, আমরা জানি কিছু ভিন্ন ধরনের প্রশিক্ষণ পদ্ধতির (Training Method) পারফরম্যান্স (Exam Scores) উপর কী ধরনের প্রভাব পড়েছে। এখানে, Training Method একটি ক্যাটাগরিক্যাল ভেরিয়েবল এবং Exam Score একটি নির্ভরশীল ভেরিয়েবল হিসেবে কাজ করবে।

উদাহরণ: One-Way ANOVA

data exam_scores;
   input Method $ Score;
   datalines;
A 80
A 85
A 88
B 90
B 92
B 95
C 78
C 81
C 85
;
run;

PROC ANOVA DATA=exam_scores;
   CLASS Method;
   MODEL Score = Method;
   MEANS Method / TUKEY;
RUN;

এখানে:

Method হল ক্যাটাগরিক্যাল ভেরিয়েবল (Training Method) যা তিনটি গ্রুপ (A, B, C) এ বিভক্ত।
Score হল নির্ভরশীল ভেরিয়েবল (Exam Scores) যা ANOVA পরীক্ষা করা হবে।
MEANS Method / TUKEY; কমান্ডটি গ্রুপগুলির মধ্যে গড়ের পার্থক্য নির্ধারণ করার জন্য Tukey's HSD টেস্ট ব্যবহার করবে।

আউটপুট:

ANOVA Table: গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা তা জানাবে।
Tukey's HSD: গড়ের তুলনা করে দেখাবে কোন দুটি গ্রুপের মধ্যে পার্থক্য রয়েছে।

২. Two-Way ANOVA Example (দ্বৈত ভেরিয়েবলের মাধ্যমে ANOVA)

Two-way ANOVA দুটি স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক এবং তাদের পারস্পরিক প্রভাব পরীক্ষা করে। ধরুন, একটি ডেটাসেটে প্রশিক্ষণ পদ্ধতি (Training Method) এবং ছাত্রদের লিঙ্গ (Gender) দুটি ভেরিয়েবল আছে, এবং আমরা জানতে চাই, এই দুটি ভেরিয়েবল একে অপরের সাথে মিলিতভাবে পরীক্ষার ফলাফলে (Exam Score) কী প্রভাব ফেলছে।

উদাহরণ: Two-Way ANOVA

data exam_scores;
   input Method $ Gender $ Score;
   datalines;
A M 80
A F 85
A M 88
B M 90
B F 92
B M 95
C F 78
C M 81
C F 85
;
run;

PROC ANOVA DATA=exam_scores;
   CLASS Method Gender;
   MODEL Score = Method|Gender;
   MEANS Method Gender / TUKEY;
RUN;

এখানে:

Method এবং Gender দুটি ক্যাটাগরিক্যাল ভেরিয়েবল হিসেবে কাজ করছে।
Score হল নির্ভরশীল ভেরিয়েবল (Exam Scores) যা আমরা পরীক্ষা করছি।
MODEL Score = Method|Gender; দ্বারা আমরা দুটি ভেরিয়েবল এবং তাদের মধ্যে ইন্টারঅ্যাকশন পরীক্ষা করছি।
MEANS Method Gender / TUKEY; কমান্ডটি দুইটি ভেরিয়েবলের গড়ের তুলনা করবে।

আউটপুট:

Main Effects: Method এবং Gender এর আলাদা আলাদা প্রভাব দেখাবে।
Interaction Effects: Method এবং Gender এর মধ্যে পারস্পরিক প্রভাব পর্যালোচনা করবে।
Tukey's HSD: গ্রুপগুলোর মধ্যে গড়ের পার্থক্য দেখাবে।

৩. Post-Hoc Test

Post-hoc পরীক্ষা (যেমন Tukey, Bonferroni) ANOVA এর পরে ব্যবহৃত হয়, যেখানে একাধিক গ্রুপের মধ্যে গড়ের তুলনা করা হয়। SAS-এ Tukey's HSD একটি জনপ্রিয় post-hoc পরীক্ষা যা একে অপরের মধ্যে গড়ের পার্থক্য পরিমাপ করতে সাহায্য করে।

উদাহরণ: Post-Hoc Test (Tukey)

PROC ANOVA DATA=exam_scores;
   CLASS Method;
   MODEL Score = Method;
   MEANS Method / TUKEY;  /* Tukey's HSD Test */
RUN;

এখানে:

Tukey's HSD Test ব্যবহার করা হচ্ছে গ্রুপগুলোর মধ্যে গড়ের পার্থক্য যাচাই করার জন্য।

সারাংশ

PROC ANOVA ব্যবহার করে আপনি Analysis of Variance (ANOVA) পরীক্ষা করতে পারেন, যা গ্রুপগুলির মধ্যে গড়ের পার্থক্য পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ কিনা তা যাচাই করে। SAS-এ ANOVA পরীক্ষার মাধ্যমে আপনি একক ভেরিয়েবল (One-Way ANOVA) এবং একাধিক ভেরিয়েবলের (Two-Way ANOVA) মধ্যে সম্পর্ক এবং তাদের পারস্পরিক প্রভাব পরীক্ষা করতে পারেন। Tukey's HSD সহ post-hoc টেস্টের মাধ্যমে আপনি গ্রুপগুলির মধ্যে গড়ের তুলনা করতে পারেন। ANOVA একটি অত্যন্ত গুরুত্বপূর্ণ পরিসংখ্যানগত টেস্ট যা বিভিন্ন বৈজ্ঞানিক গবেষণা, ব্যবসায়িক বিশ্লেষণ, এবং অন্যান্য ক্ষেত্রগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।

Content added By

Rezwan Siddiki Tamim

SAS এর পরিচিতি SAS Installation এবং Setup SAS Program Structure AS Datasets এর ধারণা SAS এ Data Import এবং Export

SAS Statistical Procedures

১. PROC MEANS

উদাহরণ:

২. PROC FREQ

উদাহরণ:

৩. PROC REG

উদাহরণ:

৪. PROC TTEST

উদাহরণ:

৫. PROC ANOVA

উদাহরণ:

৬. PROC CORR

উদাহরণ:

৭. PROC LIFETEST

উদাহরণ:

সারাংশ

PROC MEANS এবং PROC UNIVARIATE এর মাধ্যমে Basic Statistics

১. PROC MEANS: মৌলিক পরিসংখ্যান হিসাব করা

গঠন:

উদাহরণ: PROC MEANS ব্যবহার

অপশন: PROC MEANS এর অপশন ব্যবহার

১. N - রেকর্ডের সংখ্যা বের করা

২. MIN, MAX, MEAN, STD - নির্দিষ্ট পরিসংখ্যান বের করা

২. PROC UNIVARIATE: আরও গভীর পরিসংখ্যান বিশ্লেষণ

গঠন:

উদাহরণ: PROC UNIVARIATE ব্যবহার

PROC UNIVARIATE এর বিশ্লেষণ

১. স্বাভাবিকতা টেস্ট (Normality Test)

২. কিউটাইল এবং মিডিয়ান

সারাংশ

PROC REG এর মাধ্যমে Linear Regression

PROC REG এর মাধ্যমে Linear Regression মডেল তৈরি

PROC REG এর মৌলিক সিনট্যাক্স

উদাহরণ: Simple Linear Regression

Multiple Linear Regression

Output এবং গুরুত্বপূর্ণ পরিসংখ্যান

উদাহরণ: বিশ্লেষণ আউটপুট

সারাংশ

PROC LOGISTIC এর মাধ্যমে Logistic Regression

PROC LOGISTIC এর গঠন

Logistic Regression এর উদাহরণ

উদাহরণ: বাইনারি Logistic Regression

Logistic Regression Model Output

Odds Ratio

উদাহরণ: Odds Ratio Calculation

১. Multivariable Logistic Regression

উদাহরণ: Multivariable Logistic Regression

২. Checking Model Fit

সারাংশ

PROC ANOVA এর মাধ্যমে Analysis of Variance

PROC ANOVA এর গঠন

১. One-Way ANOVA Example (একক ভেরিয়েবলের মাধ্যমে ANOVA)

উদাহরণ: One-Way ANOVA

আউটপুট:

২. Two-Way ANOVA Example (দ্বৈত ভেরিয়েবলের মাধ্যমে ANOVA)

উদাহরণ: Two-Way ANOVA

আউটপুট:

৩. Post-Hoc Test

উদাহরণ: Post-Hoc Test (Tukey)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

১. `N` - রেকর্ডের সংখ্যা বের করা

২. `MIN`, `MAX`, `MEAN`, `STD` - নির্দিষ্ট পরিসংখ্যান বের করা