Logistic Regression একটি পরিসংখ্যানগত পদ্ধতি যা নির্দিষ্ট আউটকাম বা শ্রেণীবিভাগের জন্য পূর্বাভাস তৈরি করতে ব্যবহৃত হয়, যেখানে আউটকামটি সাধারণত দুটি শ্রেণী বা বাইনারি (binary) হয়। এটি PROC LOGISTIC ব্যবহৃত হয় স্যাসে (SAS) বাইনারি আউটকাম ভেরিয়েবল (যেমন: হ্যাঁ/না, সত্য/মিথ্যা, ১/০) বিশ্লেষণ করতে।
Logistic Regression মডেলটি ভবিষ্যদ্বাণী করতে ব্যবহৃত হয় যেখানে ডিপেন্ডেন্ট ভেরিয়েবল বা আউটকাম ভেরিয়েবল একটি ক্যাটাগোরিক্যাল ভেরিয়েবল হয়। এই মডেলটি আউটকাম ভেরিয়েবল (যেমন: বর্ণনামূলক ‘সুস্থ’ বা ‘অসুস্থ’) এর উপর নির্ভরশীল ভেরিয়েবলগুলি বিশ্লেষণ করে।
PROC LOGISTIC এর গঠন
PROC LOGISTIC এর সাধারণ গঠন এইরকম:
proc logistic data=dataset;
model dependent_variable = independent_variable1 independent_variable2 ...;
run;
- data=dataset: আপনার ডেটাসেটের নাম।
- model dependent_variable: এটি আউটকাম ভেরিয়েবল, যেটি আপনি পূর্বাভাস করতে চান।
- independent_variable1, independent_variable2: স্বাধীন ভেরিয়েবলগুলি, যা আউটকাম ভেরিয়েবলকে প্রভাবিত করে।
Logistic Regression এর উদাহরণ
ধরা যাক, একটি ডেটাসেটে রোগী (patient) এর তথ্য রয়েছে, এবং আপনি পূর্বাভাস করতে চান যে রোগীটি রোগী কিনা (1 = রোগী, 0 = সুস্থ)।
উদাহরণ: বাইনারি Logistic Regression
proc logistic data=work.patient_data;
model disease_status = age gender cholesterol_level blood_pressure;
run;
এখানে:
disease_statusহল আউটকাম ভেরিয়েবল, যা রোগী (1) বা সুস্থ (0) হতে পারে।age,gender,cholesterol_level, এবংblood_pressureহল স্বাধীন ভেরিয়েবল, যা রোগীর অবস্থা প্রভাবিত করতে পারে।
এটি রোগীর রোগে আক্রান্ত হওয়ার সম্ভাবনা পূর্বাভাস করার জন্য Logistic Regression মডেল তৈরি করবে।
Logistic Regression Model Output
PROC LOGISTIC এর আউটপুট সাধারণত কয়েকটি অংশে বিভক্ত থাকে:
- Model Information:
- মডেলের ধরন এবং আউটকাম ভেরিয়েবল সহ বিভিন্ন তথ্য প্রদান করা হয়।
- Odds Ratios:
- আউটকাম ভেরিয়েবলের জন্য স্বাধীন ভেরিয়েবলের
odds ratioপ্রদান করা হয়, যা আউটকাম পরিবর্তন করার সম্ভাবনা নির্ধারণ করে।
- আউটকাম ভেরিয়েবলের জন্য স্বাধীন ভেরিয়েবলের
- Parameter Estimates:
- প্রতিটি ভেরিয়েবলের জন্য প্যারামিটার ইস্টিমেট এবং তাদের p-value দেওয়া হয়, যা প্রতিটি ভেরিয়েবলের গুরুত্ব এবং সম্পর্ক বোঝায়।
- Model Fit Statistics:
- মডেলের মানানসই (goodness of fit) এবং বিভিন্ন পরিমাপ যেমন AIC, BIC, এবং Chi-square পরীক্ষার ফলাফল।
Odds Ratio
Odds Ratio (OR) হল একটি পরিসংখ্যানগত পরিমাপ যা একটি নির্দিষ্ট ভেরিয়েবলের জন্য আউটকাম ভেরিয়েবল পরিবর্তন করার সম্ভাবনা বোঝায়। এটি সাধারণত এইভাবে হিসাব করা হয়:
- Odds Ratio > 1 হলে আউটকাম ঘটার সম্ভাবনা বাড়ে।
- Odds Ratio < 1 হলে আউটকাম ঘটার সম্ভাবনা কমে।
উদাহরণ: Odds Ratio Calculation
Parameter Estimate for Age = 0.05
Odds Ratio for Age = exp(0.05) = 1.051
এখানে, যদি Age এর odds ratio 1.051 হয়, তাহলে প্রতিটি বছর বৃদ্ধির সাথে রোগী হওয়ার সম্ভাবনা ৫.১% বৃদ্ধি পাবে।
১. Multivariable Logistic Regression
এটি তখন ব্যবহৃত হয় যখন আপনি একাধিক স্বাধীন ভেরিয়েবল নিয়ে Logistic Regression মডেল তৈরি করতে চান। এই ধরনের মডেলটি বিভিন্ন ভেরিয়েবল একসাথে বিশ্লেষণ করতে সহায়ক।
উদাহরণ: Multivariable Logistic Regression
proc logistic data=work.patient_data;
model disease_status(event='1') = age gender cholesterol_level blood_pressure smoking_status;
run;
এখানে:
event='1'দ্বারা আউটকাম ভেরিয়েবল 1 (রোগী) কে একটি ইভেন্ট হিসেবে নির্দিষ্ট করা হচ্ছে।- এটি আউটকাম ভেরিয়েবল
disease_statusএর উপর age, gender, cholesterol_level, blood_pressure, এবং smoking_status এর প্রভাব বিশ্লেষণ করবে।
২. Checking Model Fit
মডেলটির উপযুক্ততা নিশ্চিত করার জন্য মডেল ফিট পরিমাপ এবং পরিসংখ্যানের মাধ্যমে সঠিকতার বিশ্লেষণ করা যেতে পারে। এটি Goodness-of-Fit Statistics এবং Chi-Square Test দ্বারা মূল্যায়ন করা হয়।
proc logistic data=work.patient_data;
model disease_status = age gender cholesterol_level blood_pressure;
output out=predicted_values p=predicted_probabilities;
run;
এখানে:
- output স্টেটমেন্টটি predicted_probabilities নামে একটি নতুন ভেরিয়েবল তৈরি করবে, যা রোগী হওয়ার পূর্বাভাসযোগ্য সম্ভাবনা (probability) ধারণ করবে।
সারাংশ
SAS-এ PROC LOGISTIC ব্যবহৃত হয় Logistic Regression মডেল তৈরি করতে, যা বাইনারি আউটকাম ভেরিয়েবলের উপর ভিত্তি করে পূর্বাভাস করতে সহায়তা করে। এটি একটি শক্তিশালী টুল, যা স্বাধীন ভেরিয়েবলগুলির প্রভাব বিশ্লেষণ করে আউটকাম ভেরিয়েবলের সম্ভাবনা নির্ধারণ করে।
- Odds Ratio এই প্রক্রিয়ায় ব্যবহৃত হয়, যা আউটকাম ভেরিয়েবলের সম্ভাবনা পরিবর্তনকারী ফ্যাক্টর হিসেবেও কাজ করে।
- Model Fit Statistics ব্যবহার করে মডেলের উপযুক্ততা চেক করা যায়।
এটি পরিসংখ্যানগত বিশ্লেষণ এবং ভবিষ্যদ্বাণী তৈরি করতে অত্যন্ত কার্যকরী এবং প্রভাবশালী একটি পদ্ধতি।
Read more