আর প্রোগ্রামিং ভাষায় Linear Regression একটি জনপ্রিয় পরিসংখ্যানগত পদ্ধতি, যা নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। Simple Linear Regression এবং Multiple Linear Regression এই দুটি ধরণের লিনিয়ার রিগ্রেশন মডেল ব্যবহার করা হয়। চলুন, এদের বিশদভাবে জানি।
১. Simple Linear Regression (সাধারণ লিনিয়ার রিগ্রেশন)
Simple Linear Regression হল একটি পরিসংখ্যানগত মডেল, যা একটি স্বাধীন ভেরিয়েবল (Predictor Variable বা Independent Variable) এবং একটি নির্ভরশীল ভেরিয়েবলের (Response Variable বা Dependent Variable) মধ্যে সরল রেখা সম্পর্ক তৈরি করে। এটি সাধারণত একটি লাইনীয় সম্পর্ক প্রতিষ্ঠা করতে ব্যবহৃত হয়।
মডেল ফর্ম:
এখানে:
- হল নির্ভরশীল ভেরিয়েবল,
- হল স্বাধীন ভেরিয়েবল,
- হল ইন্টারসেপ্ট (Intercept),
- হল স্লোপ (Slope),
- হল ত্রুটি (Error Term)।
Simple Linear Regression মডেল তৈরি করা
# একটি উদাহরণ ডেটা ফ্রেম তৈরি করা
data <- data.frame(
X = c(1, 2, 3, 4, 5),
Y = c(2, 4, 5, 4, 5)
)
# Simple Linear Regression মডেল ফিট করা
model <- lm(Y ~ X, data = data)
# মডেলের সারাংশ দেখানো
summary(model)
এখানে, lm() ফাংশন ব্যবহার করে আমরা Y এবং X এর মধ্যে সরল লিনিয়ার রিগ্রেশন মডেল তৈরি করেছি। summary(model) ফাংশনটি মডেলের বিস্তারিত ফলাফল দেখাবে।
মডেল থেকে প্রাপ্ত কিছু ফলাফল:
- স্লোপ (): সম্পর্কের ধরণ বা পরিবর্তন।
- ইন্টারসেপ্ট (): X এর মান শূন্য হলে Y এর মান।
- R-squared: মডেলটির ফিটনের মান, যা কতটুকু পরিবর্তন ব্যাখ্যা করছে।
২. Multiple Linear Regression (একাধিক লিনিয়ার রিগ্রেশন)
Multiple Linear Regression হল একটি পরিসংখ্যানগত পদ্ধতি, যা একাধিক স্বাধীন ভেরিয়েবল এবং একটি নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। এই মডেলে একটি নির্ভরশীল ভেরিয়েবল (Y) এবং একাধিক স্বাধীন ভেরিয়েবল (X1, X2, ..., Xn) থাকে।
মডেল ফর্ম:
এখানে:
- হল নির্ভরশীল ভেরিয়েবল,
- হল একাধিক স্বাধীন ভেরিয়েবল,
- হল ইন্টারসেপ্ট,
- হল স্লোপ বা প্যারামিটার,
- হল ত্রুটি।
Multiple Linear Regression মডেল তৈরি করা
# একটি উদাহরণ ডেটা ফ্রেম তৈরি করা
data <- data.frame(
X1 = c(1, 2, 3, 4, 5),
X2 = c(5, 4, 3, 2, 1),
Y = c(10, 12, 13, 14, 15)
)
# Multiple Linear Regression মডেল ফিট করা
model_multiple <- lm(Y ~ X1 + X2, data = data)
# মডেলের সারাংশ দেখানো
summary(model_multiple)
এখানে, lm() ফাংশন ব্যবহার করে Y এর সাথে দুটি স্বাধীন ভেরিয়েবল X1 এবং X2 এর সম্পর্ক বিশ্লেষণ করেছি। summary(model_multiple) ফাংশনটি মডেলের ফলাফল দেখাবে।
মডেল থেকে প্রাপ্ত ফলাফল:
- একাধিক স্লোপ (): এই ভেরিয়েবলগুলির মধ্যে সম্পর্ক বা পরিবর্তন ব্যাখ্যা করা হয়।
- R-squared: এটি মডেলটির ফিটনের মান, যা কতটুকু পরিবর্তন ব্যাখ্যা করছে।
Simple এবং Multiple Linear Regression এর মধ্যে পার্থক্য
- Simple Linear Regression একটি মাত্র স্বাধীন ভেরিয়েবল (X) এবং একটি নির্ভরশীল ভেরিয়েবল (Y) নিয়ে কাজ করে।
- Multiple Linear Regression একাধিক স্বাধীন ভেরিয়েবল (X1, X2, ..., Xn) এবং একটি নির্ভরশীল ভেরিয়েবল (Y) নিয়ে কাজ করে।
মডেল মূল্যায়ন
লিনিয়ার রিগ্রেশন মডেল মূল্যায়ন করতে কয়েকটি মেট্রিক্স ব্যবহার করা হয়:
- R-squared: মডেলটি ডেটার কতটুকু পরিবর্তন ব্যাখ্যা করছে।
- Adjusted R-squared: এটি R-squared এর সাথে স্বাধীন ভেরিয়েবলগুলির সংখ্যা সমন্বয় করে।
- p-value: এটি নির্ধারণ করে যে, মডেলটি কতটুকু অর্থপূর্ণ।
- Residuals: মডেলের ভুলগুলি (যেমন, বাকি অংশ বা ত্রুটি) দেখার জন্য।
সারাংশ
Simple Linear Regression এবং Multiple Linear Regression হল দুটি গুরুত্বপূর্ণ পরিসংখ্যানগত মডেল, যা স্বাধীন ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। Simple Linear Regression একটি স্বাধীন ভেরিয়েবল এবং একটি নির্ভরশীল ভেরিয়েবলের সম্পর্ক বিশ্লেষণ করে, যখন Multiple Linear Regression একাধিক স্বাধীন ভেরিয়েবল ব্যবহার করে। উভয় মডেলই ডেটার মধ্যে সম্পর্ক ব্যাখ্যা এবং ভবিষ্যদ্বাণী করতে সহায়তা করে।
Read more