Big Data and Analytics Simple এবং Multiple Linear Regression গাইড ও নোট

338

আর প্রোগ্রামিং ভাষায় Linear Regression একটি জনপ্রিয় পরিসংখ্যানগত পদ্ধতি, যা নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। Simple Linear Regression এবং Multiple Linear Regression এই দুটি ধরণের লিনিয়ার রিগ্রেশন মডেল ব্যবহার করা হয়। চলুন, এদের বিশদভাবে জানি।


১. Simple Linear Regression (সাধারণ লিনিয়ার রিগ্রেশন)

Simple Linear Regression হল একটি পরিসংখ্যানগত মডেল, যা একটি স্বাধীন ভেরিয়েবল (Predictor Variable বা Independent Variable) এবং একটি নির্ভরশীল ভেরিয়েবলের (Response Variable বা Dependent Variable) মধ্যে সরল রেখা সম্পর্ক তৈরি করে। এটি সাধারণত একটি লাইনীয় সম্পর্ক প্রতিষ্ঠা করতে ব্যবহৃত হয়।

মডেল ফর্ম:

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

এখানে:

  • YY হল নির্ভরশীল ভেরিয়েবল,
  • XX হল স্বাধীন ভেরিয়েবল,
  • β0\beta_0 হল ইন্টারসেপ্ট (Intercept),
  • β1\beta_1 হল স্লোপ (Slope),
  • ϵ\epsilon হল ত্রুটি (Error Term)।

Simple Linear Regression মডেল তৈরি করা

# একটি উদাহরণ ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  X = c(1, 2, 3, 4, 5),
  Y = c(2, 4, 5, 4, 5)
)

# Simple Linear Regression মডেল ফিট করা
model <- lm(Y ~ X, data = data)

# মডেলের সারাংশ দেখানো
summary(model)

এখানে, lm() ফাংশন ব্যবহার করে আমরা Y এবং X এর মধ্যে সরল লিনিয়ার রিগ্রেশন মডেল তৈরি করেছি। summary(model) ফাংশনটি মডেলের বিস্তারিত ফলাফল দেখাবে।

মডেল থেকে প্রাপ্ত কিছু ফলাফল:

  • স্লোপ (β1\beta_1): সম্পর্কের ধরণ বা পরিবর্তন।
  • ইন্টারসেপ্ট (β0\beta_0): X এর মান শূন্য হলে Y এর মান।
  • R-squared: মডেলটির ফিটনের মান, যা কতটুকু পরিবর্তন ব্যাখ্যা করছে।

২. Multiple Linear Regression (একাধিক লিনিয়ার রিগ্রেশন)

Multiple Linear Regression হল একটি পরিসংখ্যানগত পদ্ধতি, যা একাধিক স্বাধীন ভেরিয়েবল এবং একটি নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। এই মডেলে একটি নির্ভরশীল ভেরিয়েবল (Y) এবং একাধিক স্বাধীন ভেরিয়েবল (X1, X2, ..., Xn) থাকে।

মডেল ফর্ম:

Y=β0+β1X1+β2X2++βnXn+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon

এখানে:

  • YY হল নির্ভরশীল ভেরিয়েবল,
  • X1,X2,...,XnX_1, X_2, ..., X_n হল একাধিক স্বাধীন ভেরিয়েবল,
  • β0\beta_0 হল ইন্টারসেপ্ট,
  • β1,β2,...,βn\beta_1, \beta_2, ..., \beta_n হল স্লোপ বা প্যারামিটার,
  • ϵ\epsilon হল ত্রুটি।

Multiple Linear Regression মডেল তৈরি করা

# একটি উদাহরণ ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  X1 = c(1, 2, 3, 4, 5),
  X2 = c(5, 4, 3, 2, 1),
  Y = c(10, 12, 13, 14, 15)
)

# Multiple Linear Regression মডেল ফিট করা
model_multiple <- lm(Y ~ X1 + X2, data = data)

# মডেলের সারাংশ দেখানো
summary(model_multiple)

এখানে, lm() ফাংশন ব্যবহার করে Y এর সাথে দুটি স্বাধীন ভেরিয়েবল X1 এবং X2 এর সম্পর্ক বিশ্লেষণ করেছি। summary(model_multiple) ফাংশনটি মডেলের ফলাফল দেখাবে।

মডেল থেকে প্রাপ্ত ফলাফল:

  • একাধিক স্লোপ (β1,β2\beta_1, \beta_2): এই ভেরিয়েবলগুলির মধ্যে সম্পর্ক বা পরিবর্তন ব্যাখ্যা করা হয়।
  • R-squared: এটি মডেলটির ফিটনের মান, যা কতটুকু পরিবর্তন ব্যাখ্যা করছে।

Simple এবং Multiple Linear Regression এর মধ্যে পার্থক্য

  • Simple Linear Regression একটি মাত্র স্বাধীন ভেরিয়েবল (X) এবং একটি নির্ভরশীল ভেরিয়েবল (Y) নিয়ে কাজ করে।
  • Multiple Linear Regression একাধিক স্বাধীন ভেরিয়েবল (X1, X2, ..., Xn) এবং একটি নির্ভরশীল ভেরিয়েবল (Y) নিয়ে কাজ করে।

মডেল মূল্যায়ন

লিনিয়ার রিগ্রেশন মডেল মূল্যায়ন করতে কয়েকটি মেট্রিক্স ব্যবহার করা হয়:

  • R-squared: মডেলটি ডেটার কতটুকু পরিবর্তন ব্যাখ্যা করছে।
  • Adjusted R-squared: এটি R-squared এর সাথে স্বাধীন ভেরিয়েবলগুলির সংখ্যা সমন্বয় করে।
  • p-value: এটি নির্ধারণ করে যে, মডেলটি কতটুকু অর্থপূর্ণ।
  • Residuals: মডেলের ভুলগুলি (যেমন, বাকি অংশ বা ত্রুটি) দেখার জন্য।

সারাংশ

Simple Linear Regression এবং Multiple Linear Regression হল দুটি গুরুত্বপূর্ণ পরিসংখ্যানগত মডেল, যা স্বাধীন ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। Simple Linear Regression একটি স্বাধীন ভেরিয়েবল এবং একটি নির্ভরশীল ভেরিয়েবলের সম্পর্ক বিশ্লেষণ করে, যখন Multiple Linear Regression একাধিক স্বাধীন ভেরিয়েবল ব্যবহার করে। উভয় মডেলই ডেটার মধ্যে সম্পর্ক ব্যাখ্যা এবং ভবিষ্যদ্বাণী করতে সহায়তা করে।

Content added By
Promotion

Are you sure to start over?

Loading...