Correlation এবং Regression Analysis গাইড ও নোট

Computer Programming - আর প্রোগ্রামিং (R Programming) - Statistical Analysis in R (R এ পরিসংখ্যানগত বিশ্লেষণ)
867

R-এ Correlation এবং Regression Analysis

Correlation এবং Regression Analysis হল পরিসংখ্যানের গুরুত্বপূর্ণ দুটি কৌশল যা ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন বা ভবিষ্যদ্বাণী তৈরি করতে ব্যবহৃত হয়। R-এ এই দুটি কৌশল অত্যন্ত শক্তিশালী এবং সহজেই প্রযোজ্য। এখানে Correlation এবং Regression এর ব্যবহার এবং সেগুলোর বিশ্লেষণ করতে ব্যবহৃত ফাংশনগুলো আলোচনা করা হয়েছে।


১. Correlation Analysis (সংশ্লিষ্টতা বিশ্লেষণ)

Correlation হলো দুটি ভেরিয়েবলের মধ্যে সম্পর্কের মাত্রা বা শক্তি। এটি সাধারণত পরিমাণগত (quantitative) ভেরিয়েবলের মধ্যে সম্পর্ক বোঝাতে ব্যবহৃত হয়। Correlation coefficient একটি পরিমাপ যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।

  • Positive correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মানও বাড়ে।
  • Negative correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মান কমে।
  • No correlation: দুটি ভেরিয়েবলের মধ্যে কোনো সম্পর্ক নেই।

Pearson's Correlation Coefficient:

Pearson’s correlation coefficient সাধারণত দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্ক মাপতে ব্যবহৃত হয়, যা -1 থেকে 1 এর মধ্যে থাকে। -1 মানে সম্পূর্ণ নেতিবাচক সম্পর্ক, 1 মানে সম্পূর্ণ ইতিবাচক সম্পর্ক এবং 0 মানে কোনো সম্পর্ক নেই।

উদাহরণ: Correlation Calculation

# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)

# Correlation calculation
correlation_result <- cor(x, y)
print(correlation_result)

আউটপুট:

[1] 1

এখানে, cor(x, y) ফাংশন দুটি ভেরিয়েবলের মধ্যে Pearson's correlation coefficient হিসাব করে, যা 1 দেখাচ্ছে। এর মানে দুটি ভেরিয়েবলের মধ্যে সম্পূর্ণ ইতিবাচক সম্পর্ক রয়েছে।

Spearman’s Rank Correlation:

যদি ডেটা নন-লাইনার অথবা ডিস্ট্রিবিউশনে সমান না হয়, তবে Spearman’s rank correlation ব্যবহার করা হয়।

# Spearman correlation calculation
spearman_corr <- cor(x, y, method = "spearman")
print(spearman_corr)

২. Regression Analysis (রিগ্রেশন বিশ্লেষণ)

Regression analysis একটি পরিসংখ্যানিক কৌশল যা একটি নির্দিষ্ট ভেরিয়েবলের মান পূর্বানুমান করতে ব্যবহৃত হয়, যখন অন্যান্য ভেরিয়েবলগুলোকে নির্ধারণকারী হিসেবে ব্যবহার করা হয়। এটি দুটি প্রকারে হয়:

  1. Linear Regression: যখন সম্পর্কটি সরলরেখার মতো হয়।
  2. Multiple Regression: যখন একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়।

Simple Linear Regression (সরলরেখা রিগ্রেশন):

Simple linear regression একটি নির্ভরশীল ভেরিয়েবল (Y) এবং একক স্বাধীন ভেরিয়েবল (X) এর মধ্যে সম্পর্ক বিশ্লেষণ করে।

রিগ্রেশন সমীকরণ হল:
\[ Y = \beta_0 + \beta_1X + \epsilon \]
এখানে:

  • \( \beta_0 \) হল ইন্টারসেপ্ট (Intercept)
  • \( \beta_1 \) হল স্লোপ (Slope)
  • \( \epsilon \) হল র্যান্ডম ত্রুটি

উদাহরণ: Simple Linear Regression

# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)

# Simple Linear Regression মডেল তৈরি করা
model <- lm(y ~ x)

# রেজাল্ট দেখানো
summary(model)

আউটপুট:

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
  -0.5   -0.2    0.0    0.2    0.5 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.0000     0.8944   0.000    1.000
x             2.0000     0.4472   4.472    0.017 *

Residual standard error: 0.4472 on 3 degrees of freedom
Multiple R-squared:  0.993,    Adjusted R-squared:  0.986
F-statistic: 20 on 1 and 3 DF,  p-value: 0.017

ব্যাখ্যা:

  • lm(y ~ x) দিয়ে রিগ্রেশন মডেল তৈরি করা হয়েছে, যেখানে y হলো নির্ভরশীল ভেরিয়েবল এবং x হলো স্বাধীন ভেরিয়েবল।
  • summary(model) ফাংশনটি মডেলের পরিসংখ্যানিক সারাংশ প্রদান করে, যেমন coefficients, R-squared, এবং p-value

Multiple Linear Regression (বহুগুণ রিগ্রেশন):

যখন একাধিক স্বাধীন ভেরিয়েবল দ্বারা একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়, তখন multiple linear regression ব্যবহার করা হয়।

# Multiple Regression মডেল তৈরি করা
x1 <- c(1, 2, 3, 4, 5)
x2 <- c(5, 6, 7, 8, 9)
y <- c(2, 4, 6, 8, 10)

# Multiple Linear Regression মডেল তৈরি
model_multiple <- lm(y ~ x1 + x2)

# রেজাল্ট দেখানো
summary(model_multiple)

সারসংক্ষেপ

  • Correlation:
    • Pearson’s Correlation: দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক পরিমাপ করে। এর মান -1 থেকে 1 এর মধ্যে থাকে।
    • Spearman’s Rank Correlation: এটি ডেটার র‌্যাঙ্কের ভিত্তিতে সম্পর্ক নির্ধারণ করে, যা যখন ডেটা নন-লাইনার হয় তখন ব্যবহৃত হয়।
  • Regression:
    • Simple Linear Regression: একটি নির্ভরশীল ভেরিয়েবল এবং একক স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করে।
    • Multiple Regression: একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করে।

R-এ এই বিশ্লেষণগুলি সহজেই করা যায় এবং এগুলোর মাধ্যমে ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন নির্ধারণ করা সম্ভব।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...