R-এ Correlation এবং Regression Analysis
Correlation এবং Regression Analysis হল পরিসংখ্যানের গুরুত্বপূর্ণ দুটি কৌশল যা ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন বা ভবিষ্যদ্বাণী তৈরি করতে ব্যবহৃত হয়। R-এ এই দুটি কৌশল অত্যন্ত শক্তিশালী এবং সহজেই প্রযোজ্য। এখানে Correlation এবং Regression এর ব্যবহার এবং সেগুলোর বিশ্লেষণ করতে ব্যবহৃত ফাংশনগুলো আলোচনা করা হয়েছে।
১. Correlation Analysis (সংশ্লিষ্টতা বিশ্লেষণ)
Correlation হলো দুটি ভেরিয়েবলের মধ্যে সম্পর্কের মাত্রা বা শক্তি। এটি সাধারণত পরিমাণগত (quantitative) ভেরিয়েবলের মধ্যে সম্পর্ক বোঝাতে ব্যবহৃত হয়। Correlation coefficient একটি পরিমাপ যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।
- Positive correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মানও বাড়ে।
- Negative correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মান কমে।
- No correlation: দুটি ভেরিয়েবলের মধ্যে কোনো সম্পর্ক নেই।
Pearson's Correlation Coefficient:
Pearson’s correlation coefficient সাধারণত দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্ক মাপতে ব্যবহৃত হয়, যা -1 থেকে 1 এর মধ্যে থাকে। -1 মানে সম্পূর্ণ নেতিবাচক সম্পর্ক, 1 মানে সম্পূর্ণ ইতিবাচক সম্পর্ক এবং 0 মানে কোনো সম্পর্ক নেই।
উদাহরণ: Correlation Calculation
# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)
# Correlation calculation
correlation_result <- cor(x, y)
print(correlation_result)আউটপুট:
[1] 1এখানে, cor(x, y) ফাংশন দুটি ভেরিয়েবলের মধ্যে Pearson's correlation coefficient হিসাব করে, যা 1 দেখাচ্ছে। এর মানে দুটি ভেরিয়েবলের মধ্যে সম্পূর্ণ ইতিবাচক সম্পর্ক রয়েছে।
Spearman’s Rank Correlation:
যদি ডেটা নন-লাইনার অথবা ডিস্ট্রিবিউশনে সমান না হয়, তবে Spearman’s rank correlation ব্যবহার করা হয়।
# Spearman correlation calculation
spearman_corr <- cor(x, y, method = "spearman")
print(spearman_corr)২. Regression Analysis (রিগ্রেশন বিশ্লেষণ)
Regression analysis একটি পরিসংখ্যানিক কৌশল যা একটি নির্দিষ্ট ভেরিয়েবলের মান পূর্বানুমান করতে ব্যবহৃত হয়, যখন অন্যান্য ভেরিয়েবলগুলোকে নির্ধারণকারী হিসেবে ব্যবহার করা হয়। এটি দুটি প্রকারে হয়:
- Linear Regression: যখন সম্পর্কটি সরলরেখার মতো হয়।
- Multiple Regression: যখন একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়।
Simple Linear Regression (সরলরেখা রিগ্রেশন):
Simple linear regression একটি নির্ভরশীল ভেরিয়েবল (Y) এবং একক স্বাধীন ভেরিয়েবল (X) এর মধ্যে সম্পর্ক বিশ্লেষণ করে।
রিগ্রেশন সমীকরণ হল:
\[ Y = \beta_0 + \beta_1X + \epsilon \]
এখানে:
- \( \beta_0 \) হল ইন্টারসেপ্ট (Intercept)
- \( \beta_1 \) হল স্লোপ (Slope)
- \( \epsilon \) হল র্যান্ডম ত্রুটি
উদাহরণ: Simple Linear Regression
# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)
# Simple Linear Regression মডেল তৈরি করা
model <- lm(y ~ x)
# রেজাল্ট দেখানো
summary(model)আউটপুট:
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.5 -0.2 0.0 0.2 0.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0000 0.8944 0.000 1.000
x 2.0000 0.4472 4.472 0.017 *
Residual standard error: 0.4472 on 3 degrees of freedom
Multiple R-squared: 0.993, Adjusted R-squared: 0.986
F-statistic: 20 on 1 and 3 DF, p-value: 0.017ব্যাখ্যা:
lm(y ~ x)দিয়ে রিগ্রেশন মডেল তৈরি করা হয়েছে, যেখানেyহলো নির্ভরশীল ভেরিয়েবল এবংxহলো স্বাধীন ভেরিয়েবল।summary(model)ফাংশনটি মডেলের পরিসংখ্যানিক সারাংশ প্রদান করে, যেমন coefficients, R-squared, এবং p-value।
Multiple Linear Regression (বহুগুণ রিগ্রেশন):
যখন একাধিক স্বাধীন ভেরিয়েবল দ্বারা একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়, তখন multiple linear regression ব্যবহার করা হয়।
# Multiple Regression মডেল তৈরি করা
x1 <- c(1, 2, 3, 4, 5)
x2 <- c(5, 6, 7, 8, 9)
y <- c(2, 4, 6, 8, 10)
# Multiple Linear Regression মডেল তৈরি
model_multiple <- lm(y ~ x1 + x2)
# রেজাল্ট দেখানো
summary(model_multiple)সারসংক্ষেপ
- Correlation:
- Pearson’s Correlation: দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক পরিমাপ করে। এর মান -1 থেকে 1 এর মধ্যে থাকে।
- Spearman’s Rank Correlation: এটি ডেটার র্যাঙ্কের ভিত্তিতে সম্পর্ক নির্ধারণ করে, যা যখন ডেটা নন-লাইনার হয় তখন ব্যবহৃত হয়।
- Regression:
- Simple Linear Regression: একটি নির্ভরশীল ভেরিয়েবল এবং একক স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করে।
- Multiple Regression: একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করে।
R-এ এই বিশ্লেষণগুলি সহজেই করা যায় এবং এগুলোর মাধ্যমে ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন নির্ধারণ করা সম্ভব।
Read more