Correlation এবং Regression Analysis

Statistical Analysis in R (R এ পরিসংখ্যানগত বিশ্লেষণ) - আর প্রোগ্রামিং (R Programming) - Computer Programming

R-এ Correlation এবং Regression Analysis

Correlation এবং Regression Analysis হল পরিসংখ্যানের গুরুত্বপূর্ণ দুটি কৌশল যা ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন বা ভবিষ্যদ্বাণী তৈরি করতে ব্যবহৃত হয়। R-এ এই দুটি কৌশল অত্যন্ত শক্তিশালী এবং সহজেই প্রযোজ্য। এখানে Correlation এবং Regression এর ব্যবহার এবং সেগুলোর বিশ্লেষণ করতে ব্যবহৃত ফাংশনগুলো আলোচনা করা হয়েছে।

১. Correlation Analysis (সংশ্লিষ্টতা বিশ্লেষণ)

Correlation হলো দুটি ভেরিয়েবলের মধ্যে সম্পর্কের মাত্রা বা শক্তি। এটি সাধারণত পরিমাণগত (quantitative) ভেরিয়েবলের মধ্যে সম্পর্ক বোঝাতে ব্যবহৃত হয়। Correlation coefficient একটি পরিমাপ যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।

Positive correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মানও বাড়ে।
Negative correlation: যখন একটি ভেরিয়েবলের মান বাড়লে অন্য ভেরিয়েবলের মান কমে।
No correlation: দুটি ভেরিয়েবলের মধ্যে কোনো সম্পর্ক নেই।

Pearson's Correlation Coefficient:

Pearson’s correlation coefficient সাধারণত দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্ক মাপতে ব্যবহৃত হয়, যা -1 থেকে 1 এর মধ্যে থাকে। -1 মানে সম্পূর্ণ নেতিবাচক সম্পর্ক, 1 মানে সম্পূর্ণ ইতিবাচক সম্পর্ক এবং 0 মানে কোনো সম্পর্ক নেই।

উদাহরণ: Correlation Calculation

# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)

# Correlation calculation
correlation_result <- cor(x, y)
print(correlation_result)

আউটপুট:

[1] 1

এখানে, cor(x, y) ফাংশন দুটি ভেরিয়েবলের মধ্যে Pearson's correlation coefficient হিসাব করে, যা 1 দেখাচ্ছে। এর মানে দুটি ভেরিয়েবলের মধ্যে সম্পূর্ণ ইতিবাচক সম্পর্ক রয়েছে।

Spearman’s Rank Correlation:

যদি ডেটা নন-লাইনার অথবা ডিস্ট্রিবিউশনে সমান না হয়, তবে Spearman’s rank correlation ব্যবহার করা হয়।

# Spearman correlation calculation
spearman_corr <- cor(x, y, method = "spearman")
print(spearman_corr)

২. Regression Analysis (রিগ্রেশন বিশ্লেষণ)

Regression analysis একটি পরিসংখ্যানিক কৌশল যা একটি নির্দিষ্ট ভেরিয়েবলের মান পূর্বানুমান করতে ব্যবহৃত হয়, যখন অন্যান্য ভেরিয়েবলগুলোকে নির্ধারণকারী হিসেবে ব্যবহার করা হয়। এটি দুটি প্রকারে হয়:

Linear Regression: যখন সম্পর্কটি সরলরেখার মতো হয়।
Multiple Regression: যখন একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়।

Simple Linear Regression (সরলরেখা রিগ্রেশন):

Simple linear regression একটি নির্ভরশীল ভেরিয়েবল (Y) এবং একক স্বাধীন ভেরিয়েবল (X) এর মধ্যে সম্পর্ক বিশ্লেষণ করে।

রিগ্রেশন সমীকরণ হল:
\[ Y = \beta_0 + \beta_1X + \epsilon \]
এখানে:

\( \beta_0 \) হল ইন্টারসেপ্ট (Intercept)
\( \beta_1 \) হল স্লোপ (Slope)
\( \epsilon \) হল র্যান্ডম ত্রুটি

উদাহরণ: Simple Linear Regression

# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)

# Simple Linear Regression মডেল তৈরি করা
model <- lm(y ~ x)

# রেজাল্ট দেখানো
summary(model)

আউটপুট:

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
  -0.5   -0.2    0.0    0.2    0.5 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.0000     0.8944   0.000    1.000
x             2.0000     0.4472   4.472    0.017 *

Residual standard error: 0.4472 on 3 degrees of freedom
Multiple R-squared:  0.993,    Adjusted R-squared:  0.986
F-statistic: 20 on 1 and 3 DF,  p-value: 0.017

ব্যাখ্যা:

lm(y ~ x) দিয়ে রিগ্রেশন মডেল তৈরি করা হয়েছে, যেখানে y হলো নির্ভরশীল ভেরিয়েবল এবং x হলো স্বাধীন ভেরিয়েবল।
summary(model) ফাংশনটি মডেলের পরিসংখ্যানিক সারাংশ প্রদান করে, যেমন coefficients, R-squared, এবং p-value।

Multiple Linear Regression (বহুগুণ রিগ্রেশন):

যখন একাধিক স্বাধীন ভেরিয়েবল দ্বারা একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করা হয়, তখন multiple linear regression ব্যবহার করা হয়।

# Multiple Regression মডেল তৈরি করা
x1 <- c(1, 2, 3, 4, 5)
x2 <- c(5, 6, 7, 8, 9)
y <- c(2, 4, 6, 8, 10)

# Multiple Linear Regression মডেল তৈরি
model_multiple <- lm(y ~ x1 + x2)

# রেজাল্ট দেখানো
summary(model_multiple)

সারসংক্ষেপ

Correlation:
- Pearson’s Correlation: দুটি পরিমাণগত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক পরিমাপ করে। এর মান -1 থেকে 1 এর মধ্যে থাকে।
- Spearman’s Rank Correlation: এটি ডেটার র‌্যাঙ্কের ভিত্তিতে সম্পর্ক নির্ধারণ করে, যা যখন ডেটা নন-লাইনার হয় তখন ব্যবহৃত হয়।
Regression:
- Simple Linear Regression: একটি নির্ভরশীল ভেরিয়েবল এবং একক স্বাধীন ভেরিয়েবলের মধ্যে সম্পর্ক বিশ্লেষণ করে।
- Multiple Regression: একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের মান পূর্বানুমান করে।

R-এ এই বিশ্লেষণগুলি সহজেই করা যায় এবং এগুলোর মাধ্যমে ডেটার মধ্যে সম্পর্ক এবং প্রেডিকশন নির্ধারণ করা সম্ভব।

Content added By

Azizar Rahman Aziz

Descriptive Statistics (Mean, Median, Mode, Variance, Standard Deviation) Hypothesis Testing (t-test, chi-square test) ANOVA এবং Time Series Analysis

Correlation এবং Regression Analysis

R-এ Correlation এবং Regression Analysis

১. Correlation Analysis (সংশ্লিষ্টতা বিশ্লেষণ)

Pearson's Correlation Coefficient:

উদাহরণ: Correlation Calculation

Spearman’s Rank Correlation:

২. Regression Analysis (রিগ্রেশন বিশ্লেষণ)

Simple Linear Regression (সরলরেখা রিগ্রেশন):

উদাহরণ: Simple Linear Regression

Multiple Linear Regression (বহুগুণ রিগ্রেশন):

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

Correlation এবং Regression Analysis

R-এ Correlation এবং Regression Analysis

১. Correlation Analysis (সংশ্লিষ্টতা বিশ্লেষণ)

Pearson's Correlation Coefficient:

উদাহরণ: Correlation Calculation

Spearman’s Rank Correlation:

২. Regression Analysis (রিগ্রেশন বিশ্লেষণ)

Simple Linear Regression (সরলরেখা রিগ্রেশন):

উদাহরণ: Simple Linear Regression

Multiple Linear Regression (বহুগুণ রিগ্রেশন):

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!