Univariate এবং Bivariate Analysis হল ডেটা বিশ্লেষণের দুটি গুরুত্বপূর্ণ প্রক্রিয়া যা ডেটার মধ্যে সম্পর্ক, প্যাটার্ন, এবং ট্রেন্ড শনাক্ত করতে ব্যবহৃত হয়। এগুলি ডেটা সায়েন্স, পরিসংখ্যান এবং অন্যান্য বিশ্লেষণমূলক কাজের জন্য অত্যন্ত গুরুত্বপূর্ণ।
১. Univariate Analysis (একক চলক বিশ্লেষণ)
Univariate analysis হল একটি মাত্র চলকের (variable) বিশ্লেষণ। এতে একক চলকের জন্য ডেটার বেসিক চরিত্র, যেমন গড়, মধ্যম মান, ব্যাপ্তি, বিচ্যুতি, বা ফ্রিকোয়েন্সি বিতরণ বিশ্লেষণ করা হয়। Univariate analysis মূলত একটি চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করার জন্য ব্যবহৃত হয় এবং এটি ডেটার মৌলিক বৈশিষ্ট্য বুঝতে সাহায্য করে।
Univariate Analysis এর প্রধান উদ্দেশ্য:
- ডেটার বেসিক চরিত্র বা বৈশিষ্ট্য বোঝা
- ডেটা সেন্ট্রালিটি (mean, median, mode) এবং ডিসপারশন (variance, standard deviation) বের করা
- ডেটার বিতরণ এবং ঘনত্ব বুঝতে সাহায্য করা
- অস্বাভাবিক বা আউটলায়ার চিহ্নিত করা
Univariate Analysis এর জন্য ব্যবহৃত কিছু স্ট্যাটিস্টিক:
- Mean (গড়): সমস্ত মানের যোগফল এবং মোট সংখ্যা দিয়ে গড় বের করা।
- Median (মাধ্যম): ডেটার মাঝে যেটি মধ্যবর্তী মান।
- Mode (মোড): সবচেয়ে ঘনিষ্ঠ বা পুনরাবৃত্ত মান।
- Standard Deviation (স্ট্যান্ডার্ড ডেভিয়েশন): ডেটার বিচ্যুতি বা spread measure।
- Range (পরিসীমা): সর্বোচ্চ এবং সর্বনিম্ন মানের পার্থক্য।
- Variance (বিচ্যুতি): ডেটার মানগুলি গড়ের কাছাকাছি কতটা ছড়িয়ে আছে তার পরিমাপ।
উদাহরণ:
import pandas as pd
# ডেটা তৈরি
data = {'Age': [23, 25, 22, 30, 28, 22, 25, 30, 28, 29]}
df = pd.DataFrame(data)
# গড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশন বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]
std_dev_age = df['Age'].std()
print(f"Mean: {mean_age}, Median: {median_age}, Mode: {mode_age}, Standard Deviation: {std_dev_age}")
Visualization:
Univariate analysis এ histogram, boxplot এবং density plots খুবই জনপ্রিয় গ্রাফ।
import matplotlib.pyplot as plt
# Histogram
plt.hist(df['Age'], bins=5, color='skyblue', edgecolor='black')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()
# Boxplot
plt.boxplot(df['Age'], vert=False)
plt.title('Age Boxplot')
plt.show()
২. Bivariate Analysis (দ্বি-চলক বিশ্লেষণ)
Bivariate analysis হল দুটি চলকের (variable) মধ্যে সম্পর্ক বিশ্লেষণ। এই বিশ্লেষণের মাধ্যমে আপনি দুটি চলকের মধ্যে সম্পর্কের ধরন (যেমন, লিনিয়ার, নন-লিনিয়ার) এবং তাদের একে অপরের সাথে সম্পর্ক বোঝার চেষ্টা করেন। এটি আপনাকে দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং প্রকৃতি (যেমন, ধনাত্মক, ঋণাত্মক বা কোন সম্পর্ক নেই) চিহ্নিত করতে সহায়ক।
Bivariate Analysis এর প্রধান উদ্দেশ্য:
- দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের শক্তি বিশ্লেষণ
- ডেটার মধ্যে সহাবস্থান এবং পারস্পরিক সম্পর্ক বোঝা
- ভবিষ্যদ্বাণী বা সিদ্ধান্ত নেওয়ার জন্য সম্পর্ক ব্যবহার করা
Bivariate Analysis এর জন্য ব্যবহৃত কিছু মেট্রিক্স:
- Correlation (সম্পর্ক): দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং দিক (ধনাত্মক বা ঋণাত্মক)। এটি
Pearson's correlation coefficientদ্বারা পরিমাপ করা হয়, যার মান -1 থেকে +1 পর্যন্ত হতে পারে। - Scatter Plot (স্ক্যাটার প্লট): দুটি চলকের মধ্যে সম্পর্ক প্রদর্শনের জন্য একটি গ্রাফিকাল উপস্থাপনা।
উদাহরণ:
import pandas as pd
# ডেটা তৈরি
data = {'Height': [5.5, 6.2, 5.8, 6.0, 5.6, 5.9, 6.1],
'Weight': [65, 72, 68, 75, 70, 72, 74]}
df = pd.DataFrame(data)
# সম্পর্ক বের করা
correlation = df['Height'].corr(df['Weight'])
print(f"Correlation between Height and Weight: {correlation}")
Visualization:
Bivariate analysis এ scatter plot খুবই জনপ্রিয়, যা দুটি চলকের মধ্যে সম্পর্ক চিত্রিত করে।
import matplotlib.pyplot as plt
# Scatter plot
plt.scatter(df['Height'], df['Weight'], color='red')
plt.title('Height vs Weight')
plt.xlabel('Height')
plt.ylabel('Weight')
plt.show()
Univariate এবং Bivariate Analysis এর মধ্যে পার্থক্য:
| Feature | Univariate Analysis | Bivariate Analysis |
|---|---|---|
| Number of Variables | একক চলক (Single variable) | দুটি চলক (Two variables) |
| Purpose | একক চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করা | দুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ |
| Examples | গড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশন | সম্পর্ক, স্ক্যাটার প্লট, কোরিলেশন |
| Visualizations | Histogram, Boxplot, Density plot | Scatter plot, Heatmap |
| Outcome | ডেটার মৌলিক বৈশিষ্ট্য, প্যাটার্ন চিহ্নিত করা | দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের ধরন |
সারাংশ
Univariate Analysis হল একক চলকের পরিসংখ্যান বিশ্লেষণ, যেখানে Bivariate Analysis দুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ করে। Univariate analysis ডেটার মৌলিক চরিত্র, যেমন গড়, মধ্যম মান, এবং আউটলায়ার চিহ্নিত করতে ব্যবহৃত হয়, যখন Bivariate analysis দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের শক্তি বোঝার জন্য ব্যবহৃত হয়। Bivariate analysis-এ সাধারণত স্ক্যাটার প্লট এবং সম্পর্কের গাণিতিক মাপ (যেমন কোরিলেশন) ব্যবহৃত হয়।
Read more