Univariate এবং Bivariate Analysis

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Exploratory Data Analysis (EDA)
387

Univariate এবং Bivariate Analysis হল ডেটা বিশ্লেষণের দুটি গুরুত্বপূর্ণ প্রক্রিয়া যা ডেটার মধ্যে সম্পর্ক, প্যাটার্ন, এবং ট্রেন্ড শনাক্ত করতে ব্যবহৃত হয়। এগুলি ডেটা সায়েন্স, পরিসংখ্যান এবং অন্যান্য বিশ্লেষণমূলক কাজের জন্য অত্যন্ত গুরুত্বপূর্ণ।


১. Univariate Analysis (একক চলক বিশ্লেষণ)

Univariate analysis হল একটি মাত্র চলকের (variable) বিশ্লেষণ। এতে একক চলকের জন্য ডেটার বেসিক চরিত্র, যেমন গড়, মধ্যম মান, ব্যাপ্তি, বিচ্যুতি, বা ফ্রিকোয়েন্সি বিতরণ বিশ্লেষণ করা হয়। Univariate analysis মূলত একটি চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করার জন্য ব্যবহৃত হয় এবং এটি ডেটার মৌলিক বৈশিষ্ট্য বুঝতে সাহায্য করে।

Univariate Analysis এর প্রধান উদ্দেশ্য:

  • ডেটার বেসিক চরিত্র বা বৈশিষ্ট্য বোঝা
  • ডেটা সেন্ট্রালিটি (mean, median, mode) এবং ডিসপারশন (variance, standard deviation) বের করা
  • ডেটার বিতরণ এবং ঘনত্ব বুঝতে সাহায্য করা
  • অস্বাভাবিক বা আউটলায়ার চিহ্নিত করা

Univariate Analysis এর জন্য ব্যবহৃত কিছু স্ট্যাটিস্টিক:

  • Mean (গড়): সমস্ত মানের যোগফল এবং মোট সংখ্যা দিয়ে গড় বের করা।
  • Median (মাধ্যম): ডেটার মাঝে যেটি মধ্যবর্তী মান।
  • Mode (মোড): সবচেয়ে ঘনিষ্ঠ বা পুনরাবৃত্ত মান।
  • Standard Deviation (স্ট্যান্ডার্ড ডেভিয়েশন): ডেটার বিচ্যুতি বা spread measure।
  • Range (পরিসীমা): সর্বোচ্চ এবং সর্বনিম্ন মানের পার্থক্য।
  • Variance (বিচ্যুতি): ডেটার মানগুলি গড়ের কাছাকাছি কতটা ছড়িয়ে আছে তার পরিমাপ।

উদাহরণ:

import pandas as pd

# ডেটা তৈরি
data = {'Age': [23, 25, 22, 30, 28, 22, 25, 30, 28, 29]}
df = pd.DataFrame(data)

# গড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশন বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]
std_dev_age = df['Age'].std()

print(f"Mean: {mean_age}, Median: {median_age}, Mode: {mode_age}, Standard Deviation: {std_dev_age}")

Visualization:

Univariate analysis এ histogram, boxplot এবং density plots খুবই জনপ্রিয় গ্রাফ।

import matplotlib.pyplot as plt

# Histogram
plt.hist(df['Age'], bins=5, color='skyblue', edgecolor='black')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

# Boxplot
plt.boxplot(df['Age'], vert=False)
plt.title('Age Boxplot')
plt.show()

২. Bivariate Analysis (দ্বি-চলক বিশ্লেষণ)

Bivariate analysis হল দুটি চলকের (variable) মধ্যে সম্পর্ক বিশ্লেষণ। এই বিশ্লেষণের মাধ্যমে আপনি দুটি চলকের মধ্যে সম্পর্কের ধরন (যেমন, লিনিয়ার, নন-লিনিয়ার) এবং তাদের একে অপরের সাথে সম্পর্ক বোঝার চেষ্টা করেন। এটি আপনাকে দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং প্রকৃতি (যেমন, ধনাত্মক, ঋণাত্মক বা কোন সম্পর্ক নেই) চিহ্নিত করতে সহায়ক।

Bivariate Analysis এর প্রধান উদ্দেশ্য:

  • দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের শক্তি বিশ্লেষণ
  • ডেটার মধ্যে সহাবস্থান এবং পারস্পরিক সম্পর্ক বোঝা
  • ভবিষ্যদ্বাণী বা সিদ্ধান্ত নেওয়ার জন্য সম্পর্ক ব্যবহার করা

Bivariate Analysis এর জন্য ব্যবহৃত কিছু মেট্রিক্স:

  • Correlation (সম্পর্ক): দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং দিক (ধনাত্মক বা ঋণাত্মক)। এটি Pearson's correlation coefficient দ্বারা পরিমাপ করা হয়, যার মান -1 থেকে +1 পর্যন্ত হতে পারে।
  • Scatter Plot (স্ক্যাটার প্লট): দুটি চলকের মধ্যে সম্পর্ক প্রদর্শনের জন্য একটি গ্রাফিকাল উপস্থাপনা।

উদাহরণ:

import pandas as pd

# ডেটা তৈরি
data = {'Height': [5.5, 6.2, 5.8, 6.0, 5.6, 5.9, 6.1],
        'Weight': [65, 72, 68, 75, 70, 72, 74]}
df = pd.DataFrame(data)

# সম্পর্ক বের করা
correlation = df['Height'].corr(df['Weight'])

print(f"Correlation between Height and Weight: {correlation}")

Visualization:

Bivariate analysis এ scatter plot খুবই জনপ্রিয়, যা দুটি চলকের মধ্যে সম্পর্ক চিত্রিত করে।

import matplotlib.pyplot as plt

# Scatter plot
plt.scatter(df['Height'], df['Weight'], color='red')
plt.title('Height vs Weight')
plt.xlabel('Height')
plt.ylabel('Weight')
plt.show()

Univariate এবং Bivariate Analysis এর মধ্যে পার্থক্য:

FeatureUnivariate AnalysisBivariate Analysis
Number of Variablesএকক চলক (Single variable)দুটি চলক (Two variables)
Purposeএকক চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করাদুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ
Examplesগড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশনসম্পর্ক, স্ক্যাটার প্লট, কোরিলেশন
VisualizationsHistogram, Boxplot, Density plotScatter plot, Heatmap
Outcomeডেটার মৌলিক বৈশিষ্ট্য, প্যাটার্ন চিহ্নিত করাদুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের ধরন

সারাংশ

Univariate Analysis হল একক চলকের পরিসংখ্যান বিশ্লেষণ, যেখানে Bivariate Analysis দুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ করে। Univariate analysis ডেটার মৌলিক চরিত্র, যেমন গড়, মধ্যম মান, এবং আউটলায়ার চিহ্নিত করতে ব্যবহৃত হয়, যখন Bivariate analysis দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের শক্তি বোঝার জন্য ব্যবহৃত হয়। Bivariate analysis-এ সাধারণত স্ক্যাটার প্লট এবং সম্পর্কের গাণিতিক মাপ (যেমন কোরিলেশন) ব্যবহৃত হয়।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...