Data Visualization এবং Summary Statistics

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Exploratory Data Analysis (EDA)

310

Data Visualization এবং Summary Statistics দুটি গুরুত্বপূর্ণ দিক যা ডেটা বিশ্লেষণ এবং সিদ্ধান্ত গ্রহণের প্রক্রিয়াতে সহায়ক। Data Visualization আমাদের ডেটার প্যাটার্ন, প্রবণতা, এবং সম্পর্ক দেখতে সাহায্য করে, যখন Summary Statistics ডেটার একটি সারসংক্ষেপ প্রদান করে যা মূল বৈশিষ্ট্য এবং বিভাজন নির্দেশ করে।

১. Data Visualization (ডেটা ভিজ্যুয়ালাইজেশন)

Data Visualization হল ডেটা গ্রাফিক্যাল উপস্থাপনা, যা ডেটার প্রবণতা এবং সম্পর্ককে সহজে বুঝতে সহায়ক। এটি গাণিতিক এবং পরিসংখ্যান বিশ্লেষণের ফলাফলগুলি ভিজ্যুয়ালি উপস্থাপন করতে ব্যবহৃত হয়।

Python-এর Matplotlib, Seaborn, এবং Plotly ইত্যাদি জনপ্রিয় লাইব্রেরি ডেটা ভিজ্যুয়ালাইজেশনের জন্য ব্যবহৃত হয়।

১.১ Matplotlib (বেসিক ভিজ্যুয়ালাইজেশন)

Matplotlib একটি শক্তিশালী এবং জনপ্রিয় Python লাইব্রেরি যা সহজে গ্রাফ এবং প্লট তৈরি করতে সহায়ক। এর সাহায্যে আপনি বিভিন্ন ধরনের প্লট তৈরি করতে পারেন, যেমন line plots, scatter plots, bar charts, histograms, pie charts, ইত্যাদি।

উদাহরণ: Line Plot

import matplotlib.pyplot as plt

# ডেটা
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# লাইন প্লট তৈরি
plt.plot(x, y)
plt.title('Line Plot Example')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')

# প্লট দেখানো
plt.show()

উদাহরণ: Bar Chart

import matplotlib.pyplot as plt

# ডেটা
categories = ['A', 'B', 'C', 'D']
values = [10, 20, 15, 25]

# বার প্লট তৈরি
plt.bar(categories, values)
plt.title('Bar Chart Example')
plt.xlabel('Categories')
plt.ylabel('Values')

# প্লট দেখানো
plt.show()

১.২ Seaborn (এডভান্সড ভিজ্যুয়ালাইজেশন)

Seaborn Matplotlib-এর ওপর ভিত্তি করে তৈরি একটি লাইব্রেরি যা আরও উন্নত এবং আকর্ষণীয় ভিজ্যুয়ালাইজেশন তৈরি করতে সহায়ক। Seaborn ব্যবহার করা খুবই সহজ এবং এটি আরও সুন্দর এবং অর্থপূর্ণ গ্রাফ তৈরি করে।

উদাহরণ: Scatter Plot with Regression Line

import seaborn as sns
import matplotlib.pyplot as plt

# ডেটাসেট লোড
tips = sns.load_dataset('tips')

# স্ক্যাটার প্লট তৈরি
sns.regplot(x='total_bill', y='tip', data=tips)

# প্লট দেখানো
plt.title('Scatter Plot with Regression Line')
plt.show()

১.৩ Plotly (ইন্টারেকটিভ ভিজ্যুয়ালাইজেশন)

Plotly একটি লাইব্রেরি যা ইন্টারেকটিভ প্লট তৈরি করতে ব্যবহৃত হয়। এটি জটিল ভিজ্যুয়ালাইজেশন যেমন 3D গ্রাফ, ড্যাশবোর্ড তৈরি করতে সক্ষম।

উদাহরণ: Scatter Plot

import plotly.express as px

# ডেটাসেট লোড
tips = px.data.tips()

# স্ক্যাটার প্লট তৈরি
fig = px.scatter(tips, x="total_bill", y="tip", color="sex", title="Scatter Plot with Plotly")

# প্লট দেখানো
fig.show()

২. Summary Statistics (সারাংশ পরিসংখ্যান)

Summary Statistics হল ডেটার একটি সংক্ষিপ্ত সারাংশ যা আমাদের ডেটার মূল বৈশিষ্ট্য বা বিশ্লেষণ উপস্থাপন করে। এটি আমাদের ডেটার গড়, বিস্তার, স্কিউনেস, এবং অন্যান্য গাণিতিক উপাদান জানাতে সহায়ক।

Python-এর Pandas লাইব্রেরি summary statistics বের করতে সহায়ক এবং এটি ডেটা বিশ্লেষণের জন্য অত্যন্ত জনপ্রিয়।

২.১ Descriptive Statistics (বর্ণনামূলক পরিসংখ্যান)

Descriptive Statistics ডেটার মৌলিক গুণাবলী যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, এবং কোয়ারটাইল মান বের করতে সহায়ক।

উদাহরণ: Descriptive Statistics (গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম)

import pandas as pd

# একটি সিম্পল DataFrame তৈরি
data = {'Age': [24, 27, 22, 32, 29], 'Salary': [50000, 60000, 55000, 70000, 65000]}
df = pd.DataFrame(data)

# বর্ণনামূলক পরিসংখ্যান
print(df.describe())

আউটপুট:

             Age         Salary
count   5.000000      5.000000
mean   26.800000  62000.000000
std     4.027692   7586.051942
min    22.000000  50000.000000
25%    24.000000  55000.000000
50%    27.000000  60000.000000
75%    29.000000  65000.000000
max    32.000000  70000.000000

২.২ Mean, Median, Mode (গড়, মধ্যক, মোড)

Mean: সমস্ত উপাদানের যোগফল ভাগ করে মোট উপাদানের সংখ্যা দিয়ে।
Median: উপাদানগুলোকে ছোট থেকে বড় পর্যন্ত সাজানোর পর মধ্যবর্তী মান।
Mode: যে মানটি সবচেয়ে বেশি বার পুনরাবৃত্তি হয়।

উদাহরণ: Mean, Median, Mode

# গড়, মধ্যক এবং মোড বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]

print(f"Mean Age: {mean_age}")
print(f"Median Age: {median_age}")
print(f"Mode Age: {mode_age}")

আউটপুট:

Mean Age: 26.8
Median Age: 27.0
Mode Age: 24

২.৩ Variance and Standard Deviation (বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন)

Variance: ডেটার স্কোয়ারড ডেভিয়েশন থেকে গড় বিচ্যুতি।
Standard Deviation: ডেটার গড় বিচ্যুতির পরিমাণ।

উদাহরণ: Variance and Standard Deviation

# বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন বের করা
variance_age = df['Age'].var()
std_dev_age = df['Age'].std()

print(f"Variance in Age: {variance_age}")
print(f"Standard Deviation in Age: {std_dev_age}")

আউটপুট:

Variance in Age: 16.25
Standard Deviation in Age: 4.027692307358965

৩. Correlation (সাংগঠনিক সম্পর্ক)

Correlation হল দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা সংযোগ। এটি একটি সংখ্যাগত পরিমাপ যা দুইটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।

উদাহরণ: Correlation Coefficient

# কোরিলেশন বের করা
correlation = df['Age'].corr(df['Salary'])
print(f"Correlation between Age and Salary: {correlation}")

আউটপুট:

Correlation between Age and Salary: 0.6432966481949242

সারাংশ

Data Visualization: এটি ডেটাকে গ্রাফিক্যালভাবে উপস্থাপন করে, যা ডেটার প্যাটার্ন, প্রবণতা এবং সম্পর্ক বুঝতে সহায়ক। Python এর Matplotlib, Seaborn, এবং Plotly লাইব্রেরি এর জন্য ব্যবহৃত হয়।
Summary Statistics: এটি ডেটার মৌলিক গুণাবলী সম্পর্কে তথ্য প্রদান করে, যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, কোয়ারটাইল, কোরিলেশন ইত্যাদি। Pandas লাইব্রেরি ব্যবহার করে সহজেই এই পরিসংখ্যান বের করা যায়।

Content added By

SATT Academy

EDA এর ভূমিকা এবং প্রয়োগ Univariate এবং Bivariate Analysis Correlation এবং Covariance Analysis Data Distribution এবং Outliers Detection

Data Visualization এবং Summary Statistics

১. Data Visualization (ডেটা ভিজ্যুয়ালাইজেশন)

১.১ Matplotlib (বেসিক ভিজ্যুয়ালাইজেশন)

১.২ Seaborn (এডভান্সড ভিজ্যুয়ালাইজেশন)

১.৩ Plotly (ইন্টারেকটিভ ভিজ্যুয়ালাইজেশন)

২. Summary Statistics (সারাংশ পরিসংখ্যান)

২.১ Descriptive Statistics (বর্ণনামূলক পরিসংখ্যান)

২.২ Mean, Median, Mode (গড়, মধ্যক, মোড)

২.৩ Variance and Standard Deviation (বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন)

৩. Correlation (সাংগঠনিক সম্পর্ক)

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Data Visualization এবং Summary Statistics

১. Data Visualization (ডেটা ভিজ্যুয়ালাইজেশন)

১.১ Matplotlib (বেসিক ভিজ্যুয়ালাইজেশন)

১.২ Seaborn (এডভান্সড ভিজ্যুয়ালাইজেশন)

১.৩ Plotly (ইন্টারেকটিভ ভিজ্যুয়ালাইজেশন)

২. Summary Statistics (সারাংশ পরিসংখ্যান)

২.১ Descriptive Statistics (বর্ণনামূলক পরিসংখ্যান)

২.২ Mean, Median, Mode (গড়, মধ্যক, মোড)

২.৩ Variance and Standard Deviation (বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন)

৩. Correlation (সাংগঠনিক সম্পর্ক)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!