Exploratory Data Analysis (EDA)

Machine Learning - এইচ২ও (H2O)

195

Exploratory Data Analysis (EDA) হলো ডেটা সেটের বৈশিষ্ট্য এবং কাঠামো সম্পর্কে প্রাথমিক ধারণা পাওয়ার একটি প্রক্রিয়া। এর মাধ্যমে ডেটা বিশ্লেষণ করতে আমরা ডেটার মধ্যে লুকানো প্যাটার্ন, সম্পর্ক, অস্বাভাবিকতা বা ত্রুটি খুঁজে বের করি, যাতে পরবর্তী বিশ্লেষণ এবং মডেলিংয়ের জন্য প্রস্তুতি নেওয়া যায়। EDA প্রক্রিয়া ডেটার ভ্যালিডিটি যাচাই, স্ট্যাটিস্টিক্যাল টেস্টিং, এবং ভিজ্যুয়ালাইজেশন মাধ্যমে প্রাথমিক তথ্য সংগ্রহ করতে সাহায্য করে।

EDA সাধারণত ডেটা প্রক্রিয়াকরণ এবং ডেটা ক্লিনিং এর প্রথম ধাপে ব্যবহৃত হয়, যেখানে ডেটার গুণমান পর্যালোচনা করা হয় এবং ডেটার সম্পর্ক বিশ্লেষণ করা হয়।

EDA এর প্রধান উদ্দেশ্য

ডেটার বৈশিষ্ট্য যাচাই করা:
ডেটার ধরণ, ভ্যালিডিটি, এবং যেকোনো অস্বাভাবিকতা বা ত্রুটি খুঁজে বের করা।
ট্রেন্ড এবং প্যাটার্ন শনাক্ত করা:
ডেটার মধ্যে থাকা গোপন সম্পর্ক এবং ট্রেন্ড চিহ্নিত করা, যা পরবর্তী বিশ্লেষণের জন্য সহায়ক হতে পারে।
ভিজ্যুয়ালাইজেশন:
ডেটার ভিজ্যুয়াল রিপ্রেজেন্টেশন তৈরি করা যাতে ডেটার প্যাটার্ন, সম্পর্ক এবং ত্রুটি স্পষ্টভাবে দৃশ্যমান হয়।
ডেটা ক্লিনিং:
অনুপস্থিত মান, আউটলায়ার, এবং ভুল ডেটা চিহ্নিত এবং মেরামত করা।

EDA প্রক্রিয়া

EDA প্রক্রিয়া সাধারণত নিচের ধাপগুলো অনুসরণ করে:

১. ডেটা লোডিং

প্রথমে ডেটা লোড করা হয় এবং তার মধ্যে উপস্থিত বিভিন্ন উপাদানগুলি চিহ্নিত করা হয়।

import pandas as pd

# ডেটা লোড করা
data = pd.read_csv('data.csv')

# প্রথম কয়েকটি রেকর্ড দেখানো
print(data.head())

২. ডেটার প্রাথমিক পর্যালোচনা

ডেটার সারাংশ দেখতে এবং তার সাথে সম্পর্কিত বিভিন্ন গুরুত্বপূর্ণ পরিসংখ্যান পর্যালোচনা করা:

# ডেটার সারাংশ দেখানো
print(data.describe())

# ডেটার তথ্যের প্রকার দেখতে
print(data.info())

৩. ডেটা ক্লিনিং

ডেটাতে অনুপস্থিত মান (Missing Values) এবং আউটলায়ার চিহ্নিত করা হয়।

# অনুপস্থিত মান খুঁজে বের করা
print(data.isnull().sum())

# অনুপস্থিত মান পূর্ণ করা
data.fillna(0, inplace=True)

৪. ডেটার ভিজ্যুয়ালাইজেশন

ডেটার ভিজ্যুয়ালাইজেশন (যেমন হিস্টোগ্রাম, বক্সপ্লট, স্ক্যাটার প্লট) ব্যবহার করা হয় প্যাটার্ন এবং সম্পর্ক চিহ্নিত করতে।

import seaborn as sns
import matplotlib.pyplot as plt

# হিস্টোগ্রাম
sns.histplot(data['column_name'])
plt.show()

# বক্সপ্লট
sns.boxplot(x=data['column_name'])
plt.show()

# স্ক্যাটার প্লট
sns.scatterplot(x=data['column1'], y=data['column2'])
plt.show()

৫. সম্পর্ক বিশ্লেষণ

ডেটার মধ্যে সম্পর্ক এবং কোরেলেশন পরীক্ষা করা:

# কোরেলেশন ম্যাট্রিক্স
correlation = data.corr()
sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.show()

৬. আউটলায়ার চিহ্নিত করা

আউটলায়ার চিহ্নিত করতে বক্সপ্লট এবং অন্যান্য ভিজ্যুয়ালাইজেশন টেকনিক ব্যবহার করা হয়।

# বক্সপ্লটের মাধ্যমে আউটলায়ার চিহ্নিত করা
sns.boxplot(x=data['column_name'])
plt.show()

EDA এর গুরুত্বপূর্ণ টুলস

Pandas:
ডেটা লোড এবং প্রক্রিয়াকরণে ব্যবহৃত হয়। এটি ডেটা ম্যানিপুলেশন, ফিল্টারিং, গ্রুপিং এবং রি-অর্গানাইজেশন এর জন্য শক্তিশালী টুল।
Matplotlib & Seaborn:
ডেটার ভিজ্যুয়ালাইজেশন করার জন্য ব্যবহৃত হয়। Matplotlib এবং Seaborn এর মাধ্যমে সহজেই গ্রাফ, চার্ট এবং প্যাটার্ন দৃশ্যমান করা যায়।
Scipy:
পরিসংখ্যান এবং মডেলিংয়ের জন্য একটি শক্তিশালী প্যাকেজ। এটি সাধারণত টেস্টিং এবং আনালাইসিসের জন্য ব্যবহৃত হয়।
NumPy:
সংখ্যাগত বিশ্লেষণ এবং ডেটা ম্যানিপুলেশন করতে ব্যবহৃত হয়।

EDA এর সুবিধা

ডেটার অন্তর্নিহিত প্যাটার্ন ও ট্রেন্ড বুঝতে সাহায্য করে।
ডেটা থেকে নতুন ধারণা পাওয়া যায়, যা মডেল তৈরির জন্য সহায়ক।
ডেটা সম্পর্কিত গুরুত্বপূর্ণ সিদ্ধান্ত নেওয়া সহজ হয়।
ডেটার ত্রুটি বা অস্বাভাবিকতা চিহ্নিত করার মাধ্যমে পরবর্তী বিশ্লেষণের জন্য প্রস্তুতি নেয়া যায়।

সারাংশ

Exploratory Data Analysis (EDA) একটি গুরুত্বপূর্ণ প্রক্রিয়া যা ডেটার উপর গভীরভাবে কাজ করার আগে তা ভালোভাবে বোঝার সুযোগ প্রদান করে। এটি ডেটার মধ্যে থাকা প্যাটার্ন, সম্পর্ক, এবং অস্বাভাবিকতা চিহ্নিত করতে সহায়ক। EDA করার মাধ্যমে পরবর্তী পরিসংখ্যানিক মডেল বা মেশিন লার্নিং মডেল নির্মাণের জন্য গুরুত্বপূর্ণ তথ্য সংগ্রহ করা যায়।

Content added By

Md Azizur Rahman

ডেটা ভিজুয়ালাইজেশন (H2O.ai Flow এবং Python/R ব্যবহার)

164

ডেটা ভিজুয়ালাইজেশন একটি গুরুত্বপূর্ণ অংশ, যা ডেটা বিশ্লেষণ এবং মডেলিং প্রক্রিয়াকে সহজ এবং কার্যকর করে তোলে। H2O.ai প্ল্যাটফর্ম ডেটা ভিজুয়ালাইজেশনের জন্য দুটি প্রধান পদ্ধতি প্রদান করে: H2O.ai Flow এবং Python/R এর মাধ্যমে।

১. H2O.ai Flow ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

H2O Flow একটি ওয়েব-ভিত্তিক ইউজার ইন্টারফেস যা H2O.ai এর সাথে সংযুক্ত সমস্ত ডেটা এবং মডেলগুলির ভিজুয়ালাইজেশন সরবরাহ করে। এটি ব্যবহারকারীদের ডেটা বিশ্লেষণ এবং মডেল ট্রেনিং-এর জন্য একটি সহজ ইন্টারফেস প্রদান করে।

H2O Flow এর মাধ্যমে ডেটা ভিজুয়ালাইজেশন করার জন্য পদক্ষেপ:

H2O Flow চালু করুন:
প্রথমে, H2O সার্ভার চালু করতে হবে, এবং তারপর H2O Flow ইন্টারফেসটি আপনার ব্রাউজারে খোলার জন্য একটি লিংক তৈরি করবে:
```
import h2o
h2o.init()
```
এই কোডটি H2O সার্ভার চালু করবে এবং Flow ইন্টারফেসটি শুরু করবে, যা সাধারণত localhost:54321 এ খোলে।
ডেটা আপলোড করুন:
Flow ইন্টারফেসে ডেটা আপলোড করার জন্য:
- Upload File অপশনটি ব্যবহার করুন।
- সেখান থেকে আপনার CSV বা অন্য ফাইল নির্বাচন করুন।
ডেটা ভিজুয়ালাইজেশন:
Flow ইন্টারফেসে ডেটা ভিজুয়ালাইজ করার জন্য বেশ কিছু অপশন থাকবে:
- Summary Statistics দেখতে পারবেন, যেমন গড়, মীন, এবং মড।
- Histogram: বিভিন্ন কলামের জন্য হিস্টোগ্রাম তৈরি করুন।
- Pair Plot: বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্ক দেখতে Pair Plot ব্যবহার করুন।
মডেল ভিজুয়ালাইজেশন:
- Model Performance: বিভিন্ন মডেল ট্রেনিংয়ের পর তার পারফরম্যান্স গ্রাফিকালি দেখতে পারবেন।
- Feature Importance: আপনার মডেলের ফিচার ইমপোর্টেন্স গ্রাফিকালি ভিজুয়ালাইজ করতে পারবেন।

H2O Flow ইন্টারফেসে আপনি সহজেই ডেটা বিশ্লেষণ এবং মডেল ফলাফল ভিজুয়ালাইজ করতে পারবেন।

২. Python ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

Python এ ডেটা ভিজুয়ালাইজেশন করার জন্য সাধারণত Matplotlib, Seaborn, অথবা Plotly এর মতো লাইব্রেরি ব্যবহৃত হয়।

Python এ H2O ডেটার জন্য ভিজুয়ালাইজেশন:

Python এর মাধ্যমে ডেটা লোড করা:

import h2o
h2o.init()

# ডেটা লোড করা
data = h2o.import_file("path/to/your/data.csv")

Pandas DataFrame এ কনভার্ট করা:
H2O ডেটা ফ্রেমকে pandas ডেটা ফ্রেমে কনভার্ট করে ভিজুয়ালাইজেশন করা সহজ:
```
import pandas as pd

# H2O ডেটা ফ্রেমকে pandas ডেটা ফ্রেমে কনভার্ট করা
data_pandas = data.as_data_frame()
```

Matplotlib এবং Seaborn এর মাধ্যমে ভিজুয়ালাইজেশন:

import matplotlib.pyplot as plt
import seaborn as sns

# Histogram তৈরি করা
plt.figure(figsize=(10,6))
sns.histplot(data_pandas['column_name'], kde=True)
plt.title('Histogram of Column Name')
plt.show()

Pair Plot এবং Scatter Plot:

# Pair plot
sns.pairplot(data_pandas)
plt.show()

# Scatter plot
plt.scatter(data_pandas['column1'], data_pandas['column2'])
plt.xlabel('Column 1')
plt.ylabel('Column 2')
plt.title('Scatter plot between Column 1 and Column 2')
plt.show()

Plotly ব্যবহার করে ইন্টারেক্টিভ ভিজুয়ালাইজেশন:

import plotly.express as px

# Scatter plot তৈরি করা
fig = px.scatter(data_pandas, x="column1", y="column2", title="Scatter Plot")
fig.show()

Plotly ব্যবহারে আপনি ইন্টারেক্টিভ গ্রাফ তৈরি করতে পারবেন, যা ব্যবহারকারীদের জন্য আরও আকর্ষণীয় এবং কার্যকর।

৩. R ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

R এর জন্য সাধারণত ggplot2 এবং plotly ব্যবহার করা হয়।

R এ H2O ডেটার জন্য ভিজুয়ালাইজেশন:

R এ ডেটা লোড করা:

library(h2o)
h2o.init()

# ডেটা লোড করা
data <- h2o.importFile("path/to/your/data.csv")

H2O ডেটা ফ্রেমকে R DataFrame এ কনভার্ট করা:
```
data_r <- as.data.frame(data)
```

ggplot2 ব্যবহার করে ভিজুয়ালাইজেশন:

library(ggplot2)

# Histogram তৈরি করা
ggplot(data_r, aes(x = column_name)) + 
  geom_histogram(binwidth = 1, fill = "blue", color = "black") +
  ggtitle("Histogram of Column Name")

ggplot2 এর মাধ্যমে Scatter Plot:

ggplot(data_r, aes(x = column1, y = column2)) + 
  geom_point() + 
  ggtitle("Scatter Plot between Column 1 and Column 2")

Plotly ব্যবহার করে ইন্টারেক্টিভ ভিজুয়ালাইজেশন:

library(plotly)

# Scatter plot তৈরি করা
plot_ly(data_r, x = ~column1, y = ~column2, type = "scatter", mode = "markers")

Plotly এর মাধ্যমে আপনি ইন্টারেক্টিভ গ্রাফ তৈরি করতে পারবেন, যা আরও বেশি ভিজুয়াল এনগেজমেন্ট তৈরি করে।

সারাংশ

H2O Flow: H2O.ai এর ওয়েব-ভিত্তিক ইন্টারফেস যেখানে আপনি ডেটা বিশ্লেষণ এবং মডেল ভিজুয়ালাইজেশন করতে পারবেন।
Python: Python এ Matplotlib, Seaborn, এবং Plotly ব্যবহার করে ডেটা ভিজুয়ালাইজেশন করা যায়।
R: R এ ggplot2 এবং plotly ব্যবহার করে ডেটা ভিজুয়ালাইজেশন করা যায়।

H2O.ai এর প্ল্যাটফর্ম এবং Python/R এর মাধ্যমে ডেটা ভিজুয়ালাইজেশন ব্যবহারের মাধ্যমে আপনি ডেটার গুরুত্বপূর্ণ ইনসাইট দ্রুত এবং কার্যকরভাবে পেতে পারবেন।

Content added By

Md Azizur Rahman

Summary Statistics এবং Correlation Analysis

189

Summary Statistics

Summary statistics বা সারাংশ পরিসংখ্যান হলো একটি ডেটা সেটের মূল বৈশিষ্ট্যগুলি দ্রুত এবং সহজভাবে বিশ্লেষণ করার জন্য ব্যবহৃত পরিসংখ্যান। এটি ডেটার সারাংশ তুলে ধরার জন্য ব্যবহৃত কিছু মৌলিক পরিসংখ্যানগত মেট্রিক্স সরবরাহ করে, যেমন:

1. Mean (গড়):

গড় হলো ডেটা সেটের সমস্ত মানের যোগফলকে ডেটা পয়েন্টের সংখ্যা দিয়ে ভাগ করার ফল। এটি ডেটার সাধারণ মাত্রা বা কেন্দ্রীয় প্রবণতাকে দেখায়।

ফর্মুলা: $Mean=∑ni=1xin<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Mean</mtext><mo>=</mo><mfrac><mrow><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>i</mi></msub></mrow><mi>n</mi></mfrac></mrow><annotation encoding="application/x-tex">\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n}</annotation></semantics></math>$ যেখানে $x i <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>x</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">x_i</annotation></semantics></math>$ প্রতিটি ডেটা পয়েন্ট এবং $n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ মোট পয়েন্টের সংখ্যা।

2. Median (মধ্যম):

মধ্যম হলো ডেটা সেটের মাঝের মান। যখন ডেটা গুলি সাজানো থাকে, তখন মধ্যম হলো সেই মান যা মাঝখানে অবস্থান করে। যদি ডেটার সংখ্যা বিজোড় হয়, তাহলে একক মান হবে; যদি সোজা হয়, তাহলে দুটি মানের গড়।

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

Mode হলো ডেটা সেটের সবচেয়ে বারবার পাওয়া মান। এটি ডেটার প্রবণতাকে চিহ্নিত করতে সহায়ক।

4. Standard Deviation (প্রমিত বিচ্যুতি):

প্রমিত বিচ্যুতি হল একটি পরিসংখ্যান যা ডেটা পয়েন্টের গড় থেকে কতটুকু বিচ্যুত হতে পারে তা পরিমাপ করে।

ফর্মুলা: $Standard Deviation=√∑ni=1(xi−μ)2n<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Standard Deviation</mtext><mo>=</mo><msqrt><mfrac><mrow><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo stretchy="false">(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>−</mo><mi>μ</mi><msup><mo stretchy="false">)</mo><mn>2</mn></msup></mrow><mi>n</mi></mfrac></msqrt></mrow><annotation encoding="application/x-tex">\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}</annotation></semantics></math>$ যেখানে $x i <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>x</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">x_i</annotation></semantics></math>$ প্রতিটি ডেটা পয়েন্ট, $μ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>μ</mi></mrow><annotation encoding="application/x-tex">\mu</annotation></semantics></math>$ গড়, এবং $n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ মোট ডেটা পয়েন্ট।

5. Variance (বিচ্যুতি):

Variance হলো standard deviation এর বর্গ। এটি ডেটার বিস্তার বা ছড়িয়ে পড়ার পরিমাণকে মাপতে ব্যবহৃত হয়।

ফর্মুলা: $Variance=∑ni=1(xi−μ)2n<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Variance</mtext><mo>=</mo><mfrac><mrow><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo stretchy="false">(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>−</mo><mi>μ</mi><msup><mo stretchy="false">)</mo><mn>2</mn></msup></mrow><mi>n</mi></mfrac></mrow><annotation encoding="application/x-tex">\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}</annotation></semantics></math>$

6. Range (পরিসীমা):

Range হলো ডেটা সেটের সর্বোচ্চ মান এবং সর্বনিম্ন মানের মধ্যে পার্থক্য।

ফর্মুলা: $Range=Maximum Value−Minimum Value<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Range</mtext><mo>=</mo><mtext>Maximum Value</mtext><mo>−</mo><mtext>Minimum Value</mtext></mrow><annotation encoding="application/x-tex">\text{Range} = \text{Maximum Value} - \text{Minimum Value}</annotation></semantics></math>$

7. Quartiles and Interquartile Range (IQR):

Quartiles হলো ডেটা সেটকে চারটি সমান অংশে ভাগ করার পদ্ধতি। IQR হলো তৃতীয় Quartile ( $Q 3 <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>Q</mi><mn>3</mn></mrow><annotation encoding="application/x-tex">Q3</annotation></semantics></math>$ ) এবং প্রথম Quartile ( $Q 1 <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>Q</mi><mn>1</mn></mrow><annotation encoding="application/x-tex">Q1</annotation></semantics></math>$ ) এর মধ্যে পার্থক্য।

IQR: $IQR=Q3−Q1<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>IQR</mtext><mo>=</mo><mi>Q</mi><mn>3</mn><mo>−</mo><mi>Q</mi><mn>1</mn></mrow><annotation encoding="application/x-tex">\text{IQR} = Q3 - Q1</annotation></semantics></math>$

Correlation Analysis

Correlation analysis হলো দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করার প্রক্রিয়া। এটি সাহায্য করে বুঝতে যে এক ভেরিয়েবল অন্য ভেরিয়েবলের উপর কতটুকু প্রভাব ফেলছে।

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Correlation coefficient একটি পরিসংখ্যানগত মান যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। এটি -1 থেকে 1 এর মধ্যে থাকে, যেখানে:

+1: পূর্ণ ইতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি বাড়ে)
-1: পূর্ণ নেতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি কমে)
0: কোনো সম্পর্ক নেই

Pearson’s Correlation Coefficient:

Pearson’s correlation coefficient সবচেয়ে সাধারণভাবে ব্যবহৃত পরিসংখ্যান যা দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি পরিমাপ করে।

ফর্মুলা: $r=n∑xiyi−∑xi∑yi√[n∑x2i−(∑xi)2][n∑y2i−(∑yi)2]<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>r</mi><mo>=</mo><mfrac><mrow><mi>n</mi><mo>∑</mo><mrow><msub><mi>x</mi><mi>i</mi></msub><msub><mi>y</mi><mi>i</mi></msub></mrow><mo>−</mo><mo>∑</mo><msub><mi>x</mi><mi>i</mi></msub><mo>∑</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><msqrt><mrow><mo stretchy="false">[</mo><mi>n</mi><mo>∑</mo><msubsup><mi>x</mi><mi>i</mi><mn>2</mn></msubsup><mo>−</mo><mo stretchy="false">(</mo><mo>∑</mo><msub><mi>x</mi><mi>i</mi></msub><msup><mo stretchy="false">)</mo><mn>2</mn></msup><mo stretchy="false">]</mo><mo stretchy="false">[</mo><mi>n</mi><mo>∑</mo><msubsup><mi>y</mi><mi>i</mi><mn>2</mn></msubsup><mo>−</mo><mo stretchy="false">(</mo><mo>∑</mo><msub><mi>y</mi><mi>i</mi></msub><msup><mo stretchy="false">)</mo><mn>2</mn></msup><mo stretchy="false">]</mo></mrow></msqrt></mfrac></mrow><annotation encoding="application/x-tex">r = \frac{n \sum{x_i y_i} - \sum{x_i} \sum{y_i}}{\sqrt{[n \sum{x_i^2} - (\sum{x_i})^2][n \sum{y_i^2} - (\sum{y_i})^2]}}</annotation></semantics></math>$ যেখানে $x i <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>x</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">x_i</annotation></semantics></math>$ এবং $y i <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>y</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">y_i</annotation></semantics></math>$ হল দুটি ভেরিয়েবলের মান এবং $n <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math>$ হল ডেটা পয়েন্টের সংখ্যা।

Spearman’s Rank Correlation:

Spearman’s rank correlation coefficient রৈখিক সম্পর্কের পরিবর্তে, দুটি ভেরিয়েবলের মধ্যে মন্থন সম্পর্ক (monotonic relationship) পরিমাপ করে।

Kendall’s Tau:

Kendall’s tau coefficient দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ করে, বিশেষত যখন ডেটা শ্রেণীবদ্ধ করা হয়।

Correlation Matrix:

Correlation matrix হলো একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের একটি টেবিল। এটি একসাথে সমস্ত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক প্রদর্শন করে। এটি ডেটা বিশ্লেষণে সাহায্য করে যখন একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের মূল্যায়ন করা দরকার।

Visualizing Correlation:

Correlation visualization গ্রাফিক্যাল উপস্থাপনা দেয়, যেমন:

Heatmap: একটি সাধারণ টুল যেখানে একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক সম্পর্কিত মানগুলো রঙের মাধ্যমে প্রদর্শিত হয়।
Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর জন্য scatter plot ব্যবহার করা হয়, যেখানে সম্পর্কের ধরন পরিষ্কারভাবে বোঝা যায়।

সারাংশ

Summary Statistics: এটি ডেটা সেটের মৌলিক বৈশিষ্ট্য যেমন গড়, প্রমিত বিচ্যুতি, রেঞ্জ, এবং IQR পরিমাপ করে, যা ডেটার সাধারণ প্রবণতা এবং বৈচিত্র্য বুঝতে সাহায্য করে।
Correlation Analysis: এটি বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করে এবং বিভিন্ন ভেরিয়েবলের মধ্যে রৈখিক বা মন্থন সম্পর্কের শক্তি ও দিক বিশ্লেষণ করে। Pearson, Spearman, এবং Kendall এর মত বিভিন্ন কৌশল আছে যা সম্পর্কের শক্তি পরিমাপ করতে ব্যবহৃত হয়।

এই বিশ্লেষণগুলি ডেটা সায়েন্স এবং মেশিন লার্নিং মডেল তৈরির ক্ষেত্রে ডেটার কাঠামো এবং সম্পর্ক বুঝতে সহায়ক।

Content added By

Md Azizur Rahman

Feature Engineering এবং Feature Selection

207

মেশিন লার্নিং এবং ডেটা সায়েন্সে Feature Engineering এবং Feature Selection দুটি অত্যন্ত গুরুত্বপূর্ণ পদক্ষেপ। এগুলি মডেল প্রশিক্ষণের জন্য প্রয়োজনীয় বৈশিষ্ট্য (features) নির্বাচন এবং তৈরি করার প্রক্রিয়া। নিম্নে প্রতিটি ধারণা বিস্তারিতভাবে ব্যাখ্যা করা হয়েছে।

Feature Engineering (ফিচার ইঞ্জিনিয়ারিং)

Feature Engineering হল এমন একটি প্রক্রিয়া যেখানে raw ডেটা থেকে নতুন বা গুরুত্বপূর্ণ বৈশিষ্ট্য তৈরি করা হয়, যা মেশিন লার্নিং মডেলকে আরও ভালোভাবে কাজ করতে সহায়ক হয়। এর মাধ্যমে ডেটা থেকে বিভিন্ন বৈশিষ্ট্য তৈরি করা হয় যা মডেলের পারফরম্যান্স উন্নত করতে সাহায্য করে।

Feature Engineering এর কিছু উদাহরণ:

নতুন বৈশিষ্ট্য তৈরি করা:
কখনও কখনও raw ডেটা থেকে কিছু নতুন বৈশিষ্ট্য তৈরি করতে হয়, যা পূর্বের তথ্যের ওপর ভিত্তি করে নতুন তথ্য দিতে পারে। উদাহরণস্বরূপ:
- ডেটা সেটে দুটি বৈশিষ্ট্য (age, income) থাকার পর, age * income হিসেবে একটি নতুন বৈশিষ্ট্য তৈরি করা।
- দিনের তারিখ থেকে Weekday বা Weekend নামে একটি নতুন ফিচার তৈরি করা।
Missing values পূর্ণ করা:
ডেটাতে যদি কিছু missing values থাকে, তবে সেই missing values পূর্ণ করার জন্য বিভিন্ন পদ্ধতি ব্যবহার করা হয়:
- Mean, median, বা mode দিয়ে পূর্ণ করা।
- বিভিন্ন statistical বা machine learning techniques ব্যবহার করা।
স্কেলিং এবং নর্মালাইজেশন:
কিছু অ্যালগরিদম (যেমন SVM, KNN) এর জন্য বৈশিষ্ট্যগুলির স্কেলিং খুবই গুরুত্বপূর্ণ। তাই বিভিন্ন স্কেলিং পদ্ধতি যেমন Min-Max Scaling, Standardization ব্যবহার করা হয়।
ডেটা এনকোডিং:
ক্যাটেগোরিকাল ডেটাকে সংখ্যায় রূপান্তর করতে One-hot Encoding বা Label Encoding ব্যবহার করা হয়।
ফিচার ট্রান্সফরমেশন:
কিছু পরিস্থিতিতে, বৈশিষ্ট্যগুলির এক্সপোনেনশিয়াল, লগ, অথবা পলিনোমিয়াল রূপান্তর করা হতে পারে। উদাহরণস্বরূপ, log(Income) ব্যবহার করা।

Feature Engineering এর গুরুত্ব:

ডেটা বৈশিষ্ট্য বৃদ্ধি: ফিচার ইঞ্জিনিয়ারিং এর মাধ্যমে নতুন বৈশিষ্ট্য তৈরি করা হলে মডেলটি আরও বেশি তথ্য পায়।
মডেলের পারফরম্যান্স বৃদ্ধি: সঠিক বৈশিষ্ট্য তৈরি করা হলে মডেলের পারফরম্যান্স বৃদ্ধি পায় এবং overfitting বা underfitting কম হয়।

Feature Selection (ফিচার সিলেকশন)

Feature Selection হল সেই প্রক্রিয়া যেখানে এমন বৈশিষ্ট্যগুলি নির্বাচন করা হয় যা মডেলকে সর্বোত্তম পারফরম্যান্স দেয় এবং অপ্রয়োজনীয় বা অব্যবহৃত বৈশিষ্ট্যগুলি বাদ দেওয়া হয়। এটি মডেলকে দ্রুততর এবং বেশি কার্যকর করতে সহায়ক।

Feature Selection এর কিছু পদ্ধতি:

Filter Methods:
এই পদ্ধতিতে প্রতিটি বৈশিষ্ট্যকে স্বতন্ত্রভাবে বিশ্লেষণ করা হয় এবং একটি নির্দিষ্ট পরিসংখ্যান পদ্ধতি (যেমন, correlation, chi-square test, ANOVA) ব্যবহার করে বৈশিষ্ট্যগুলো নির্বাচন করা হয়।
- উদাহরণ: Correlation-based Feature Selection বা Chi-Square Test।
Wrapper Methods:
এই পদ্ধতিতে একটি বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা হয় যা মডেল ট্রেনিংয়ের উপর ভিত্তি করে বৈশিষ্ট্য নির্বাচন করে। এটি একটি হালকা brute-force পদ্ধতি, যেখানে মডেলটি ফিচারগুলির বিভিন্ন সেট ট্রাই করে এবং সেরা পারফরম্যান্স প্রদানকারী ফিচার সেট নির্বাচন করা হয়।
- উদাহরণ: Recursive Feature Elimination (RFE)।
Embedded Methods:
এই পদ্ধতিতে মডেল ট্রেনিংয়ের সময় ফিচার সিলেকশন করা হয়। মডেল তৈরি হওয়ার সময় বৈশিষ্ট্যগুলির প্রভাব (feature importance) বিশ্লেষণ করা হয়।
- উদাহরণ: Lasso Regression এবং Decision Trees।
Dimensionality Reduction:
এই পদ্ধতিতে বৈশিষ্ট্যগুলির সংখ্যা কমানোর জন্য techniques ব্যবহার করা হয়, যেমন:
- Principal Component Analysis (PCA): এটা বৈশিষ্ট্যগুলিকে একটি নতুন সেটে রূপান্তরিত করে যা মডেল প্রশিক্ষণে সহায়ক হয়।

Feature Selection এর গুরুত্ব:

মডেলের গতি বৃদ্ধি: কম সংখ্যক বৈশিষ্ট্য নির্বাচনের মাধ্যমে মডেল দ্রুত কাজ করতে পারে।
অপ্রয়োজনীয় বৈশিষ্ট্য বাদ দেওয়া: অব্যবহৃত বৈশিষ্ট্য মডেলের overfitting ঘটাতে পারে, তাই সেগুলি বাদ দিলে মডেলটি আরও সঠিক হবে।
মডেল কাস্টমাইজেশন: শুধুমাত্র গুরুত্বপূর্ণ বৈশিষ্ট্যগুলো ব্যবহার করলে মডেলটি আরও নির্ভুল এবং স্পষ্ট হয়।

সারাংশ

Feature Engineering হল ডেটা থেকে নতুন বৈশিষ্ট্য তৈরি করার প্রক্রিয়া, যা মডেলের পারফরম্যান্স উন্নত করতে সাহায্য করে।
Feature Selection হল এমন বৈশিষ্ট্যগুলি নির্বাচন করার প্রক্রিয়া যা মডেলের জন্য সবচেয়ে উপকারী এবং অবশিষ্ট বৈশিষ্ট্যগুলি বাদ দেওয়া হয়।

উচ্চ মানের ফিচার ইঞ্জিনিয়ারিং এবং সঠিক ফিচার সিলেকশন মডেলের পারফরম্যান্সের জন্য অত্যন্ত গুরুত্বপূর্ণ, এবং মেশিন লার্নিং প্রকল্পে এই দুটি পদক্ষেপ সফলতার চাবিকাঠি।

Content added By

Md Azizur Rahman

Outlier Detection এবং Missing Value Handling

186

ডেটা প্রক্রিয়াকরণের প্রাথমিক পদক্ষেপগুলির মধ্যে Outlier Detection (আউটলাইয়ার সনাক্তকরণ) এবং Missing Value Handling (মিসিং ভ্যালু হ্যান্ডলিং) অত্যন্ত গুরুত্বপূর্ণ। ডেটার গুণগত মান উন্নত করতে এবং মডেল ট্রেনিংয়ের ক্ষেত্রে সঠিক ফলাফল পাওয়ার জন্য এই দুটি ধাপ অবশ্যই প্রয়োজনীয়।

১. Outlier Detection (আউটলাইয়ার সনাক্তকরণ)

আউটলাইয়ার হলো সেই ডেটা পয়েন্ট বা ভ্যালু যা বাকী ডেটার থেকে উল্লেখযোগ্যভাবে পৃথক বা দূরে অবস্থান করে। আউটলাইয়ার সনাক্তকরণ গুরুত্বপূর্ণ, কারণ আউটলাইয়ার ডেটা মডেলের ফলাফল বা বিশ্লেষণে ভুল প্রভাব ফেলতে পারে।

আউটলাইয়ার সনাক্তকরণের পদ্ধতি

Statistical Methods (সংখ্যাত্মক পদ্ধতি):
- Z-Score Method: Z-স্কোর ডেটার বর্তমান ভ্যালু এবং তার গড় থেকে কতটুকু দূরে তা নির্ধারণ করে। সাধারণত Z-স্কোর ±3 এর বাইরে থাকলে তা আউটলাইয়ার হিসেবে চিহ্নিত করা হয়।
```
from scipy import stats
import numpy as np
data = np.array([10, 12, 15, 22, 98, 10, 14, 15, 12, 11])
z_scores = np.abs(stats.zscore(data))
outliers = np.where(z_scores > 3)
print(outliers)
```
IQR (Interquartile Range) Method: IQR পদ্ধতিতে ডেটার ২৫% এবং ৭৫% কোয়ান্টাইল এর মধ্যে পার্থক্যকে ব্যবহার করে আউটলাইয়ার সনাক্ত করা হয়। যদি একটি ডেটা পয়েন্ট Q1 - 1.5 * IQR এর চেয়ে কম বা Q3 + 1.5 * IQR এর চেয়ে বেশি হয়, তবে সেটি আউটলাইয়ার হিসেবে চিহ্নিত করা হয়।
```
import numpy as np
data = np.array([10, 12, 15, 22, 98, 10, 14, 15, 12, 11])
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = [x for x in data if x < lower_bound or x > upper_bound]
print(outliers)
```
Visualization Methods (ভিজ্যুয়াল পদ্ধতি):
- Box Plot: এটি আউটলাইয়ার সনাক্ত করার জন্য একটি জনপ্রিয় পদ্ধতি। যখন ডেটা বক্স প্লটে দেখানো হয়, তখন বাহিরের "whiskers" এর বাইরে অবস্থানকারী পয়েন্টগুলি আউটলাইয়ার হতে পারে।
- Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখতে স্ক্যাটার প্লট ব্যবহৃত হয়। আউটলাইয়ারগুলো স্ক্যাটার প্লটের বাইরে দৃশ্যমান হতে পারে।

আউটলাইয়ার হ্যান্ডলিং

Remove Outliers (আউটলাইয়ার অপসারণ): অনেক সময় আউটলাইয়ার ডেটা মডেলিং প্রক্রিয়ায় অপ্রয়োজনীয় বা বিভ্রান্তিকর ফলাফল দেয়। সেক্ষেত্রে আউটলাইয়ারগুলো সরিয়ে ফেলা যেতে পারে।
Cap or Transform Outliers (আউটলাইয়ার ক্যাপ বা রূপান্তর): আউটলাইয়ারগুলোকে নির্দিষ্ট মানে ক্যাপ (যেমন ১, ১০০) করা যেতে পারে অথবা লঘু বা শক্তিশালী রূপান্তর (যেমন লগ ট্রান্সফর্মেশন) করা যেতে পারে।

২. Missing Value Handling (মিসিং ভ্যালু হ্যান্ডলিং)

মিসিং ভ্যালু বা অনুপস্থিত ডেটা যেকোনো ডেটাসেটে সাধারণ সমস্যা। সঠিকভাবে মিসিং ভ্যালু হ্যান্ডলিং না করলে মডেলিংয়ের প্রক্রিয়া বিপর্যস্ত হতে পারে এবং ফলস্বরূপ সঠিক পূর্বাভাস পাওয়া কঠিন হয়ে পড়তে পারে।

মিসিং ভ্যালু হ্যান্ডলিং এর পদ্ধতি

Remove Missing Values (মিসিং ভ্যালু অপসারণ): মিসিং ভ্যালু বিশাল পরিমাণে যদি না থাকে, তবে সম্পূর্ণ সারি বা কলাম অপসারণ করা যেতে পারে।
```
import pandas as pd
df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, 6, 7, 8]})
df = df.dropna()
print(df)
```
Imputation (ইম্পিউটেশন): মিসিং ভ্যালু প্রতিস্থাপন করার জন্য কিছু পদ্ধতি রয়েছে:
- Mean/Median Imputation: কন্টিনিউয়াস ডেটার জন্য মিসিং ভ্যালুগুলো গড় (mean) বা মধ্যম (median) মান দিয়ে পূর্ণ করা যায়।
```
df['A'] = df['A'].fillna(df['A'].mean())
```
- Mode Imputation: ক্যাটেগরিক্যাল ডেটার জন্য মিসিং ভ্যালুগুলো সর্বাধিক পুনরাবৃত্ত মান দিয়ে পূর্ণ করা হয়।
```
df['B'] = df['B'].fillna(df['B'].mode()[0])
```
- KNN Imputation: K-Nearest Neighbors (KNN) অ্যালগরিদম ব্যবহার করে মিসিং ভ্যালুগুলো সন্নিহিত নিকটতম সিমিলার রেকর্ড থেকে পূর্ণ করা যেতে পারে।
- Regression Imputation: একটি রিগ্রেশন মডেল ব্যবহার করে, মিসিং মানটি পূর্ববর্তী বৈশিষ্ট্যগুলির উপর ভিত্তি করে পূর্ণ করা যেতে পারে।
Predictive Modelling (প্রীডিক্টিভ মডেলিং): মিসিং ভ্যালুগুলোর জন্য একটি বিশেষ মডেল তৈরি করা যেতে পারে, যা পূর্ববর্তী ডেটা ব্যবহার করে মিসিং ভ্যালুগুলোর মান অনুমান করবে।

সারাংশ

Outlier Detection এর মাধ্যমে এমন ডেটা পয়েন্ট সনাক্ত করা হয়, যা অন্যান্য ডেটার থেকে অনেকটাই আলাদা। আউটলাইয়ার সনাক্ত করতে Z-Score, IQR, এবং ভিজ্যুয়াল পদ্ধতি ব্যবহৃত হয়। আউটলাইয়ার হ্যান্ডলিং করতে আউটলাইয়ারগুলো মুছে ফেলা বা ক্যাপ করা যেতে পারে।
Missing Value Handling এর মাধ্যমে মিসিং ভ্যালুগুলো পূর্ণ করা হয়। সাধারণ পদ্ধতি হিসেবে মিডিয়ান/মিন ইম্পিউটেশন, মোড ইম্পিউটেশন, এবং কাস্টম মডেলিং ব্যবহার করা যায়।

এই প্রক্রিয়াগুলি সঠিকভাবে অনুসরণ করলে ডেটার গুণগত মান বৃদ্ধি পায় এবং মডেলিংয়ে আরও সঠিক ফলাফল পাওয়া যায়।

Content added By

Md Azizur Rahman

এইচ২ও (H2O) পরচিতি H2O.ai এর সেটআপ এবং ইনস্টলেশন H2O.ai এর বেসিক ধারণা ডেটা লোড এবং প্রি-প্রসেসিং মেশিন লার্নিং মডেল তৈরি

Exploratory Data Analysis (EDA)

EDA এর প্রধান উদ্দেশ্য

EDA প্রক্রিয়া

১. ডেটা লোডিং

২. ডেটার প্রাথমিক পর্যালোচনা

৩. ডেটা ক্লিনিং

৪. ডেটার ভিজ্যুয়ালাইজেশন

৫. সম্পর্ক বিশ্লেষণ

৬. আউটলায়ার চিহ্নিত করা

EDA এর গুরুত্বপূর্ণ টুলস

EDA এর সুবিধা

সারাংশ

ডেটা ভিজুয়ালাইজেশন (H2O.ai Flow এবং Python/R ব্যবহার)

১. H2O.ai Flow ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

H2O Flow এর মাধ্যমে ডেটা ভিজুয়ালাইজেশন করার জন্য পদক্ষেপ:

২. Python ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

Python এ H2O ডেটার জন্য ভিজুয়ালাইজেশন:

Plotly ব্যবহার করে ইন্টারেক্টিভ ভিজুয়ালাইজেশন:

৩. R ব্যবহার করে ডেটা ভিজুয়ালাইজেশন

R এ H2O ডেটার জন্য ভিজুয়ালাইজেশন:

Plotly ব্যবহার করে ইন্টারেক্টিভ ভিজুয়ালাইজেশন:

সারাংশ

Summary Statistics এবং Correlation Analysis

Summary Statistics

1. Mean (গড়):

2. Median (মধ্যম):

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

4. Standard Deviation (প্রমিত বিচ্যুতি):

5. Variance (বিচ্যুতি):

6. Range (পরিসীমা):

7. Quartiles and Interquartile Range (IQR):

Correlation Analysis

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Pearson’s Correlation Coefficient:

Spearman’s Rank Correlation:

Kendall’s Tau:

Correlation Matrix:

Visualizing Correlation:

সারাংশ

Feature Engineering এবং Feature Selection

Feature Engineering (ফিচার ইঞ্জিনিয়ারিং)

Feature Engineering এর কিছু উদাহরণ:

Feature Engineering এর গুরুত্ব:

Feature Selection (ফিচার সিলেকশন)

Feature Selection এর কিছু পদ্ধতি:

Feature Selection এর গুরুত্ব:

সারাংশ

Outlier Detection এবং Missing Value Handling

১. Outlier Detection (আউটলাইয়ার সনাক্তকরণ)

আউটলাইয়ার সনাক্তকরণের পদ্ধতি

আউটলাইয়ার হ্যান্ডলিং

২. Missing Value Handling (মিসিং ভ্যালু হ্যান্ডলিং)

মিসিং ভ্যালু হ্যান্ডলিং এর পদ্ধতি

সারাংশ

All Notifications

Promotion