ডেটা Normalization এবং Standardization

Data Preprocessing এবং Augmentation - কেরাস (Keras) - Machine Learning

401

ডেটা প্রিপ্রসেসিং এর গুরুত্বপূর্ণ দুটি অংশ হল Normalization এবং Standardization। এগুলি এমন পদ্ধতি যা ডেটার স্কেল বা বিতরণ পরিবর্তন করে, যাতে মডেলগুলি ভালোভাবে কাজ করতে পারে। এই প্রক্রিয়াগুলি বিশেষ করে মেশিন লার্নিং এবং ডীপ লার্নিং মডেল ট্রেনিং এর ক্ষেত্রে খুবই গুরুত্বপূর্ণ।

১. Normalization (স্কেলিং)

Normalization হল একটি প্রক্রিয়া যেখানে ডেটার ভ্যালুগুলিকে একটি নির্দিষ্ট স্কেলে নিয়ে আসা হয়, সাধারণত [0, 1] বা [-1, 1] এর মধ্যে। এটি মূলত min-max scaling নামে পরিচিত।

Normalization সাধারণত তখন ব্যবহৃত হয় যখন ডেটার ভ্যালুগুলি খুব বড় বা খুব ছোট হতে পারে এবং তাদের মধ্যে বিরাট পার্থক্য থাকে। এটি ব্যবহৃত হয় যখন ডেটার বিভিন্ন ফিচার (feature) গুলির স্কেল সমান হতে হবে।

Min-Max Normalization Formula:

$X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$

যেখানে:

$X$ হল ডেটার একটি ভ্যালু
$X_{\text{min}}$ হল ডেটার সর্বনিম্ন মান
$X_{\text{max}}$ হল ডেটার সর্বোচ্চ মান

এই প্রক্রিয়ায় ডেটার সকল মান [0, 1] এর মধ্যে কনভার্ট হয়ে যাবে।

Normalization এর সুবিধা:

এটি মডেলগুলিকে দ্রুত শিখতে সহায়তা করে, বিশেষত যদি মডেলটি gradient descent অপটিমাইজার ব্যবহার করে।
যখন ডেটার স্কেল খুব বেশি বা খুব কম হয়, তখন Normalization ব্যবহৃত হয়।

Normalization এর উদাহরণ:

from sklearn.preprocessing import MinMaxScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print(normalized_data)

২. Standardization (Z-score Normalization)

Standardization হল ডেটার স্কেল পরিবর্তন করার আরেকটি পদ্ধতি, যেখানে ডেটার প্রতিটি ভ্যালু থেকে তার mean (গড়) বিয়োগ করা হয় এবং তারপরে standard deviation দিয়ে ভাগ করা হয়। এর ফলে ডেটার প্রতিটি ফিচারের গড় হবে ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন হবে ১।

Standardization Formula:

$X_{\text{std}} = \frac{X - \mu}{\sigma}$

যেখানে:

$X$ হল ডেটার একটি ভ্যালু
$\mu$ হল ডেটার গড় (mean)
$\sigma$ হল ডেটার স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation)

এই পদ্ধতিতে ডেটার মান এমনভাবে পরিবর্তিত হয় যে এটি গড় থেকে বিচ্যুতির (deviation) ভিত্তিতে স্কেল হয়, এবং স্ট্যান্ডার্ড ডেভিয়েশন হয়ে যায় ১।

Standardization এর সুবিধা:

যখন ডেটার মধ্যে অনেক ভ্যারিয়েশন থাকে এবং তারা বিভিন্ন স্কেলে থাকে, তখন Standardization সবচেয়ে উপকারী।
এটি বিশেষভাবে প্রয়োগ হয় যখন ডেটার ডিসট্রিবিউশন গৌসিয়ান (Gaussian) বা নরমাল (Normal) হয়, যেমন linear regression, logistic regression, এবং SVM এর মতো মডেলগুলিতে।

Standardization এর উদাহরণ:

from sklearn.preprocessing import StandardScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print(standardized_data)

Normalization এবং Standardization এর মধ্যে পার্থক্য

প্যারামিটার	Normalization (Min-Max Scaling)	Standardization (Z-score Normalization)
প্রক্রিয়া	ডেটার সর্বনিম্ন এবং সর্বোচ্চ মান থেকে স্কেল পরিবর্তন	গড় থেকে বিচ্যুতি এবং স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে স্কেল পরিবর্তন
ফর্মুলা	$\frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$	$\frac{X - \mu}{\sigma}$
স্কেল	[0, 1] অথবা [-1, 1]	গড় ০, স্ট্যান্ডার্ড ডেভিয়েশন ১
ডেটার ধরণ	যখন ডেটা নির্দিষ্ট সীমার মধ্যে থাকে	যখন ডেটা গৌসিয়ান বা নরমাল ডিসট্রিবিউশন থাকে
ব্যবহার	নিউরাল নেটওয়ার্ক, k-NN, এবং অন্যান্য অ্যালগরিদম যেখানে স্কেল খুব গুরুত্বপূর্ণ	লিনিয়ার রিগ্রেশন, SVM, লজিস্টিক রিগ্রেশন যেখানে গড় এবং বিচ্যুতি গুরুত্বপূর্ণ

সারাংশ

Normalization: এটি ডেটার স্কেল [0, 1] বা [-1, 1] মধ্যে এনে দেয়। এটি বিশেষভাবে ব্যবহৃত হয় যখন ডেটার স্কেল বিশাল পার্থক্য থাকতে পারে এবং মডেলের পারফরম্যান্সের জন্য স্কেল একে অপরের সমান হওয়া উচিত।
Standardization: এটি ডেটাকে গড় ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ এর মধ্যে রূপান্তরিত করে। এটি ব্যবহার করা হয় যখন ডেটার স্কেলগুলি খুব ভিন্ন এবং গৌসিয়ান ডিস্ট্রিবিউশনের সঙ্গে মডেলিং করতে হয়।

মেশিন লার্নিং মডেলের সঠিক ফলাফল পেতে, ডেটার প্রক্রিয়াকরণের এই দুটি পদ্ধতি যেকোনো ডেটাসেটের জন্য গুরুত্বপূর্ণ হতে পারে।

Content added By

Azizar Rahman Aziz

ডেটা লোড করা (CSV, Image, Text) Data Augmentation এবং এর প্রয়োজনীয়তা Training, Validation এবং Test Data Split

ডেটা Normalization এবং Standardization

১. Normalization (স্কেলিং)

২. Standardization (Z-score Normalization)

Normalization এবং Standardization এর মধ্যে পার্থক্য

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

ডেটা Normalization এবং Standardization

১. Normalization (স্কেলিং)

২. Standardization (Z-score Normalization)

Normalization এবং Standardization এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!