ডেটা Normalization এবং Standardization

Data Preprocessing এবং Augmentation - কেরাস (Keras) - Machine Learning

378

ডেটা প্রিপ্রসেসিং এর গুরুত্বপূর্ণ দুটি অংশ হল Normalization এবং Standardization। এগুলি এমন পদ্ধতি যা ডেটার স্কেল বা বিতরণ পরিবর্তন করে, যাতে মডেলগুলি ভালোভাবে কাজ করতে পারে। এই প্রক্রিয়াগুলি বিশেষ করে মেশিন লার্নিং এবং ডীপ লার্নিং মডেল ট্রেনিং এর ক্ষেত্রে খুবই গুরুত্বপূর্ণ।

১. Normalization (স্কেলিং)

Normalization হল একটি প্রক্রিয়া যেখানে ডেটার ভ্যালুগুলিকে একটি নির্দিষ্ট স্কেলে নিয়ে আসা হয়, সাধারণত [0, 1] বা [-1, 1] এর মধ্যে। এটি মূলত min-max scaling নামে পরিচিত।

Normalization সাধারণত তখন ব্যবহৃত হয় যখন ডেটার ভ্যালুগুলি খুব বড় বা খুব ছোট হতে পারে এবং তাদের মধ্যে বিরাট পার্থক্য থাকে। এটি ব্যবহৃত হয় যখন ডেটার বিভিন্ন ফিচার (feature) গুলির স্কেল সমান হতে হবে।

Min-Max Normalization Formula:

Xnorm=XXminXmaxXminX_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}

যেখানে:

  • XX হল ডেটার একটি ভ্যালু
  • XminX_{\text{min}} হল ডেটার সর্বনিম্ন মান
  • XmaxX_{\text{max}} হল ডেটার সর্বোচ্চ মান

এই প্রক্রিয়ায় ডেটার সকল মান [0, 1] এর মধ্যে কনভার্ট হয়ে যাবে।

Normalization এর সুবিধা:

  • এটি মডেলগুলিকে দ্রুত শিখতে সহায়তা করে, বিশেষত যদি মডেলটি gradient descent অপটিমাইজার ব্যবহার করে।
  • যখন ডেটার স্কেল খুব বেশি বা খুব কম হয়, তখন Normalization ব্যবহৃত হয়।

Normalization এর উদাহরণ:

from sklearn.preprocessing import MinMaxScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print(normalized_data)

২. Standardization (Z-score Normalization)

Standardization হল ডেটার স্কেল পরিবর্তন করার আরেকটি পদ্ধতি, যেখানে ডেটার প্রতিটি ভ্যালু থেকে তার mean (গড়) বিয়োগ করা হয় এবং তারপরে standard deviation দিয়ে ভাগ করা হয়। এর ফলে ডেটার প্রতিটি ফিচারের গড় হবে ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন হবে ১।

Standardization Formula:

Xstd=XμσX_{\text{std}} = \frac{X - \mu}{\sigma}

যেখানে:

  • XX হল ডেটার একটি ভ্যালু
  • μ\mu হল ডেটার গড় (mean)
  • σ\sigma হল ডেটার স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation)

এই পদ্ধতিতে ডেটার মান এমনভাবে পরিবর্তিত হয় যে এটি গড় থেকে বিচ্যুতির (deviation) ভিত্তিতে স্কেল হয়, এবং স্ট্যান্ডার্ড ডেভিয়েশন হয়ে যায় ১।

Standardization এর সুবিধা:

  • যখন ডেটার মধ্যে অনেক ভ্যারিয়েশন থাকে এবং তারা বিভিন্ন স্কেলে থাকে, তখন Standardization সবচেয়ে উপকারী।
  • এটি বিশেষভাবে প্রয়োগ হয় যখন ডেটার ডিসট্রিবিউশন গৌসিয়ান (Gaussian) বা নরমাল (Normal) হয়, যেমন linear regression, logistic regression, এবং SVM এর মতো মডেলগুলিতে।

Standardization এর উদাহরণ:

from sklearn.preprocessing import StandardScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print(standardized_data)

Normalization এবং Standardization এর মধ্যে পার্থক্য

প্যারামিটারNormalization (Min-Max Scaling)Standardization (Z-score Normalization)
প্রক্রিয়াডেটার সর্বনিম্ন এবং সর্বোচ্চ মান থেকে স্কেল পরিবর্তনগড় থেকে বিচ্যুতি এবং স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে স্কেল পরিবর্তন
ফর্মুলাXXminXmaxXmin\frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}Xμσ\frac{X - \mu}{\sigma}
স্কেল[0, 1] অথবা [-1, 1]গড় ০, স্ট্যান্ডার্ড ডেভিয়েশন ১
ডেটার ধরণযখন ডেটা নির্দিষ্ট সীমার মধ্যে থাকেযখন ডেটা গৌসিয়ান বা নরমাল ডিসট্রিবিউশন থাকে
ব্যবহারনিউরাল নেটওয়ার্ক, k-NN, এবং অন্যান্য অ্যালগরিদম যেখানে স্কেল খুব গুরুত্বপূর্ণলিনিয়ার রিগ্রেশন, SVM, লজিস্টিক রিগ্রেশন যেখানে গড় এবং বিচ্যুতি গুরুত্বপূর্ণ

সারাংশ

  • Normalization: এটি ডেটার স্কেল [0, 1] বা [-1, 1] মধ্যে এনে দেয়। এটি বিশেষভাবে ব্যবহৃত হয় যখন ডেটার স্কেল বিশাল পার্থক্য থাকতে পারে এবং মডেলের পারফরম্যান্সের জন্য স্কেল একে অপরের সমান হওয়া উচিত।
  • Standardization: এটি ডেটাকে গড় ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ এর মধ্যে রূপান্তরিত করে। এটি ব্যবহার করা হয় যখন ডেটার স্কেলগুলি খুব ভিন্ন এবং গৌসিয়ান ডিস্ট্রিবিউশনের সঙ্গে মডেলিং করতে হয়।

মেশিন লার্নিং মডেলের সঠিক ফলাফল পেতে, ডেটার প্রক্রিয়াকরণের এই দুটি পদ্ধতি যেকোনো ডেটাসেটের জন্য গুরুত্বপূর্ণ হতে পারে।

Content added By
Promotion

Are you sure to start over?

Loading...