Data Preprocessing এবং Augmentation

Machine Learning - কেরাস (Keras)

265

Data Preprocessing এবং Data Augmentation হল মেশিন লার্নিং এবং ডীপ লার্নিং প্রকল্পের গুরুত্বপূর্ণ পদক্ষেপ। এই দুটি প্রক্রিয়া ডেটাকে মডেল ট্রেনিংয়ের জন্য প্রস্তুত করার ক্ষেত্রে সহায়ক, যার মাধ্যমে মডেলটি আরও ভাল এবং নিখুঁতভাবে কাজ করতে পারে।

১. Data Preprocessing

Data Preprocessing হল ডেটাকে মডেল প্রশিক্ষণের জন্য প্রস্তুত করার প্রক্রিয়া। এটি বিভিন্ন ধাপের সমন্বয়ে গঠিত, যার মধ্যে ডেটা পরিস্কার, রূপান্তর এবং স্কেলিং অন্তর্ভুক্ত থাকে। এটি মডেলটির পারফরম্যান্স এবং নির্ভুলতা বৃদ্ধির জন্য অপরিহার্য।

১.১ Data Preprocessing এর পদক্ষেপগুলো:

Missing Data Handling:
- অনেক সময় ডেটাসেটে কিছু তথ্য অনুপস্থিত থাকতে পারে। অনুপস্থিত ডেটা পূর্ণ করার জন্য কিছু কৌশল ব্যবহৃত হয়:
  - Mean/Median Imputation: অনুপস্থিত মানকে গড় বা মধ্যমান দ্বারা প্রতিস্থাপন করা।
  - Mode Imputation: ক্যাটেগরিকাল ডেটার জন্য সর্বাধিক সাধারণ মান ব্যবহার করা।
  - Removal: যদি অনুপস্থিত মানের পরিমাণ অনেক বেশি হয়, তাহলে সেই রেকর্ডগুলো বাদ দেওয়া।
উদাহরণ:
```
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')  # গড় দ্বারা পূর্ণ করা
data_imputed = imputer.fit_transform(data)
```
Scaling/Normalization:
- মডেল ট্রেনিংয়ের সময় বিভিন্ন ফিচারের মধ্যে মানের বড় পার্থক্য থাকলে মডেলটি সঠিকভাবে কাজ নাও করতে পারে। তাই ডেটাকে স্কেল করা প্রয়োজন যাতে সমস্ত ফিচারের মান একই পরিসরে আসে (যেমন ০ থেকে ১ বা -১ থেকে ১)।
- Min-Max Scaling: ডেটাকে ০ থেকে ১ এর মধ্যে রূপান্তরিত করা।
- Standardization (Z-Score Normalization): ডেটাকে গড় ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ এ রূপান্তর করা।
উদাহরণ:
```
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data_scaled = scaler.fit_transform(data)
```
Encoding Categorical Data:
- ক্যাটেগরিকাল ডেটা (যেমন লিঙ্গ, রঙ, দেশ) মডেল দ্বারা বুঝতে পারার জন্য সংখ্যায় রূপান্তর করা প্রয়োজন। এজন্য দুটি সাধারণ পদ্ধতি রয়েছে:
  - Label Encoding: ক্যাটেগরিকাল মানগুলিকে একটি সংখ্যা দ্বারা প্রতিস্থাপন করা।
  - One-Hot Encoding: প্রতিটি ক্যাটেগরিকাল মানের জন্য একটি নতুন বাইনরি ফিচার তৈরি করা।
উদাহরণ:
```
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
data_encoded = labelencoder.fit_transform(data)
```
Handling Outliers:
- কিছু রেকর্ড অস্বাভাবিকভাবে বেশি বা কম হতে পারে, যেগুলি মডেলের ট্রেনিংয়ের জন্য ক্ষতিকর হতে পারে। এগুলিকে চিহ্নিত এবং সমন্বয় করতে কিছু কৌশল আছে:
  - Z-score: একে ৩ বা তার বেশি মান দূরে থাকা আউটলায়ার হিসেবে চিহ্নিত করা।
  - IQR (Interquartile Range): আউটলায়ারের জন্য একটি থ্রেশহোল্ড সেট করা।
Feature Engineering:
- ডেটা থেকে নতুন ফিচার তৈরি করা যা মডেলের পারফরম্যান্স উন্নত করতে সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি তারিখের কলাম থেকে মাস, দিন, বছর বের করা।

২. Data Augmentation

Data Augmentation হল ডেটা ট্রেনিংয়ের জন্য কৃত্রিমভাবে বৃদ্ধি করার প্রক্রিয়া, যাতে মডেলটি আরো ভালভাবে সাধারণীকৃত হতে পারে। এটি প্রধানত অল্প ডেটা থাকা ক্ষেত্রে ব্যবহৃত হয়, বিশেষ করে ইমেজ ডেটাসেটে।

২.১ Data Augmentation এর কৌশলগুলো:

Image Augmentation:

Flipping: ছবির উল্টো দিক থেকে দেখানো (যেমন, অনুভূমিক বা উল্লম্ব ফ্লিপ)।
Rotation: ছবির একটি নির্দিষ্ট কোণে ঘোরানো।
Zooming: ছবির কিছু অংশ বড় বা ছোট করা।
Shifting: ছবির অবস্থান সরানো (যেমন, ডান বা বামে সরানো)।
Brightness Adjustment: ছবির উজ্জ্বলতা পরিবর্তন করা।
Shearing: ছবির আঙ্গিক পরিবর্তন করা।

উদাহরণ:

from tensorflow.keras.preprocessing.image import ImageDataGenerator

# ImageDataGenerator সেটআপ
datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# ছবি লোড এবং augment করা
from tensorflow.keras.preprocessing import image
img = image.load_img('image.jpg')
x = image.img_to_array(img)
x = x.reshape((1,) + x.shape)

i = 0
for batch in datagen.flow(x, batch_size=1, save_to_dir='preview', save_prefix='aug', save_format='jpeg'):
    i += 1
    if i > 20:  # 20টি ছবি তৈরি করব
        break

Text Augmentation:
- Synonym Replacement: কোনো শব্দের প্রতিস্থাপন শব্দ ব্যবহার করা।
- Back Translation: একটি ভাষা থেকে অন্য ভাষায় অনুবাদ করা এবং তারপর পুনরায় মূল ভাষায় ফিরিয়ে আনা।
- Random Insertion: অতিরিক্ত শব্দ যুক্ত করা।
Time Series Augmentation:
- Jittering: সিগন্যালের মধ্যে ছোট ছোট ভিন্নতা তৈরি করা।
- Time Warping: ডেটার টাইমলাইন পরিবর্তন করা।
Audio Augmentation:
- Pitch Shifting: সাউন্ডের পিচ পরিবর্তন করা।
- Speed Tuning: শব্দের গতি পরিবর্তন করা।
- Noise Injection: শব্দের মধ্যে হালকা গোলমাল যোগ করা।

৩. Data Preprocessing এবং Augmentation এর মধ্যে পার্থক্য

Data Preprocessing হল ডেটাকে মডেল প্রশিক্ষণের জন্য প্রস্তুত করার প্রক্রিয়া, যেখানে মূলত ডেটা পরিস্কার করা হয়, বৈশিষ্ট্যগুলো স্কেল করা হয় এবং ক্যাটেগরিকাল ডেটা এনকোড করা হয়।
Data Augmentation হল ডেটাকে কৃত্রিমভাবে বাড়ানোর প্রক্রিয়া, যেখানে মূল ডেটাসেটের উপর বিভিন্ন পরিবর্তন (যেমন ইমেজের ফ্লিপিং, রোটেশন, শিফটিং) করা হয়।

সারাংশ

Data Preprocessing হল ডেটাকে মডেল ট্রেনিংয়ের জন্য পরিষ্কার এবং প্রস্তুত করার প্রক্রিয়া। এটি বিভিন্ন ধাপের মধ্যে আসে যেমন মিসিং ডেটা হ্যান্ডলিং, স্কেলিং, এনকোডিং এবং আউটলায়ার হ্যান্ডলিং।
Data Augmentation হল ডেটাকে কৃত্রিমভাবে বাড়ানোর প্রক্রিয়া, যা ডেটাসেটকে বৃহত্তর এবং আরও বৈচিত্র্যময় করে তোলে। এটি মূলত ইমেজ, টেক্সট, এবং অডিও ডেটাতে ব্যবহৃত হয়।

Content added By

SATT Academy

ডেটা লোড করা (CSV, Image, Text)

224

ডেটা লোড করা একটি গুরুত্বপূর্ণ পদক্ষেপ যখন আপনি মেশিন লার্নিং বা ডীপ লার্নিং মডেল তৈরি করছেন। এটি বিভিন্ন ফরম্যাটে ডেটা লোড করার প্রক্রিয়া ব্যাখ্যা করে, যেমন CSV ফাইল, ইমেজ ফাইল, এবং টেক্সট ডেটা। নিচে এই ফরম্যাটগুলো থেকে ডেটা লোড করার পদ্ধতি আলোচনা করা হলো।

১. CSV ফাইল থেকে ডেটা লোড করা

CSV (Comma Separated Values) ফাইল হল একধরনের টেক্সট ফাইল যা সাধারণত ডেটা টেবিল হিসেবে ব্যবহৃত হয়। Python এ CSV ফাইল থেকে ডেটা লোড করার জন্য সবচেয়ে জনপ্রিয় লাইব্রেরি হলো Pandas।

১.১ Pandas ব্যবহার করে CSV লোড করা

Pandas লাইব্রেরি ব্যবহার করে আপনি CSV ফাইল থেকে সহজেই ডেটা লোড করতে পারেন। প্রথমে Pandas ইনস্টল করতে হবে (যদি ইনস্টল না থাকে):

pip install pandas

তারপর Python স্ক্রিপ্টে নিম্নলিখিত কোডটি ব্যবহার করুন:

import pandas as pd

# CSV ফাইল থেকে ডেটা লোড করা
df = pd.read_csv('data.csv')

# প্রথম ৫টি রো দেখানো
print(df.head())

pd.read_csv(): এটি একটি ফাংশন যা CSV ফাইল থেকে ডেটা লোড করে এবং একটি Pandas DataFrame তৈরি করে।
df.head(): এটি DataFrame এর প্রথম ৫টি রো প্রিন্ট করবে।

১.২ CSV থেকে নির্দিষ্ট কলাম লোড করা

যদি আপনি CSV থেকে নির্দিষ্ট কলাম লোড করতে চান, তাহলে usecols প্যারামিটার ব্যবহার করতে পারেন:

df = pd.read_csv('data.csv', usecols=['Column1', 'Column2'])

২. ইমেজ ফাইল থেকে ডেটা লোড করা

ইমেজ ডেটা লোড করার জন্য, আপনি সাধারণত PIL (Python Imaging Library) বা OpenCV ব্যবহার করতে পারেন। কিন্তু, ডীপ লার্নিং মডেল তৈরি করার জন্য TensorFlow বা Keras এর ইনবিল্ট ফাংশনও ইমেজ লোড করার জন্য ব্যবহার করা হয়।

২.১ PIL (Pillow) ব্যবহার করে ইমেজ লোড করা

Pillow হল Python এর জন্য একটি ইমেজ প্রসেসিং লাইব্রেরি। এটি ইনস্টল করতে:

pip install pillow

ইমেজ লোড করার জন্য:

from PIL import Image

# ইমেজ লোড করা
img = Image.open('image.jpg')

# ইমেজ দেখানো
img.show()

২.২ TensorFlow/Keras ব্যবহার করে ইমেজ লোড করা

TensorFlow বা Keras এর মাধ্যমে ইমেজ লোড করতে, আপনি tensorflow.keras.preprocessing.image মডিউল ব্যবহার করতে পারেন:

from tensorflow.keras.preprocessing import image

# ইমেজ লোড করা এবং রিসাইজ করা
img = image.load_img('image.jpg', target_size=(224, 224))

# ইমেজকে numpy অ্যারে এ কনভার্ট করা
img_array = image.img_to_array(img)

# ইমেজের আকার
print(img_array.shape)

load_img(): ইমেজ লোড করার জন্য ব্যবহৃত হয়, এবং target_size দিয়ে ইমেজের সাইজ রিসাইজ করা হয়।
img_to_array(): ইমেজকে একটি NumPy অ্যারেতে কনভার্ট করে, যা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হতে পারে।

৩. টেক্সট ডেটা লোড করা

টেক্সট ডেটা লোড করার জন্য, Python এর ফাইল হ্যান্ডলিং বা Pandas ব্যবহার করা যেতে পারে। সাধারণত টেক্সট ডেটা লোড করতে open() ফাংশন ব্যবহার করা হয়।

৩.১ টেক্সট ফাইল থেকে ডেটা লোড করা

# টেক্সট ফাইল থেকে ডেটা লোড করা
with open('textfile.txt', 'r') as file:
    text = file.read()

# টেক্সট প্রদর্শন
print(text)

open(): এটি ফাইল খোলার জন্য ব্যবহার করা হয়।
read(): পুরো ফাইলের কনটেন্ট পড়তে ব্যবহৃত হয়।

৩.২ Pandas ব্যবহার করে টেক্সট লোড করা

Pandas দিয়ে আপনি CSV বা TSV (Tab Separated Values) ফাইলগুলির মতো টেক্সট ডেটাও সহজে লোড করতে পারেন:

import pandas as pd

# টেক্সট ডেটা লোড করা
df = pd.read_csv('textfile.txt', delimiter="\t")

# প্রথম ৫টি রো দেখানো
print(df.head())

৩.৩ টেক্সট প্রিপ্রসেসিং এবং টোকেনাইজেশন

টেক্সট ডেটা প্রিপ্রসেসিং এর জন্য Keras বা NLTK (Natural Language Toolkit) ব্যবহার করা যায়। উদাহরণস্বরূপ, Keras এর Tokenizer ক্লাস ব্যবহার করা:

from tensorflow.keras.preprocessing.text import Tokenizer

# টোকেনাইজার তৈরি করা
tokenizer = Tokenizer()
tokenizer.fit_on_texts(text)

# টোকেনাইজড ডেটা দেখানো
print(tokenizer.texts_to_sequences(['Example sentence for tokenization']))

সারাংশ

CSV থেকে ডেটা লোড করা: Pandas ব্যবহার করে CSV ফাইল থেকে ডেটা লোড করা হয়। pd.read_csv() ফাংশন দিয়ে এটি করা যায়।
ইমেজ থেকে ডেটা লোড করা: Pillow বা TensorFlow/Keras ব্যবহার করে ইমেজ লোড করা যায় এবং পরবর্তীতে মডেল প্রশিক্ষণের জন্য প্রস্তুত করা যায়।
টেক্সট ডেটা লোড করা: Python এর open() ফাংশন বা Pandas ব্যবহার করে টেক্সট ফাইল থেকে ডেটা লোড করা যায়। টেক্সট প্রিপ্রসেসিং এবং টোকেনাইজেশনের জন্য Keras বা NLTK ব্যবহার করা যায়।

এই উপায়ে আপনি বিভিন্ন ধরনের ডেটা লোড করতে পারেন এবং ডীপ লার্নিং অথবা মেশিন লার্নিং মডেল তৈরির জন্য প্রস্তুত করতে পারেন।

Content added By

SATT Academy

ডেটা Normalization এবং Standardization

224

ডেটা প্রিপ্রসেসিং এর গুরুত্বপূর্ণ দুটি অংশ হল Normalization এবং Standardization। এগুলি এমন পদ্ধতি যা ডেটার স্কেল বা বিতরণ পরিবর্তন করে, যাতে মডেলগুলি ভালোভাবে কাজ করতে পারে। এই প্রক্রিয়াগুলি বিশেষ করে মেশিন লার্নিং এবং ডীপ লার্নিং মডেল ট্রেনিং এর ক্ষেত্রে খুবই গুরুত্বপূর্ণ।

১. Normalization (স্কেলিং)

Normalization হল একটি প্রক্রিয়া যেখানে ডেটার ভ্যালুগুলিকে একটি নির্দিষ্ট স্কেলে নিয়ে আসা হয়, সাধারণত [0, 1] বা [-1, 1] এর মধ্যে। এটি মূলত min-max scaling নামে পরিচিত।

Normalization সাধারণত তখন ব্যবহৃত হয় যখন ডেটার ভ্যালুগুলি খুব বড় বা খুব ছোট হতে পারে এবং তাদের মধ্যে বিরাট পার্থক্য থাকে। এটি ব্যবহৃত হয় যখন ডেটার বিভিন্ন ফিচার (feature) গুলির স্কেল সমান হতে হবে।

Min-Max Normalization Formula:

$X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$

যেখানে:

$X$ হল ডেটার একটি ভ্যালু
$X_{\text{min}}$ হল ডেটার সর্বনিম্ন মান
$X_{\text{max}}$ হল ডেটার সর্বোচ্চ মান

এই প্রক্রিয়ায় ডেটার সকল মান [0, 1] এর মধ্যে কনভার্ট হয়ে যাবে।

Normalization এর সুবিধা:

এটি মডেলগুলিকে দ্রুত শিখতে সহায়তা করে, বিশেষত যদি মডেলটি gradient descent অপটিমাইজার ব্যবহার করে।
যখন ডেটার স্কেল খুব বেশি বা খুব কম হয়, তখন Normalization ব্যবহৃত হয়।

Normalization এর উদাহরণ:

from sklearn.preprocessing import MinMaxScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print(normalized_data)

২. Standardization (Z-score Normalization)

Standardization হল ডেটার স্কেল পরিবর্তন করার আরেকটি পদ্ধতি, যেখানে ডেটার প্রতিটি ভ্যালু থেকে তার mean (গড়) বিয়োগ করা হয় এবং তারপরে standard deviation দিয়ে ভাগ করা হয়। এর ফলে ডেটার প্রতিটি ফিচারের গড় হবে ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন হবে ১।

Standardization Formula:

$X_{\text{std}} = \frac{X - \mu}{\sigma}$

যেখানে:

$X$ হল ডেটার একটি ভ্যালু
$\mu$ হল ডেটার গড় (mean)
$\sigma$ হল ডেটার স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation)

এই পদ্ধতিতে ডেটার মান এমনভাবে পরিবর্তিত হয় যে এটি গড় থেকে বিচ্যুতির (deviation) ভিত্তিতে স্কেল হয়, এবং স্ট্যান্ডার্ড ডেভিয়েশন হয়ে যায় ১।

Standardization এর সুবিধা:

যখন ডেটার মধ্যে অনেক ভ্যারিয়েশন থাকে এবং তারা বিভিন্ন স্কেলে থাকে, তখন Standardization সবচেয়ে উপকারী।
এটি বিশেষভাবে প্রয়োগ হয় যখন ডেটার ডিসট্রিবিউশন গৌসিয়ান (Gaussian) বা নরমাল (Normal) হয়, যেমন linear regression, logistic regression, এবং SVM এর মতো মডেলগুলিতে।

Standardization এর উদাহরণ:

from sklearn.preprocessing import StandardScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print(standardized_data)

Normalization এবং Standardization এর মধ্যে পার্থক্য

প্যারামিটার	Normalization (Min-Max Scaling)	Standardization (Z-score Normalization)
প্রক্রিয়া	ডেটার সর্বনিম্ন এবং সর্বোচ্চ মান থেকে স্কেল পরিবর্তন	গড় থেকে বিচ্যুতি এবং স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে স্কেল পরিবর্তন
ফর্মুলা	$\frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$	$\frac{X - \mu}{\sigma}$
স্কেল	[0, 1] অথবা [-1, 1]	গড় ০, স্ট্যান্ডার্ড ডেভিয়েশন ১
ডেটার ধরণ	যখন ডেটা নির্দিষ্ট সীমার মধ্যে থাকে	যখন ডেটা গৌসিয়ান বা নরমাল ডিসট্রিবিউশন থাকে
ব্যবহার	নিউরাল নেটওয়ার্ক, k-NN, এবং অন্যান্য অ্যালগরিদম যেখানে স্কেল খুব গুরুত্বপূর্ণ	লিনিয়ার রিগ্রেশন, SVM, লজিস্টিক রিগ্রেশন যেখানে গড় এবং বিচ্যুতি গুরুত্বপূর্ণ

সারাংশ

Normalization: এটি ডেটার স্কেল [0, 1] বা [-1, 1] মধ্যে এনে দেয়। এটি বিশেষভাবে ব্যবহৃত হয় যখন ডেটার স্কেল বিশাল পার্থক্য থাকতে পারে এবং মডেলের পারফরম্যান্সের জন্য স্কেল একে অপরের সমান হওয়া উচিত।
Standardization: এটি ডেটাকে গড় ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ এর মধ্যে রূপান্তরিত করে। এটি ব্যবহার করা হয় যখন ডেটার স্কেলগুলি খুব ভিন্ন এবং গৌসিয়ান ডিস্ট্রিবিউশনের সঙ্গে মডেলিং করতে হয়।

মেশিন লার্নিং মডেলের সঠিক ফলাফল পেতে, ডেটার প্রক্রিয়াকরণের এই দুটি পদ্ধতি যেকোনো ডেটাসেটের জন্য গুরুত্বপূর্ণ হতে পারে।

Content added By

SATT Academy

Data Augmentation এবং এর প্রয়োজনীয়তা

246

Data Augmentation (ডেটা অগমেন্টেশন) হল মেশিন লার্নিং, বিশেষ করে ডীপ লার্নিং মডেল প্রশিক্ষণ প্রক্রিয়ায় ব্যবহৃত একটি কৌশল, যার মাধ্যমে ডেটাসেটের সাইজ এবং বৈচিত্র্য বৃদ্ধি করা হয়। এই কৌশলের মাধ্যমে নতুন ডেটা পয়েন্ট তৈরি করা হয় পুরনো ডেটা পয়েন্টের কিছু পরিবর্তন বা মডিফিকেশন করার মাধ্যমে। এটি বিশেষত সেই ক্ষেত্রে গুরুত্বপূর্ণ যেখানে ডেটাসেট ছোট এবং আরও বৈচিত্র্য প্রয়োজন।

Data Augmentation কী?

ডেটা অগমেন্টেশন হল একটি প্রক্রিয়া যার মাধ্যমে আসল ডেটার উপর বিভিন্ন ধরনের কৃত্রিম পরিবর্তন (যেমন: ঘূর্ণন, স্কেলিং, ফ্লিপিং, রঙ পরিবর্তন ইত্যাদি) করা হয়, যাতে মডেল আরও ভালভাবে প্রশিক্ষিত হতে পারে এবং সাধারণীকরণ (generalization) ক্ষমতা বাড়ে।

এটি ডিপ লার্নিং, বিশেষ করে কম্পিউটার ভিশন এবং নিউরাল নেটওয়ার্ক (CNN) এর ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়।

Data Augmentation এর উদাহরণ

ইমেজ রোটেশন (Image Rotation): ইনপুট ইমেজের কোণ পরিবর্তন করে মডেলকে বিভিন্ন কোণ থেকে অবজেক্ট চিনতে সহায়তা করা।
- উদাহরণ: একটি ছবি 30 ডিগ্রি বা 45 ডিগ্রি ঘুরিয়ে দেওয়া।
জুম ইন বা আউট (Zoom In/Out): ছবির ফোকাস পয়েন্টে পরিবর্তন এনে মডেলকে ছবি কাছাকাছি বা দূরে থেকে চিনতে সক্ষম করা।
- উদাহরণ: ছবির কিছু অংশে জুম ইন বা আউট করা।
ফ্লিপিং (Flipping): ছবিটি অনুভূমিক বা উল্লম্বভাবে ফ্লিপ করা যাতে মডেলটি বিভিন্ন দিক থেকে অবজেক্ট চিনতে সক্ষম হয়।
- উদাহরণ: ছবি উল্টো দিকে ফিরিয়ে দেওয়া (flipping horizontally/vertically)।
ক্রপিং (Cropping): ইমেজের কিছু অংশ কেটে ফেলা, যাতে মডেলটি একই ইমেজের বিভিন্ন অংশে ফোকাস করতে পারে।
- উদাহরণ: ইমেজের একটি নির্দিষ্ট অংশ কেটে ফেলা।
কনট্রাস্ট এবং ব্রাইটনেস পরিবর্তন (Contrast and Brightness Adjustment): ছবির কনট্রাস্ট এবং ব্রাইটনেস পরিবর্তন করার মাধ্যমে মডেলকে আরও শক্তিশালী করা।
- উদাহরণ: ছবির উজ্জ্বলতা এবং কনট্রাস্ট বাড়ানো বা কমানো।
র্যান্ডম শিফট (Random Shifting): ইমেজের বিভিন্ন অংশ কেটে স্থানান্তরিত করা, যাতে মডেলটি শিফটের কারণে ছবি থেকে অবজেক্ট চিনতে সক্ষম হয়।

Data Augmentation এর প্রয়োজনীয়তা

Data Augmentation এর প্রয়োজনীয়তা মূলত নিম্নলিখিত কারণে রয়েছে:

১. ডেটাসেটের সাইজ বৃদ্ধি:

ডিপ লার্নিং মডেল প্রশিক্ষণের জন্য বিশাল পরিমাণে ডেটার প্রয়োজন হয়। তবে, বাস্তব জীবনে পর্যাপ্ত ডেটা পাওয়া সবসময় সহজ নয়। Data Augmentation ব্যবহার করে পুরনো ডেটার উপর নানা ধরনের পরিবর্তন এনে নতুন ডেটা তৈরি করা যায়, ফলে ডেটাসেট বড় হয় এবং মডেলটি আরও ভালোভাবে প্রশিক্ষিত হতে পারে।

২. গণনা দক্ষতা বৃদ্ধি:

ডিপ লার্নিং মডেলগুলির জন্য মডেল প্রশিক্ষণ এবং গণনার জন্য অনেক সময় এবং শক্তি দরকার। ডেটা অগমেন্টেশন ব্যবহার করলে, মডেলটি বিভিন্ন ভেরিয়েশন নিয়ে প্রশিক্ষিত হবে এবং নতুন ডেটার উপর সাধারণীকরণ করতে পারবে, যা মডেলকে বেশি কার্যকরী করে তোলে।

৩. ওভারফিটিং (Overfitting) কমানো:

ডেটার অভাবে মডেল প্রশিক্ষণের সময় ওভারফিটিং হতে পারে, যেখানে মডেল ট্রেনিং ডেটার প্রতি অত্যধিক ফিট হয়ে যায় এবং নতুন ডেটার উপর ভাল পারফর্ম করতে পারে না। Data Augmentation মডেলকে বিভিন্ন পরিস্থিতিতে অভ্যস্ত করে তোলে, যাতে এটি নতুন, অজানা ডেটার উপর সঠিকভাবে কাজ করতে পারে এবং ওভারফিটিং রোধ করতে পারে।

৪. সাধারণীকরণ ক্ষমতা বৃদ্ধি:

Data Augmentation এর মাধ্যমে মডেলটি ডেটার বিভিন্ন ভেরিয়েশন থেকে শেখে, যা মডেলটির generalization ক্ষমতা বাড়ায়। এর ফলে, মডেলটি নতুন এবং অপ্রত্যাশিত ডেটার ওপর ভালো পারফরম্যান্স দিতে পারে।

৫. মডেল ট্রেনিং দ্রুত করা:

Data Augmentation ব্যবহার করার মাধ্যমে ছোট ডেটাসেটের উপর বৃহৎ ডেটাসেটের মত ট্রেনিং করা সম্ভব। এটি ট্রেনিং প্রক্রিয়াকে দ্রুত করে তোলে কারণ মডেলটি শুধুমাত্র নির্দিষ্ট ডেটার পরিবর্তে অনেক ধরনের ডেটার সাথে প্রশিক্ষিত হয়।

৬. প্রাকৃতিক পরিবেশের সাথে সামঞ্জস্যপূর্ণ:

বিশ্বের বাস্তব পরিবেশে ডেটা সঠিকভাবে থাকে না। ইমেজে আলো, কোণ, স্কেল ইত্যাদি পরিবর্তিত হতে পারে। Data Augmentation এর মাধ্যমে, মডেলকে বাস্তব বিশ্বের পরিবেশের মতো নানা ধরনের পরিবর্তন সহ প্রশিক্ষিত করা যায়।

Data Augmentation এর কিছু উদাহরণ

১. Keras এ Data Augmentation উদাহরণ (ImageDataGenerator):

Keras এর ImageDataGenerator ক্লাস ব্যবহার করে ইমেজ অগমেন্টেশন করা যায়। নিচে একটি সাধারণ উদাহরণ দেওয়া হলো:

from tensorflow.keras.preprocessing.image import ImageDataGenerator

# ImageDataGenerator সেটআপ
datagen = ImageDataGenerator(
    rotation_range=40,      # ইমেজ ঘুরানো
    width_shift_range=0.2,  # অনুভূমিক শিফট
    height_shift_range=0.2, # উল্লম্ব শিফট
    shear_range=0.2,        # স্কিউ ইফেক্ট
    zoom_range=0.2,         # জুম
    horizontal_flip=True,   # অনুভূমিক ফ্লিপ
    fill_mode='nearest'     # নতুন পিক্সেল পূর্ণ করার পদ্ধতি
)

# উদাহরণস্বরূপ একটি ছবি
import numpy as np
from tensorflow.keras.preprocessing import image

img = image.load_img('image.jpg')  # আপনার ছবি লোড করুন
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)

# Data Augmentation প্রয়োগ
i = 0
for batch in datagen.flow(x, batch_size=1, save_to_dir='augmented/', save_prefix='aug', save_format='jpeg'):
    i += 1
    if i > 20:  # 20টি নতুন ছবি তৈরি হবে
        break

২. TensorFlow এ Data Augmentation উদাহরণ:

TensorFlow 2.x তে tf.keras.layers এর মাধ্যমে Data Augmentation করা যেতে পারে।

import tensorflow as tf

data_augmentation = tf.keras.Sequential([
    tf.keras.layers.experimental.preprocessing.RandomRotation(0.2),
    tf.keras.layers.experimental.preprocessing.RandomZoom(0.2),
    tf.keras.layers.experimental.preprocessing.RandomFlip('horizontal')
])

# একটি উদাহরণ ইমেজ ব্যবহার করে augment করা
img = tf.io.read_file('image.jpg')
img = tf.image.decode_jpeg(img, channels=3)
img = tf.image.resize(img, [256, 256])
augmented_img = data_augmentation(img)

# augmented_img এখন ট্রেনিং এর জন্য প্রস্তুত

সারাংশ

Data Augmentation ডীপ লার্নিং মডেলের প্রশিক্ষণ প্রক্রিয়াকে শক্তিশালী এবং কার্যকরী করে তোলে, বিশেষ করে ছোট ডেটাসেট ব্যবহার করার ক্ষেত্রে।
এটি ডেটাসেটের বৈচিত্র্য বৃদ্ধি করে এবং মডেলটিকে সাধারণীকরণের ক্ষমতা বাড়ানোর জন্য প্রশিক্ষিত করে, ফলে মডেলটি নতুন, অজানা ডেটার ওপর ভালো পারফর্ম করতে পারে।
ImageDataGenerator (Keras) বা TensorFlow preprocessing layers ব্যবহার করে Data Augmentation এর কাজ করা যায়, যা প্রশিক্ষণের সময় মডেলকে আরো শক্তিশালী এবং দক্ষ করে তোলে।

Content added By

SATT Academy

Training, Validation এবং Test Data Split

263

Training, Validation, এবং Test ডেটা স্প্লিট হল ডীপ লার্নিং এবং মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটাকে তিনটি ভাগে ভাগ করা হয়: ট্রেনিং ডেটা, ভ্যালিডেশন ডেটা, এবং টেস্ট ডেটা। এই তিনটি ডেটাসেট মডেল ট্রেনিং, হাইপারপ্যারামিটার টিউনিং এবং ফাইনাল মূল্যায়নের জন্য ব্যবহৃত হয়।

এই প্রক্রিয়াটি মডেল ওভারফিটিং (overfitting) এবং আন্ডারফিটিং (underfitting) এড়াতে সাহায্য করে এবং মডেলের সামগ্রিক পারফরম্যান্সের সঠিক মূল্যায়ন প্রদান করে।

১. Training Data (ট্রেনিং ডেটা)

ট্রেনিং ডেটা হল সেই ডেটা যা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হয়। মডেলটি এই ডেটা থেকে প্যাটার্ন শিখে এবং তার উপর ভিত্তি করে ভবিষ্যদ্বাণী করতে শেখে। ট্রেনিং ডেটা সাধারণত ডেটাসেটের একটি বড় অংশ গঠন করে (প্রায় ৭০-৮০%)।

কাজ: মডেলকে প্যাটার্ন শিখানোর জন্য ব্যবহৃত হয়।
ফাংশন: মডেল এর ওয়েট আপডেট করতে সাহায্য করে, যাতে ভবিষ্যদ্বাণী করা আরও সঠিক হয়।

২. Validation Data (ভ্যালিডেশন ডেটা)

ভ্যালিডেশন ডেটা হল সেই ডেটা যা মডেল ট্রেনিং চলাকালীন সময়ে ব্যবহার করা হয় হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য। মডেল যখন ট্রেনিং ডেটা শিখে, তখন ভ্যালিডেশন ডেটার মাধ্যমে তার পারফরম্যান্স পরীক্ষা করা হয় এবং মডেলের ওভারফিটিং বা আন্ডারফিটিং এড়ানোর জন্য হাইপারপ্যারামিটার সমন্বয় করা হয়।

কাজ: হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য ব্যবহৃত হয়।
ফাংশন: মডেল ট্রেনিং চলাকালীন সময়ে হাইপারপ্যারামিটার পরিবর্তন এবং অপটিমাইজেশনের জন্য ব্যবহৃত হয়, কিন্তু এই ডেটাতে মডেল শিখে না।

৩. Test Data (টেস্ট ডেটা)

টেস্ট ডেটা হল সেই ডেটা যা মডেল প্রশিক্ষণ শেষ হওয়ার পর ব্যবহৃত হয়। এটি মডেলের শেষ মূল্যায়নের জন্য ব্যবহৃত হয় এবং মডেলের পারফরম্যান্সের একটি অবজেকটিভ (নিরপেক্ষ) মূল্যায়ন প্রদান করে। টেস্ট ডেটা কখনই মডেল প্রশিক্ষণের জন্য ব্যবহার করা উচিত নয়, কারণ এটি মডেলের ক্ষমতা পরীক্ষা করার জন্য ব্যবহৃত হয়।

কাজ: মডেলের পারফরম্যান্সের চূড়ান্ত মূল্যায়ন।
ফাংশন: মডেল ট্রেনিং শেষ হওয়ার পর মডেলের জেনারেলাইজেশন ক্ষমতা যাচাই করার জন্য ব্যবহৃত হয়।

৪. Data Split Ratio

ডেটা স্প্লিট করার সাধারণ একটি পদ্ধতি হলো:

Training Data: ৭০-৮০%
Validation Data: ১০-২০%
Test Data: ১০-২০%

এই অনুপাত পরিবর্তিত হতে পারে, তবে ট্রেনিং ডেটার পরিমাণ সবসময় সবচেয়ে বেশি রাখা হয়, যাতে মডেল যথেষ্ট তথ্য থেকে শিখতে পারে। ভ্যালিডেশন এবং টেস্ট ডেটার জন্য সাধারণত ছোট পরিমাণ ডেটা যথেষ্ট থাকে, তবে এর পরিমাণ মডেলের ধরনের উপর নির্ভর করে বাড়ানো বা কমানো যেতে পারে।

৫. Data Split উদাহরণ (Python Code)

নীচে Python এর train_test_split ফাংশন ব্যবহার করে ডেটা স্প্লিট করার একটি উদাহরণ দেওয়া হলো:

from sklearn.model_selection import train_test_split

# উদাহরণস্বরূপ ডেটা
X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]  # ইনপুট ডেটা
y = [1, 1, 0, 0, 1, 0, 1, 0, 1, 0]  # আউটপুট (লেবেল)

# ডেটা স্প্লিট
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)

# ভ্যালিডেশন এবং টেস্ট ডেটা ভাগ করা
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print("Training data:", X_train, y_train)
print("Validation data:", X_val, y_val)
print("Test data:", X_test, y_test)

এই কোডে প্রথমে 60% ডেটা ট্রেনিং জন্য, বাকি 40% ডেটা ভ্যালিডেশন এবং টেস্ট ডেটাতে ভাগ করা হয়েছে। এরপর 40% থেকে 50% ভ্যালিডেশন এবং 50% টেস্ট ডেটাতে ভাগ করা হয়েছে।

৬. Cross-validation

K-fold Cross-Validation হলো একটি উন্নত কৌশল যা মডেলের পারফরম্যান্সের আরও সঠিক মূল্যায়ন করতে সাহায্য করে। এতে ডেটাকে K ভাগে ভাগ করা হয়, এবং প্রতি একটি ভাগকে টেস্ট সেট হিসেবে এবং বাকি অংশটিকে ট্রেনিং সেট হিসেবে ব্যবহার করা হয়। এই প্রক্রিয়া K বার পুনরাবৃত্তি হয়, যাতে মডেলের সাধারণীকরণ ক্ষমতা পর্যালোচনা করা যায়।

সারাংশ

Training Data: মডেল শিখানোর জন্য ব্যবহৃত হয়।
Validation Data: হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য ব্যবহৃত হয়।
Test Data: মডেলের পারফরম্যান্স পরীক্ষার জন্য ব্যবহৃত হয়।

ডেটা স্প্লিটের অনুপাত সাধারণত ৭০-৮০% ট্রেনিং, ১০-২০% ভ্যালিডেশন এবং ১০-২০% টেস্ট হয়। Cross-validation মডেলের দক্ষতা আরও ভালভাবে মূল্যায়ন করার জন্য ব্যবহৃত একটি শক্তিশালী কৌশল।

Content added By

SATT Academy

Keras পরিচিতি Keras ইনস্টলেশন এবং সেটআপ Keras এর মৌলিক ধারণা Keras তে বেসিক Neural Network তৈরি Convolutional Neural Networks (CNN)

Data Preprocessing এবং Augmentation

১. Data Preprocessing

১.১ Data Preprocessing এর পদক্ষেপগুলো:

২. Data Augmentation

২.১ Data Augmentation এর কৌশলগুলো:

৩. Data Preprocessing এবং Augmentation এর মধ্যে পার্থক্য

সারাংশ

ডেটা লোড করা (CSV, Image, Text)

১. CSV ফাইল থেকে ডেটা লোড করা

১.১ Pandas ব্যবহার করে CSV লোড করা

১.২ CSV থেকে নির্দিষ্ট কলাম লোড করা

২. ইমেজ ফাইল থেকে ডেটা লোড করা

২.১ PIL (Pillow) ব্যবহার করে ইমেজ লোড করা

২.২ TensorFlow/Keras ব্যবহার করে ইমেজ লোড করা

৩. টেক্সট ডেটা লোড করা

৩.১ টেক্সট ফাইল থেকে ডেটা লোড করা

৩.২ Pandas ব্যবহার করে টেক্সট লোড করা

৩.৩ টেক্সট প্রিপ্রসেসিং এবং টোকেনাইজেশন

সারাংশ

ডেটা Normalization এবং Standardization

১. Normalization (স্কেলিং)

২. Standardization (Z-score Normalization)

Normalization এবং Standardization এর মধ্যে পার্থক্য

সারাংশ

Data Augmentation এবং এর প্রয়োজনীয়তা

Data Augmentation কী?

Data Augmentation এর উদাহরণ

Data Augmentation এর প্রয়োজনীয়তা

১. ডেটাসেটের সাইজ বৃদ্ধি:

২. গণনা দক্ষতা বৃদ্ধি:

৩. ওভারফিটিং (Overfitting) কমানো:

৪. সাধারণীকরণ ক্ষমতা বৃদ্ধি:

৫. মডেল ট্রেনিং দ্রুত করা:

৬. প্রাকৃতিক পরিবেশের সাথে সামঞ্জস্যপূর্ণ:

Data Augmentation এর কিছু উদাহরণ

১. Keras এ Data Augmentation উদাহরণ (ImageDataGenerator):

২. TensorFlow এ Data Augmentation উদাহরণ:

সারাংশ

Training, Validation এবং Test Data Split

১. Training Data (ট্রেনিং ডেটা)

২. Validation Data (ভ্যালিডেশন ডেটা)

৩. Test Data (টেস্ট ডেটা)

৪. Data Split Ratio

৫. Data Split উদাহরণ (Python Code)

৬. Cross-validation

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!