Data Preprocessing এবং Loading

Machine Learning - মাইক্রোসফট কগনিটিভ টুলকিট (Microsoft Cognitive Toolkit)

126

Data Preprocessing এবং Loading ডিপ লার্নিং মডেল ট্রেনিংয়ের জন্য গুরুত্বপূর্ণ পদক্ষেপ। ডিপ লার্নিং মডেল গুলি বড় ডেটাসেট ব্যবহার করে প্রশিক্ষিত হয়, এবং এই ডেটা যদি সঠিকভাবে প্রিপ্রসেস বা লোড না হয় তবে মডেলের কার্যকারিতা অনেক কমে যেতে পারে। CNTK (Microsoft Cognitive Toolkit) তে ডেটা প্রিপ্রসেসিং এবং লোডিং করার জন্য বিভিন্ন পদ্ধতি রয়েছে, যা ডেটা ব্যবস্থাপনা এবং মডেল ট্রেনিংয়ের জন্য উপযুক্ত।

Data Preprocessing

Data Preprocessing হল সেই প্রক্রিয়া যেখানে আপনি কাঁচা ডেটাকে প্রক্রিয়া করেন যাতে সেটি মডেল প্রশিক্ষণের জন্য উপযোগী হয়ে ওঠে। এতে ডেটাকে সঠিক ফরম্যাটে রূপান্তর, স্কেলিং, শুদ্ধকরণ, এবং বিভিন্ন বৈশিষ্ট্য বাছাই করা অন্তর্ভুক্ত।

১. ডেটার স্কেলিং (Scaling) এবং নরমালাইজেশন (Normalization)

ডিপ লার্নিং মডেলগুলো সাধারণত স্কেল করা ডেটা ব্যবহার করতে পছন্দ করে। কারণ, বিভিন্ন বৈশিষ্ট্যের মানগুলির মধ্যে বড় পার্থক্য থাকলে মডেল সঠিকভাবে শিখতে পারে না।

Min-Max Normalization: এখানে, ডেটার মান 0 থেকে 1 এর মধ্যে রূপান্তরিত হয়:
$Xnorm=X−min(X)max(X)−min(X)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>X</mi><mrow><mi>n</mi><mi>o</mi><mi>r</mi><mi>m</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>X</mi><mo>−</mo><mi>min</mi><mo>⁡</mo><mo stretchy="false">(</mo><mi>X</mi><mo stretchy="false">)</mo></mrow><mrow><mi>max</mi><mo>⁡</mo><mo stretchy="false">(</mo><mi>X</mi><mo stretchy="false">)</mo><mo>−</mo><mi>min</mi><mo>⁡</mo><mo stretchy="false">(</mo><mi>X</mi><mo stretchy="false">)</mo></mrow></mfrac></mrow><annotation encoding="application/x-tex">X_{norm} = \frac{X - \min(X)}{\max(X) - \min(X)}</annotation></semantics></math>$
Standardization: ডেটাকে গড় 0 এবং স্ট্যান্ডার্ড ডেভিয়েশন 1 এর মধ্যে রূপান্তর করা:
$Xstd=X−μσ<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>X</mi><mrow><mi>s</mi><mi>t</mi><mi>d</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>X</mi><mo>−</mo><mi>μ</mi></mrow><mi>σ</mi></mfrac></mrow><annotation encoding="application/x-tex">X_{std} = \frac{X - \mu}{\sigma}</annotation></semantics></math>$

from sklearn.preprocessing import MinMaxScaler, StandardScaler
import numpy as np

data = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])

# Min-Max Scaling
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)

# Standardization
std_scaler = StandardScaler()
standardized_data = std_scaler.fit_transform(data)

print("Scaled Data:", scaled_data)
print("Standardized Data:", standardized_data)

২. মিসিং ডেটা (Missing Data) হ্যান্ডলিং

কাঁচা ডেটায় অনেক সময় মিসিং ভ্যালু থাকতে পারে। এর জন্য সাধারণত দুটি পদ্ধতি ব্যবহৃত হয়:

ইমপিউটেশন (Imputation): যেখানে মিসিং ভ্যালুগুলো অন্যান্য ভ্যালু দ্বারা প্রতিস্থাপন করা হয় (যেমন গড়, মেডিয়ান বা মোড দিয়ে)।
ড্রপিং (Dropping): মিসিং ডেটার সারি বা কলাম বাদ দেওয়া।

import pandas as pd
from sklearn.impute import SimpleImputer

data = pd.DataFrame([[1, 2], [2, None], [3, 4], [None, 6]])

# Imputation
imputer = SimpleImputer(strategy='mean')
imputed_data = imputer.fit_transform(data)

print(imputed_data)

৩. ডেটার এনকোডিং (Encoding)

প্রায়শই, ডেটায় ক্যাটেগোরিকাল ফিচার থাকে যা মডেলের জন্য সঠিকভাবে ব্যবহার করার জন্য এনকোড করা প্রয়োজন। দুটি সাধারণ পদ্ধতি হল:

One-Hot Encoding: প্রতিটি ক্যাটেগরি আলাদা কলামে পরিণত হয় এবং একটিই 1 হবে।
Label Encoding: প্রতিটি ক্যাটেগরি একটি একক সংখ্যায় রূপান্তরিত হয়।

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

data = ['cat', 'dog', 'cat', 'bird']

# One-Hot Encoding
onehot_encoder = OneHotEncoder(sparse=False)
onehot_encoded = onehot_encoder.fit_transform([[x] for x in data])

# Label Encoding
label_encoder = LabelEncoder()
label_encoded = label_encoder.fit_transform(data)

print("One-Hot Encoded Data:", onehot_encoded)
print("Label Encoded Data:", label_encoded)

Data Loading in CNTK

CNTK তে ডেটা লোড করা একটি গুরুত্বপূর্ণ ধাপ, যা প্রশিক্ষণের সময় ডেটাকে মডেলের কাছে পাঠানোর কাজ করে। ডেটা লোড করার জন্য সাধারণত CNTK এর InputDataStream এবং MinibatchSource ব্যবহার করা হয়। এগুলি বড় ডেটাসেট গুলি ডিভাইসের মেমরিতে দক্ষভাবে লোড করতে সহায়ক।

১. CNTK তে Data Loading

MinibatchSource: এটি ডেটা লোড এবং মডেল প্রশিক্ষণের জন্য মিনিব্যাচ সরবরাহ করে।
InputDataStream: এটি একটি স্ট্রিম অবজেক্ট, যা ডেটাকে টুকরো টুকরো করে মিনিব্যাচ আকারে প্রদান করে।

import cntk
from cntk.io import MinibatchSource, ImageDeserializer, StreamDef, StreamDefs
from cntk.ops import input_variable

# Define the input variable (for example, an image input)
input_var = input_variable((224, 224, 3))

# Specify where the image data is located
image_path = 'path_to_data_folder'

# Create the data stream
image_stream = ImageDeserializer(image_path, StreamDefs(
    labels=StreamDef(field='labels', shape=1),
    features=StreamDef(field='features', shape=(224, 224, 3))
))

# Create minibatch source
mb_source = MinibatchSource(image_stream)

# Load a minibatch
minibatch = mb_source.next_minibatch(1)  # batch size = 1
print(minibatch)

২. CNTK Data Loader ব্যবহার করা

CNTK এর ImageDeserializer এবং অন্যান্য ডেটা লোডারের মাধ্যমে হিউম্যান-লেবেলড ডেটা বা সুপারভাইজড ডেটা লোড করা যায়। CNTK এ ডেটা লোডিং বিভিন্ন ধরনের ডেটা যেমন ইমেজ, টেক্সট, অডিও ইত্যাদি সমর্থন করে।

from cntk.io import MinibatchSource, CTFDeserializer

# Create the deserializer for a dataset
data_path = 'data_file_path.ctf'
data_stream = CTFDeserializer(data_path)

# Create a MinibatchSource object
minibatch_source = MinibatchSource(data_stream)

# Fetch a batch of data
minibatch = minibatch_source.next_minibatch(1)

৩. CNTK তে Data Pipeline

Pipeline তৈরি করতে, MinibatchSource এবং InputDataStream ব্যবহার করে ডেটা সঞ্চালন প্রক্রিয়া চালানো হয়। এটি ডেটার বিভিন্ন রূপ (যেমন ইনপুট, আউটপুট, লেবেল) প্রস্তুত করতে সহায়ক।
ডেটা লোড করার সময়, ডেটার বিভিন্ন ফিচার যেমন অডিও, ইমেজ, টেক্সট ইত্যাদি মিনিব্যাচ আকারে ব্যবহার করা হয়।

সারাংশ

Data Preprocessing: ডেটা প্রিপ্রসেসিং প্রক্রিয়া অন্তর্ভুক্ত করে স্কেলিং, এনকোডিং, মিসিং ডেটা হ্যান্ডলিং ইত্যাদি যা ডিপ লার্নিং মডেলগুলির কার্যকারিতা উন্নত করতে সহায়ক।
Data Loading: CNTK তে ডেটা লোড করতে MinibatchSource এবং InputDataStream ব্যবহার করা হয় যা বড় ডেটাসেটগুলো দ্রুত এবং কার্যকরভাবে মেমরি থেকে মডেলে পাঠানোর কাজ করে।

এই পদক্ষেপগুলো সঠিকভাবে অনুসরণ করলে, CNTK এর মাধ্যমে ডেটা প্রিপ্রসেসিং এবং লোডিং আরও দক্ষভাবে পরিচালনা করা সম্ভব হবে, যা মডেল ট্রেনিংয়ে সহায়ক।

Content added By

Md Azizur Rahman

Data লোড করা (CSV, Image, Text)

120

Microsoft Cognitive Toolkit (CNTK) ব্যবহার করে ডেটা লোড করা একটি গুরুত্বপূর্ণ পদক্ষেপ, কারণ এটি মডেল ট্রেনিং এবং ডিপ লার্নিং অ্যালগরিদম কার্যকরভাবে চালানোর জন্য প্রয়োজন। এখানে আমি CSV, Image, এবং Text ডেটা লোড করার কিছু সাধারণ পদ্ধতি আলোচনা করব।

1. CSV ডেটা লোড করা (Using CNTK)

CSV ডেটা লোড করার জন্য:

CNTK এর জন্য, সাধারণভাবে CSV ডেটা NumPy বা Pandas লাইব্রেরির সাহায্যে লোড করা হয় এবং তারপর CNTK InputVariable ব্যবহার করে ডেটাকে CNTK মডেলে ইনপুট হিসাবে ব্যবহার করা হয়।

ধাপ ১: CSV ডেটা লোড করা (Pandas ব্যবহার করে)

import pandas as pd
import numpy as np

# CSV ফাইল থেকে ডেটা লোড করা
data = pd.read_csv('data.csv')

# ডেটাকে numpy array তে রূপান্তর
data_array = data.values

ধাপ ২: CNTK InputVariable তৈরী করা

import cntk

# CNTK InputVariable তৈরি করা
input_var = cntk.input_variable(2)  # ধরুন আপনার ডেটায় 2টি ফিচার আছে

# ডেটাকে CNTK টেনসরে রূপান্তর করা
data_tensor = cntk.as_tensor(data_array)

# এখন আপনি CNTK মডেলে ইনপুট হিসেবে এই data_tensor ব্যবহার করতে পারবেন

2. Image ডেটা লোড করা (Using CNTK)

Image ডেটা লোড করার জন্য:

CNTK এ চিত্র (Image) ডেটা লোড করার জন্য CNTK.image_reader ব্যবহার করা হয়। এটি সাধারণত ছবির ডিরেক্টরি থেকে চিত্রগুলি লোড এবং প্রসেস করতে ব্যবহৃত হয়। এই প্রক্রিয়াটি সাধারণত ImageNet, MNIST ইত্যাদির মতো ডেটাসেটের জন্য প্রযোজ্য।

ধাপ ১: Image Data লোড করা (ImageReader ব্যবহার করে)

import cntk

# ImageReader ব্যবহার করে চিত্র ডেটা লোড করা
image_dir = 'path_to_images_directory'  # ছবির ডিরেক্টরি
image_reader = cntk.io.ImageReader(
    'image_data_map.txt',  # টেক্সট ফাইল যা ইমেজ এবং লেবেল সংক্রান্ত তথ্য ধারণ করে
    input_dim=(3, 224, 224),  # ইনপুট চিত্রের আকার
    is_training=True,  # ট্রেনিং চলাকালীন চিত্র লোড
    num_classes=10  # ক্লাসের সংখ্যা
)

# ImageReader টেনসরে রূপান্তর করা
image_data = image_reader.streams.features

ধাপ ২: Image Data প্রসেসিং

# চিত্রকে নির্দিষ্ট আকারে রিসাইজ করা
image_data_resized = cntk.ops.resize(image_data, (224, 224))

# চিত্র ডেটার সাথে লেবেল যুক্ত করা
image_data_with_labels = cntk.io.MinibatchSource(image_reader)

3. Text ডেটা লোড করা (Using CNTK)

Text ডেটা লোড করার জন্য:

CNTK এ Text ডেটা প্রক্রিয়া করার জন্য সাধারণত TextReader ব্যবহার করা হয়। এটি টেক্সট ডেটা, যেমন টেক্সট ফাইল বা লেবেলসহ টেক্সট ডেটা লোড করতে ব্যবহৃত হয়।

ধাপ ১: TextReader ব্যবহার করে টেক্সট ডেটা লোড করা

import cntk

# টেক্সট ডেটা লোড করতে TextReader ব্যবহার করা
text_file = 'text_data.txt'  # টেক্সট ফাইল যেখানে ডেটা সংরক্ষিত
text_reader = cntk.io.TextReader(text_file, is_training=True)

# টেক্সট ডেটা এবং লেবেল লোড করা
text_data = text_reader.streams.features
text_labels = text_reader.streams.labels

ধাপ ২: Text Data প্রসেসিং

CNTK সাধারণত Word2Vec, Glove বা FastText এর মতো প্রি-ট্রেইনড এম্বেডিং ব্যবহার করে টেক্সট ডেটা প্রক্রিয়া করতে পারে। এখানে একটি সহজ উদাহরণ দেওয়া হল।

import cntk

# টেক্সট ডেটাকে এম্বেডিং স্পেসে রূপান্তর
word_embeddings = cntk.ops.embedding(text_data, embedding_dim=300)

# প্রশিক্ষণের জন্য প্রস্তুত করা
processed_text = cntk.layers.Dense(128)(word_embeddings)

সারাংশ

CSV ডেটা: CSV ডেটা সাধারণভাবে Pandas বা NumPy ব্যবহার করে লোড করা হয় এবং তারপর CNTK এর InputVariable-এ রূপান্তর করা হয়।
Image ডেটা: CNTK.image_reader ব্যবহার করে চিত্র ডেটা লোড করা হয়, এবং এটি সাধারণত ImageNet বা MNIST এর মতো ডেটাসেটের জন্য ব্যবহৃত হয়।
Text ডেটা: TextReader ব্যবহার করে টেক্সট ডেটা লোড করা হয় এবং প্রি-ট্রেইনড Word2Vec বা অন্যান্য এম্বেডিং ব্যবহারের মাধ্যমে প্রসেস করা হয়।

এই পদ্ধতিগুলি CNTK তে ডেটা লোড এবং প্রসেস করার জন্য সহায়ক, যা ডিপ লার্নিং মডেল তৈরির জন্য গুরুত্বপূর্ণ।

Content added By

Md Azizur Rahman

Data Normalization এবং Standardization

121

Data Normalization এবং Data Standardization হল ডেটা প্রক্রিয়াকরণের দুটি গুরুত্বপূর্ণ পদক্ষেপ, যা ডিপ লার্নিং, মেশিন লার্নিং, এবং ডেটা সায়েন্স মডেল তৈরির সময় ব্যবহৃত হয়। এই দুটি পদ্ধতি মূলত ডেটার স্কেল পরিবর্তন করে, যাতে মডেলটি আরও কার্যকরভাবে কাজ করতে পারে। তবে, এগুলোর মধ্যে কিছু মৌলিক পার্থক্য রয়েছে, এবং এগুলি আলাদা পরিস্থিতিতে ব্যবহৃত হয়।

Data Normalization

Normalization হল একটি প্রক্রিয়া যেখানে ডেটার সমস্ত মানকে একটি নির্দিষ্ট সীমার মধ্যে স্কেল করা হয়, সাধারণত 0 থেকে 1 বা -1 থেকে 1। এটি প্রক্রিয়া করা হয় যাতে বিভিন্ন ফিচারের মধ্যে স্কেল বিভ্রান্তি কমানো যায় এবং মডেলটি আরও দ্রুত এবং দক্ষভাবে প্রশিক্ষিত হয়।

Normalization এর সুবিধা:

স্কেল পরিবর্তন: মডেলটি দ্রুত এবং কার্যকরভাবে কাজ করতে পারে যখন ডেটা সমান স্কেলে থাকে।
ডেটা হ্যাঙ্গলিং: যখন ডেটার মধ্যে বিভিন্ন মাত্রার স্কেল থাকে, তখন গাণিতিক অপারেশন সঠিকভাবে কাজ নাও করতে পারে। Normalization এটি সমাধান করতে সাহায্য করে।
মডেল পারফরম্যান্স উন্নত করা: কিছু অ্যালগরিদম (যেমন কনভোলিউশনাল নিউরাল নেটওয়ার্ক, কেডি-নেইঘবর এবং লিনিয়ার রিগ্রেশন) ডেটা স্কেলের উপর অত্যধিক নির্ভরশীল এবং তাদের পারফরম্যান্সের জন্য normalization প্রয়োজন।

Normalization এর পদ্ধতি:

Normalization করার একটি সাধারণ পদ্ধতি হল Min-Max Scaling:

$X′=X−XminXmax−Xmin<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>X</mi><mo rspace="0em" lspace="0em" mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mrow><mi>X</mi><mo>−</mo><msub><mi>X</mi><mtext>min</mtext></msub></mrow><mrow><msub><mi>X</mi><mtext>max</mtext></msub><mo>−</mo><msub><mi>X</mi><mtext>min</mtext></msub></mrow></mfrac></mrow><annotation encoding="application/x-tex">X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}</annotation></semantics></math>$

এখানে,

$X <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>X</mi></mrow><annotation encoding="application/x-tex">X</annotation></semantics></math>$ হল মূল মান,
$Xmin<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>X</mi><mtext>min</mtext></msub></mrow><annotation encoding="application/x-tex">X_{\text{min}}</annotation></semantics></math>$ এবং $Xmax<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msub><mi>X</mi><mtext>max</mtext></msub></mrow><annotation encoding="application/x-tex">X_{\text{max}}</annotation></semantics></math>$ হল ডেটা সেটের সর্বনিম্ন এবং সর্বাধিক মান,
$X' <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>X</mi><mo rspace="0em" lspace="0em" mathvariant="normal">'</mo></msup></mrow><annotation encoding="application/x-tex">X'</annotation></semantics></math>$ হল স্কেলড মান, যা 0 এবং 1 এর মধ্যে থাকবে।

উদাহরণ:

ধরা যাক, একটি ফিচারের মান 50 থেকে 100 এর মধ্যে পরিবর্তিত হচ্ছে। Min-Max Scaling এর মাধ্যমে এটি 0 থেকে 1 এর মধ্যে রূপান্তরিত হবে।

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

Data Standardization

Standardization (বা Z-score Normalization) হল একটি প্রক্রিয়া যেখানে ডেটার মানকে তাদের গড় (mean) থেকে বিচ্যুতি (variance) অনুযায়ী স্কেল করা হয়। এটি ডেটাকে একটি নতুন স্কেলে পরিবর্তন করে, যেখানে গড় হবে 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন হবে 1।

Standardization এর সুবিধা:

গড় এবং বিচ্যুতি ব্যবহার: Standardization মডেলের জন্য উপকারী, যেগুলির জন্য গড় এবং বিচ্যুতি গুরুত্বপূর্ণ। যেমন, লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, এবং SVM।
বহু ডেটা সুত্রের মধ্যে সঠিক তুলনা: Standardization বিভিন্ন স্কেলসহ ফিচারের মধ্যে তুলনা করতে সাহায্য করে, কারণ সমস্ত ফিচার একই স্কেলে থাকবে (গড় 0, বিচ্যুতি 1)।
স্কেল সমস্যা সমাধান: যখন ডেটার বিভিন্ন ফিচারগুলি আলাদা আলাদা স্কেলে থাকে (যেমন, এক ফিচার 0-100 এর মধ্যে এবং অন্যটি 0-1 এর মধ্যে), Standardization সেই সমস্যাগুলি সমাধান করতে সাহায্য করে।

Standardization এর পদ্ধতি:

Standardization করার জন্য সাধারণত Z-score ব্যবহার করা হয়, যা গড় থেকে মানের বিচ্যুতি বের করে স্কেল করা হয়:

$X′=X−μσ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>X</mi><mo rspace="0em" lspace="0em" mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mrow><mi>X</mi><mo>−</mo><mi>μ</mi></mrow><mi>σ</mi></mfrac></mrow><annotation encoding="application/x-tex">X' = \frac{X - \mu}{\sigma}</annotation></semantics></math>$

এখানে,

$X <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>X</mi></mrow><annotation encoding="application/x-tex">X</annotation></semantics></math>$ হল মূল মান,
$μ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>μ</mi></mrow><annotation encoding="application/x-tex">\mu</annotation></semantics></math>$ হল গড়,
$σ<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>σ</mi></mrow><annotation encoding="application/x-tex">\sigma</annotation></semantics></math>$ হল স্ট্যান্ডার্ড ডিভিয়েশন,
$X' <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>X</mi><mo rspace="0em" lspace="0em" mathvariant="normal">'</mo></msup></mrow><annotation encoding="application/x-tex">X'</annotation></semantics></math>$ হল স্ট্যান্ডারাইজড মান।

উদাহরণ:

ধরা যাক, একটি ফিচারের গড় 50 এবং স্ট্যান্ডার্ড ডিভিয়েশন 10। তাহলে, 60 মানের স্ট্যান্ডারাইজড মান হবে:

$X′=60−5010=1<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><msup><mi>X</mi><mo rspace="0em" lspace="0em" mathvariant="normal">′</mo></msup><mo>=</mo><mfrac><mrow><mn>60</mn><mo>−</mo><mn>50</mn></mrow><mn>10</mn></mfrac><mo>=</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">X' = \frac{60 - 50}{10} = 1</annotation></semantics></math>$

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

Normalization এবং Standardization এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Normalization	Standardization
ডেটার স্কেল	0 থেকে 1 বা -1 থেকে 1	গড় 0, স্ট্যান্ডার্ড ডিভিয়েশন 1
উদ্দেশ্য	ডেটাকে একটি নির্দিষ্ট সীমার মধ্যে স্কেল করা	ডেটার গড় এবং বিচ্যুতি অনুযায়ী স্কেল করা
কখন ব্যবহার করবেন	যখন স্কেল সমস্যার প্রভাব বেশি (যেমন, Neural Networks, K-means clustering)	যখন ডেটার স্কেল থেকে বড় বিচ্যুতি থাকলে এবং মডেলটি গড়ের উপর নির্ভরশীল (যেমন, Linear Regression, SVM)
ডেটার রেঞ্জ	0 থেকে 1 বা -1 থেকে 1	কোনো নির্দিষ্ট রেঞ্জ নয় (এটি গড় এবং স্ট্যান্ডার্ড ডিভিয়েশন অনুযায়ী পরিবর্তিত হয়)
বৈশিষ্ট্য	সমস্ত ডেটা একই স্কেলে থাকে	ডেটা গড় 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন 1 থাকে

কখন কোন পদ্ধতি ব্যবহার করবেন?

Normalization সাধারণত ব্যবহার করা হয় যখন আপনার ডেটার মান বিভিন্ন সীমার মধ্যে থাকে এবং মডেলের জন্য স্কেলটি সমান হতে হবে। যেমন, Neural Networks এবং K-means clustering এর জন্য এটি প্রয়োজন।
Standardization ব্যবহার করা হয় যখন আপনার ডেটার মানের স্কেল বা ইউনিট ভিন্ন হতে পারে এবং মডেলটি গড় এবং বিচ্যুতির উপর কাজ করবে, যেমন Linear Regression এবং SVM।

সারাংশ

Normalization এবং Standardization হল ডেটার স্কেল পরিবর্তনের পদ্ধতি, যা মডেল প্রশিক্ষণের জন্য গুরুত্বপূর্ণ। Normalization ডেটাকে একটি নির্দিষ্ট সীমার মধ্যে স্কেল করে (0 থেকে 1), এবং Standardization গড় এবং বিচ্যুতি অনুযায়ী স্কেল করে। এই দুটি পদ্ধতির নির্বাচন ডেটার প্রকৃতি এবং আপনার মডেলের প্রয়োজনের উপর নির্ভর করে।

Content added By

Md Azizur Rahman

Data Augmentation Techniques

109

Data Augmentation একটি কৌশল যা ডেটাসেটের আকার বাড়ানোর জন্য এবং মডেলের সাধারণীকরণ ক্ষমতা বাড়ানোর জন্য প্রয়োগ করা হয়। এটি মূলত ইমেজ বা সিকোয়েন্স ডেটাতে বিভিন্ন ট্রান্সফরমেশন বা পরিবর্তন করে নতুন ডেটা পয়েন্ট তৈরি করে, যা মডেলকে অতিরিক্ত বৈচিত্র্য দেয় এবং ওভারফিটিং এড়াতে সাহায্য করে। Data Augmentation বিশেষভাবে ডিপ লার্নিং মডেলগুলির জন্য কার্যকর, কারণ এটি তাদের প্রশিক্ষণ ডেটার বৈচিত্র্য বৃদ্ধি করে এবং মডেলের পারফর্ম্যান্স উন্নত করে।

Data Augmentation Techniques

১. Geometric Transformations

এগুলি মূলত ইমেজের ভৌগোলিক পরিবর্তনগুলি যা চিত্রের আকার বা অবস্থান পরিবর্তন করে।

Rotation (ঘূর্ণন): চিত্রকে নির্দিষ্ট ডিগ্রি (যেমন 90°, 180°) ঘোরানো হয়। এটি মডেলকে বিভিন্ন দিক থেকে বস্তু চিহ্নিত করতে সাহায্য করে।
- উদাহরণ: একটি ছবি 30° ঘুরিয়ে নেওয়া।
Flipping (আয়না প্রভাব): চিত্রকে অনুভূমিক বা উল্লম্বভাবে ফেরানো হয়। এটি বিভিন্ন দিক থেকে অবজেক্টগুলি চিনতে সাহায্য করে।
- উদাহরণ: একটি চিত্র অনুভূমিকভাবে ফ্লিপ করা।
Translation (স্থানান্তর): চিত্রের বিষয়বস্তুকে অনুভূমিক বা উল্লম্বভাবে স্থানান্তর করা হয়। এটি সিস্টেমকে বিষয়বস্তুর অবস্থানগত বৈচিত্র্য শেখায়।
- উদাহরণ: একটি চিত্রে অবজেক্টকে স্থানান্তর করা।
Scaling (স্কেলিং): চিত্রের আকার বড় বা ছোট করা হয়, যা ডেটার ভিন্ন আকারের চিত্রগুলির জন্য মডেল প্রশিক্ষণ দেয়।
- উদাহরণ: একটি চিত্রের আকার বাড়ানো বা ছোট করা।
Shearing (আকৃতির পরিবর্তন): এটি চিত্রের আকার পরিবর্তন করে একটি দিকের মধ্যে অস্বাভাবিক আকৃতি তৈরি করে।
- উদাহরণ: একটি চিত্রে আয়তনের পরিবর্তন করা।

২. Color Space Augmentation

এটি চিত্রের রঙ এবং কনট্রাস্ট পরিবর্তন করে ডেটার বৈচিত্র্য বাড়ায়।

Brightness Adjustment (উজ্জ্বলতা সমন্বয়): চিত্রের উজ্জ্বলতা বাড়ানো বা কমানো, যা আলোর ভিন্ন শর্তে চিত্র শনাক্ত করতে সাহায্য করে।
- উদাহরণ: চিত্রের উজ্জ্বলতা বাড়ানো বা কমানো।
Contrast Adjustment (কনট্রাস্ট সমন্বয়): চিত্রের কনট্রাস্ট বাড়ানো বা কমানো, যা মডেলকে ভিন্ন দৃশ্যাবলীতে বস্তু শনাক্ত করতে সহায়ক।
- উদাহরণ: চিত্রের কনট্রাস্ট বাড়ানো বা কমানো।
Saturation Adjustment (স্যাচুরেশন সমন্বয়): রঙের তীব্রতা পরিবর্তন করা হয়। এটি বিভিন্ন আলোর অবস্থায় বস্তু চিনতে সাহায্য করে।
- উদাহরণ: চিত্রের স্যাচুরেশন বাড়ানো বা কমানো।
Hue Adjustment (রঙের সুর পরিবর্তন): চিত্রের রঙের সুর পরিবর্তন করা হয়, যা বস্তু বা দৃশ্যের ভিন্ন রঙের সংজ্ঞা তৈরিতে সাহায্য করে।
- উদাহরণ: একটি চিত্রে রঙের সুর পরিবর্তন করা।

৩. Cropping (ক্রপিং)

চিত্রের অংশ কেটে নেয়া হয়, যা মডেলকে আংশিক বা অসম্পূর্ণ চিত্র শনাক্ত করতে সক্ষম করে।

Random Cropping: চিত্রের এলোমেলো অংশ কেটে নেওয়া হয়।
- উদাহরণ: একটি চিত্রের এলোমেলো অংশ কেটে নেয়া।

৪. Noise Injection (শব্দ যোগ করা)

ইমেজ বা সিকোয়েন্স ডেটাতে এলোমেলো "শব্দ" বা "নয়েস" যোগ করা হয়। এটি মডেলকে এক্সট্রা বৈচিত্র্য দেয় এবং সাধারণীকরণের ক্ষমতা বাড়ায়।

Gaussian Noise: চিত্র বা সিকোয়েন্সের ওপর গাউসিয়ান নয়েস যোগ করা হয়।
- উদাহরণ: একটি চিত্রে এলোমেলো নয়েস যোগ করা।

৫. Elastic Deformation (ইলাস্টিক বিকৃতি)

চিত্রের আকৃতি বা অবকাঠামো বিকৃত করা হয় যেন মডেলটি ভিন্ন উপায়ে বস্তু চিনতে পারে।

উদাহরণ: একটি ইমেজের বিকৃতি তৈরি করা, যা মডেলকে বস্তু চিনতে সাহায্য করে যে এটি ভিন্ন আঙ্গিক থেকে কিভাবে দেখা যেতে পারে।

৬. Cutout (কাটআউট)

ইমেজ থেকে এলোমেলো অংশ বাদ দেওয়া হয়, যাতে মডেলটি গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি শিখতে বাধ্য হয়, এমনকি কিছু অংশ অনুপস্থিত থাকলেও।

উদাহরণ: একটি চিত্রের এলোমেলো অংশ কেটে ফেলুন।

৭. Mixup (মিশ্রণ)

এই কৌশলে দুটি বা বেশি চিত্রের মিশ্রণ তৈরি করা হয় এবং তাদের লক্ষ্য ভ্যালু (labels) মিশ্রিত করা হয়। এটি মডেলকে আরও ভিন্ন ভিন্ন বৈশিষ্ট্য শিখতে সহায়ক।

উদাহরণ: দুটি চিত্রের উপর একসঙ্গে কাজ করা এবং তাদের লক্ষ্য মিশ্রণ করা।

৮. Random Erasing (এলোমেলো মোছা)

এটি এলোমেলোভাবে কিছু অংশ মুছে ফেলার মাধ্যমে ডেটাকে আরও বৈচিত্র্যপূর্ণ করে তোলে। এটি মডেলকে সহায়কভাবে সমস্যা সমাধানে সক্ষম করে।

উদাহরণ: একটি চিত্রের এলোমেলো অংশ মুছে ফেলুন।

ডেটা অগমেন্টেশন ব্যবহার করার উপকারিতা:

ওভারফিটিং কমানো: ডেটা অগমেন্টেশন মডেলকে নতুন ধরনের ডেটা শিখতে সহায়ক করে, যা ওভারফিটিং কমাতে সহায়ক।
গুরুত্বপূর্ণ বৈশিষ্ট্য শিখানো: মডেলটি বিভিন্ন উপায়ে ডেটা দেখতে পায়, যা এটি গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে আরও ভালভাবে শিখতে সাহায্য করে।
মডেল পারফর্মেন্স উন্নত করা: আরও বৈচিত্র্যময় ডেটা দিয়ে প্রশিক্ষণ দেওয়ার মাধ্যমে মডেলের পারফর্মেন্স বাড়ানো যায়।
ডেটার বৈচিত্র্য বৃদ্ধি: ডেটা অগমেন্টেশন ব্যবহারের ফলে মডেলটি বিভিন্ন শর্তে এবং দৃষ্টিকোণে বস্তু শনাক্ত করতে সক্ষম হয়।

সারাংশ

ডেটা অগমেন্টেশন ডিপ লার্নিং মডেলগুলির জন্য একটি অত্যন্ত গুরুত্বপূর্ণ কৌশল, যা ডেটার বৈচিত্র্য বৃদ্ধি এবং মডেলটির সাধারণীকরণ ক্ষমতা বাড়াতে সাহায্য করে। এটি বিভিন্ন প্রযুক্তি ব্যবহার করে, যেমন ঘূর্ণন, স্কেলিং, ফ্লিপিং, রঙের পরিবর্তন এবং শব্দ যোগ করা, যা মডেলকে বাস্তব জীবনের পরিস্থিতি অনুযায়ী আরও কার্যকরী করে তোলে।

Content added By

Md Azizur Rahman

DataBatch এবং Minibatch ব্যবহার

200

DataBatch এবং Minibatch শব্দ দুটি ডিপ লার্নিং এবং মেশিন লার্নিং এ খুব গুরুত্বপূর্ণ। এই দুটি ধারণা, বিশেষত CNTK (Microsoft Cognitive Toolkit) এবং অন্যান্য ডিপ লার্নিং ফ্রেমওয়ার্কে, ডেটা প্রশিক্ষণ প্রক্রিয়া এবং অপটিমাইজেশনের ক্ষেত্রে ব্যবহৃত হয়।

এখানে DataBatch এবং Minibatch এর ভূমিকা, ব্যবহার এবং তাদের মধ্যে পার্থক্যগুলি ব্যাখ্যা করা হয়েছে।

Minibatch কী?

Minibatch হল একটি ছোট ডেটা সেট যা প্রশিক্ষণের জন্য ব্যবহৃত হয়। ডিপ লার্নিং মডেলের প্রশিক্ষণের সময়, ডেটাকে সাধারণত Minibatches এ ভাগ করা হয়, যা একবারে মডেলে প্রক্রিয়া করা হয়। পুরো ডেটাসেট একবারে মডেলে প্রক্রিয়া করা (বা ব্যাচ প্রশিক্ষণ) হতে পারে অত্যন্ত ধীর, তাই Minibatch Gradient Descent ব্যবহার করা হয়।

Minibatch এর ব্যবহার:

ট্রেনিং গতি: পুরো ডেটাসেট একবারে প্রশিক্ষণ করা (ব্যাচ গ্র্যাডিয়েন্ট ডিসেন্ট) খুব ধীর হতে পারে। ছোট ছোট minibatches ব্যবহার করে ট্রেনিং গতি বাড়ানো হয়।
মেমরি ব্যবহার: পুরো ডেটা একবারে মেমরিতে রাখা কঠিন হতে পারে, তবে minibatch ব্যবহার করে শুধুমাত্র একটি অংশ মেমরিতে রাখা হয়, যা মেমরি ব্যবস্থাপনাকে কার্যকরী করে তোলে।
গ্র্যাডিয়েন্ট ডিসেন্ট অপ্টিমাইজেশন: Minibatch Gradient Descent অপ্টিমাইজেশনের জন্য ব্যবহৃত হয়, যেখানে ছোট ছোট ডেটা অংশে গ্র্যাডিয়েন্ট আপডেট করা হয়।

Minibatch এর উদাহরণ:

ধরা যাক, আপনার কাছে 1000টি ডেটা পয়েন্ট আছে। আপনি এগুলিকে 100 পয়েন্টের 10টি মিনিব্যাচে ভাগ করতে পারেন। এতে মডেলটি একবারে 100 পয়েন্ট প্রক্রিয়া করবে এবং একাধিক গ্র্যাডিয়েন্ট আপডেট হবে, যা ট্রেনিং প্রক্রিয়াকে দ্রুত করবে।

# উদাহরণ: CNTK তে minibatch ব্যবহার
import cntk
import numpy as np

# ইনপুট এবং আউটপুট ভেরিয়েবল তৈরি
input_var = cntk.input_variable(2)
output_var = cntk.input_variable(1)

# ডেটা তৈরি
data = np.random.random((1000, 2))
labels = np.random.random((1000, 1))

# Minibatch তৈরি
batch_size = 100
num_batches = len(data) // batch_size

for i in range(num_batches):
    minibatch_data = data[i*batch_size:(i+1)*batch_size]
    minibatch_labels = labels[i*batch_size:(i+1)*batch_size]
    # আপনার মডেল প্রশিক্ষণ কোড এখানে রান করুন
    # মডেল প্রশিক্ষণ

DataBatch কী?

DataBatch হল একটি বড় ডেটা সেটের একটি অংশ যা একবারে মডেলে প্রক্রিয়া করা হয়। এটি একটি সামগ্রিক ডেটা সেটের ছোট অংশ হতে পারে এবং একটি Minibatch থেকে অনেক বড় হতে পারে। "DataBatch" একটি প্রক্রিয়া করা ডেটার গুচ্ছ হিসেবে সংজ্ঞায়িত করা যেতে পারে, যা মডেলের ট্রেনিং এর জন্য ব্যবহৃত হয়।

DataBatch এর ব্যবহার:

প্রশিক্ষণ প্রক্রিয়া: DataBatch ব্যবহার করে পুরো ডেটা সেট একবারে প্রক্রিয়া করা হতে পারে, তবে এটি অধিক মেমরি এবং সময় গ্রহণকারী হতে পারে।
গ্র্যাডিয়েন্ট আপডেট: DataBatch Gradient Descent পুরো ডেটাসেটের উপর একযোগে গ্র্যাডিয়েন্ট আপডেট করে, তবে এটি কার্যকর এবং দ্রুত নয়।

DataBatch এর উদাহরণ:

যদি আপনার কাছে 1000টি ডেটা পয়েন্ট থাকে এবং আপনি পুরো ডেটাসেট একবারে মডেলটিতে পাঠাতে চান, তবে এটি DataBatch হিসেবে গণ্য হবে।

# উদাহরণ: CNTK তে DataBatch ব্যবহার
input_var = cntk.input_variable(2)
output_var = cntk.input_variable(1)

# পুরো ডেটাসেট
data = np.random.random((1000, 2))
labels = np.random.random((1000, 1))

# DataBatch ব্যবহার
batch_size = 1000
data_batch = data[:batch_size]
labels_batch = labels[:batch_size]
# মডেল প্রশিক্ষণ কোড চালান

Minibatch এবং DataBatch এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Minibatch	DataBatch
আকার	ছোট অংশে ডেটা ভাগ করা হয় (ডেটাসেটের একটি ছোট অংশ)।	পুরো ডেটাসেটের অংশ।
ব্যবহার	গ্র্যাডিয়েন্ট ডিসেন্ট অপ্টিমাইজেশনে কার্যকরী।	পুরো ডেটা একবারে প্রশিক্ষণ করতে ব্যবহৃত।
পারফর্মেন্স	দ্রুত এবং মেমরি কম খরচ হয়।	ধীর এবং মেমরি বেশি ব্যবহার হয়।
ট্রেনিং গতি	দ্রুত (শুধুমাত্র একটি অংশ প্রক্রিয়া করা হয়)।	ধীর (সম্পূর্ণ ডেটা প্রক্রিয়া করা হয়)।

CNTK তে Minibatch এবং DataBatch ব্যবহার

CNTK তে Minibatch এবং DataBatch ব্যবহারের জন্য আপনি TrainingData এবং Input Variables কে নিয়ন্ত্রণ করতে পারবেন। Minibatch সাধারণত Stochastic Gradient Descent (SGD) বা Minibatch SGD অ্যালগরিদমে ব্যবহৃত হয়, যেখানে প্রশিক্ষণের জন্য ডেটা টুকরো টুকরো ভাগ করা হয়।

Minibatch Gradient Descent উদাহরণ:

# CNTK এ Minibatch Gradient Descent ব্যবহার
import cntk
import numpy as np

# ইনপুট এবং আউটপুট ভেরিয়েবল তৈরি
input_var = cntk.input_variable(2)
output_var = cntk.input_variable(1)

# ডেটা তৈরি
data = np.random.random((1000, 2))
labels = np.random.random((1000, 1))

# Minibatch Gradient Descent অপটিমাইজার
batch_size = 100
trainer = cntk.Trainer(model, [cntk.losses.squared_error(output_var, labels)],
                       [cntk.learners.sgd(input_var, learning_rate=0.1)])

for i in range(len(data) // batch_size):
    minibatch_data = data[i*batch_size:(i+1)*batch_size]
    minibatch_labels = labels[i*batch_size:(i+1)*batch_size]
    
    # প্রশিক্ষণ একধাপ অগ্রসর করা
    trainer.train_minibatch({input_var: minibatch_data, output_var: minibatch_labels})

সারাংশ

Minibatch হল ছোট ছোট অংশে ডেটা ভাগ করার একটি কৌশল, যা দ্রুত ট্রেনিং, মেমরি ব্যবস্থাপনা এবং গ্র্যাডিয়েন্ট ডিসেন্ট অপ্টিমাইজেশন নিশ্চিত করে।
DataBatch হল পুরো ডেটাসেটের একটি অংশ, যা ডেটা সম্পূর্ণভাবে প্রক্রিয়া করার জন্য ব্যবহৃত হয়।
CNTK তে Minibatch সাধারণত SGD অপ্টিমাইজেশন অ্যালগরিদমে ব্যবহৃত হয়, যা বড় ডেটাসেটগুলির জন্য কার্যকর।

Content added By

Md Azizur Rahman

Microsoft Cognitive Toolkit (CNTK) পরিচিতি CNTK ইনস্টলেশন এবং সেটআপ CNTK এর মৌলিক ধারণা CNTK তে বেসিক মডেল তৈরি Convolutional Neural Networks (CNN) তৈরি করা

Data Preprocessing এবং Loading

Data Preprocessing

১. ডেটার স্কেলিং (Scaling) এবং নরমালাইজেশন (Normalization)

২. মিসিং ডেটা (Missing Data) হ্যান্ডলিং

৩. ডেটার এনকোডিং (Encoding)

Data Loading in CNTK

১. CNTK তে Data Loading

২. CNTK Data Loader ব্যবহার করা

৩. CNTK তে Data Pipeline

সারাংশ

Data লোড করা (CSV, Image, Text)

1. CSV ডেটা লোড করা (Using CNTK)

CSV ডেটা লোড করার জন্য:

ধাপ ১: CSV ডেটা লোড করা (Pandas ব্যবহার করে)

ধাপ ২: CNTK InputVariable তৈরী করা

2. Image ডেটা লোড করা (Using CNTK)

Image ডেটা লোড করার জন্য:

ধাপ ১: Image Data লোড করা (ImageReader ব্যবহার করে)

ধাপ ২: Image Data প্রসেসিং

3. Text ডেটা লোড করা (Using CNTK)

Text ডেটা লোড করার জন্য:

ধাপ ১: TextReader ব্যবহার করে টেক্সট ডেটা লোড করা

ধাপ ২: Text Data প্রসেসিং

সারাংশ

Data Normalization এবং Standardization

Data Normalization

Normalization এর সুবিধা:

Normalization এর পদ্ধতি:

উদাহরণ:

Data Standardization

Standardization এর সুবিধা:

Standardization এর পদ্ধতি:

উদাহরণ:

Normalization এবং Standardization এর মধ্যে পার্থক্য

কখন কোন পদ্ধতি ব্যবহার করবেন?

সারাংশ

Data Augmentation Techniques

Data Augmentation Techniques

১. Geometric Transformations

২. Color Space Augmentation

৩. Cropping (ক্রপিং)

৪. Noise Injection (শব্দ যোগ করা)

৫. Elastic Deformation (ইলাস্টিক বিকৃতি)

৬. Cutout (কাটআউট)

৭. Mixup (মিশ্রণ)

৮. Random Erasing (এলোমেলো মোছা)

ডেটা অগমেন্টেশন ব্যবহার করার উপকারিতা:

সারাংশ

DataBatch এবং Minibatch ব্যবহার

Minibatch কী?

Minibatch এর ব্যবহার:

Minibatch এর উদাহরণ:

DataBatch কী?

DataBatch এর ব্যবহার:

DataBatch এর উদাহরণ:

Minibatch এবং DataBatch এর মধ্যে পার্থক্য

CNTK তে Minibatch এবং DataBatch ব্যবহার

Minibatch Gradient Descent উদাহরণ:

সারাংশ

All Notifications

Promotion