Hyperparameter Tuning এবং Optimization

Machine Learning - ক্যাফে২ (Caffe2)

201

Hyperparameter tuning এবং optimization ডিপ লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ অংশ, যা মডেলের পারফরম্যান্স উন্নত করতে সহায়তা করে। Hyperparameters হলো সেই প্যারামিটারগুলো যা মডেল ট্রেনিংয়ের আগে সেট করতে হয় এবং ট্রেনিং প্রক্রিয়ার মধ্যে পরিবর্তন হয় না। যেমন, লার্নিং রেট, ব্যাচ সাইজ, epochs, ইত্যাদি। Hyperparameter tuning বা optimization প্রক্রিয়াটি এই প্যারামিটারগুলোর সঠিক মান খুঁজে বের করার জন্য ব্যবহৃত হয় যাতে মডেলের সঠিকতা এবং কার্যকারিতা বৃদ্ধি পায়।

1. Hyperparameter Tuning

Caffe2 তে Hyperparameter tuning করার জন্য বিভিন্ন পদ্ধতি রয়েছে। এখানে মূল কিছু পদ্ধতি আলোচনা করা হলো।

1.1. Grid Search

Grid Search হলো একটি brute-force পদ্ধতি, যেখানে আপনি কিছু hyperparameters এর বিভিন্ন সম্ভাব্য মানের জন্য পরীক্ষা করেন। এটি একটি বড় পরিমাণের অপশন পরীক্ষা করে এবং সেরা ফলাফল দেয়।

Grid Search পদ্ধতি ব্যবহার করার জন্য, বিভিন্ন hyperparameter এর মানের সম্ভাব্য সেট তৈরি করুন এবং প্রতিটি সেটের জন্য মডেল ট্রেনিং করুন।

উদাহরণ:

from sklearn.model_selection import GridSearchCV
import numpy as np

# Define the parameters to tune
param_grid = {
    'learning_rate': [0.01, 0.001, 0.0001],
    'batch_size': [32, 64, 128],
    'epochs': [10, 20, 50]
}

# Define your model
# (Assume you have a function 'create_model()' that returns a Caffe2 model)
model = create_model()

# GridSearchCV does the tuning
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3)

# Fit the model with Grid Search
grid_search.fit(train_data, train_labels)
print("Best hyperparameters: ", grid_search.best_params_)

1.2. Random Search

Random Search হলো একটি পদ্ধতি যেখানে আপনি hyperparameter স্পেস থেকে কিছু প্যারামিটার র্যান্ডমলি সিলেক্ট করে পরীক্ষা করেন। এটি Grid Search এর তুলনায় কম সময় নেয় এবং বেশ কিছু ক্ষেত্রে বেশি কার্যকরী।

উদাহরণ:

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform

# Define the parameters to tune
param_dist = {
    'learning_rate': uniform(0.0001, 0.1),
    'batch_size': [32, 64, 128],
    'epochs': [10, 20, 50]
}

# Define your model
model = create_model()

# RandomizedSearchCV does the tuning
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, n_iter=100, cv=3)

# Fit the model with Random Search
random_search.fit(train_data, train_labels)
print("Best hyperparameters: ", random_search.best_params_)

1.3. Bayesian Optimization

Bayesian optimization একটি ইন্টেলিজেন্ট পদ্ধতি, যেখানে মডেলের পারফরম্যান্সের উপর ভিত্তি করে নতুন প্যারামিটার কনফিগারেশন নির্বাচন করা হয়। এটি Hyperparameter tuning এর জন্য একটি অধিক কার্যকরী পদ্ধতি, কারণ এটি পূর্ববর্তী পরীক্ষার ফলাফলের উপর ভিত্তি করে পরবর্তী পরীক্ষা করার জন্য নতুন প্যারামিটার নির্বাচন করে।

এটি মূলত একটি পরিসংখ্যানিক পদ্ধতি যা একটি Gaussian process ব্যবহার করে।

1.4. Manual Search

এটি সবচেয়ে সহজ পদ্ধতি, যেখানে আপনি হিউম্যান ইন্টারভেনশন দ্বারা কিছু সম্ভাব্য প্যারামিটার নির্বাচন করেন এবং তাদের মান পরিবর্তন করে মডেলের পারফরম্যান্স পরীক্ষা করেন।

2. Hyperparameter Optimization Techniques

Caffe2 তে hyperparameter optimization এর জন্য কিছু গুরুত্বপূর্ণ কৌশল রয়েছে:

2.1. L2 Regularization (Weight Decay)

L2 Regularization (Weight Decay) একটি গুরুত্বপূর্ণ optimization technique যা overfitting কমাতে সাহায্য করে। এটি মডেলের weights এর উপর একটি penalty যুক্ত করে, যাতে মডেলটি খুব বেশি জটিল না হয়।

উদাহরণ:

# Adding L2 regularization to the optimizer
from caffe2.python import optimizer

# Assume 'model' is a predefined model
optimizer_param = optimizer.buildSGD(
    model,
    base_lr=0.01,
    momentum=0.9,
    weight_decay=0.0001
)

2.2. Learning Rate Scheduling

Learning rate scheduling একটি optimization কৌশল, যেখানে মডেল ট্রেনিং চলাকালীন সময়ে learning rate ধীরে ধীরে কমানো হয়। এটি মডেলের convergence উন্নত করতে সাহায্য করে।

Caffe2 তে learning rate scheduling এর জন্য আপনি StepLR, ExponentialLR, এবং CosineAnnealingLR ধরনের scheduler ব্যবহার করতে পারেন।

উদাহরণ:

# Learning rate scheduler
from caffe2.python import lr_scheduler

lr_scheduler = lr_scheduler.StepLR(
    base_lr=0.1,
    step_size=10,
    gamma=0.1
)

# Use this scheduler in your optimizer
optimizer = optimizer.buildSGD(
    model,
    base_lr=lr_scheduler,
    momentum=0.9,
    weight_decay=0.0001
)

2.3. Gradient Clipping

Gradient Clipping হল একটি পদ্ধতি যা বড় গ্রেডিয়েন্টের কারণে exploding gradients সমস্যা প্রতিরোধে সহায়তা করে। এটি বিশেষ করে RNN বা LSTM মডেলগুলিতে ব্যবহার করা হয়।

উদাহরণ:

from caffe2.python import core

# Add gradient clipping to the optimizer
optimizer_param = optimizer.buildSGD(
    model,
    base_lr=0.01,
    momentum=0.9,
    weight_decay=0.0001,
    gradient_clip=5.0  # Clip gradients above this threshold
)

2.4. Adaptive Optimizers

Adaptive optimizers, যেমন Adam, RMSprop, এবং Adagrad, এইসব অপটিমাইজারগুলি learning rate-এর জন্য একটি অটোমেটিক adjustment করে, যাতে ট্রেনিং আরও দ্রুত হয় এবং আরও স্থিতিশীল থাকে।

Caffe2 তে Adam Optimizer ব্যবহার করার জন্য:

from caffe2.python import optimizer

# Using Adam optimizer
optimizer_param = optimizer.buildAdam(
    model,
    base_lr=0.001,
    beta1=0.9,
    beta2=0.999,
    weight_decay=0.0001
)

3. Best Practices for Hyperparameter Tuning and Optimization:

Start with a simple model and small learning rate: প্রথমে একটি সোজা মডেল এবং ছোট learning rate দিয়ে ট্রেনিং শুরু করুন, তারপর ধীরে ধীরে hyperparameters টিউন করুন।
Use validation set: Hyperparameter tuning করার সময় training data এর বাইরে একটি validation set ব্যবহার করুন যাতে overfitting রোধ করা যায়।
Monitor the loss and accuracy: Hyperparameters টিউন করার সময় loss এবং accuracy মনিটর করা খুবই গুরুত্বপূর্ণ। এটি আপনাকে জানাবে কখন মডেলটি ভালো পারফর্ম করছে।
Perform Cross-validation: Cross-validation প্রয়োগ করুন, বিশেষ করে ছোট ডেটাসেটের ক্ষেত্রে, যাতে আপনি hyperparameters এর প্রতি বেশি নির্ভর করতে পারেন।

সারাংশ:

Caffe2 তে Hyperparameter Tuning এবং Optimization এর জন্য বিভিন্ন কৌশল রয়েছে, যার মধ্যে Grid Search, Random Search, Bayesian Optimization ইত্যাদি গুরুত্বপূর্ণ। সঠিক hyperparameters নির্বাচন করে আপনি মডেলের পারফরম্যান্স উল্লেখযোগ্যভাবে উন্নত করতে পারেন। Optimization techniques যেমন L2 regularization, learning rate scheduling, gradient clipping এবং adaptive optimizers ব্যবহার করে আপনার মডেলের ট্রেনিং প্রক্রিয়া আরও স্থিতিশীল এবং দ্রুত করা সম্ভব।

Content added By

Md Azizur Rahman

Hyperparameter Tuning কী এবং কেন গুরুত্বপূর্ণ?

164

Hyperparameter Tuning হল একটি প্রক্রিয়া যার মাধ্যমে মডেলটির পারফরম্যান্সকে অপ্টিমাইজ করার জন্য মডেলের হাইপারপ্যারামিটারগুলির মান সঠিকভাবে নির্বাচন করা হয়। হাইপারপ্যারামিটার হল এমন প্যারামিটার যা মডেলের ট্রেনিং প্রক্রিয়ায় আগে থেকে নির্ধারিত থাকে এবং এগুলি মডেল ট্রেনিং শুরু হওয়ার আগে সেট করা হয়।

Hyperparameter কী?

মডেল তৈরি করার সময়, কিছু প্যারামিটার থাকে যা মডেল ট্রেনিংয়ের প্রক্রিয়ায় পরিবর্তিত হয় না এবং এগুলির মান ব্যবহারের আগে নির্ধারণ করতে হয়। এসব প্যারামিটারকে হাইপারপ্যারামিটার বলা হয়।

হাইপারপ্যারামিটারগুলি সাধারণত মডেলের স্থিতি বা আচরণ নিয়ন্ত্রণ করে এবং এগুলির সঠিক নির্বাচন মডেলের পারফরম্যান্সের ওপর বিশাল প্রভাব ফেলে।

হাইপারপ্যারামিটারগুলির উদাহরণ:

Learning Rate: এটি সেই মান যা প্রতি আপডেটে মডেলের ওয়েট আপডেটের মাত্রা নির্ধারণ করে। এটি খুব ছোট হলে মডেল ধীরে শিখবে এবং খুব বড় হলে মডেল অস্থিতিশীল হতে পারে।
Batch Size: মডেলের প্রশিক্ষণ চলাকালীন একটি ব্যাচে ডেটার সাইজ কত হবে, তা নির্ধারণ করে।
Number of Epochs: মোট কতবার ট্রেনিং ডেটা সম্পূর্ণ মডেল দ্বারা পাস হবে তা নির্ধারণ করে।
Number of Layers and Units: নিউরাল নেটওয়ার্কের মধ্যে কতগুলো লেয়ার এবং প্রতিটি লেয়ারে কতটি ইউনিট (নোড) থাকবে তা নির্ধারণ করে।
Regularization Parameters: যেমন L1, L2 রেগুলারাইজেশন, যা মডেলকে অতিরিক্ত ফিটিং (overfitting) থেকে বাঁচায়।
Optimizer: ট্রেনিংয়ের জন্য ব্যবহৃত অপটিমাইজার, যেমন SGD, Adam, RMSprop, ইত্যাদি।

Hyperparameter Tuning কেন গুরুত্বপূর্ণ?

Hyperparameter tuning মডেল তৈরির জন্য অত্যন্ত গুরুত্বপূর্ণ, কারণ:

পারফরম্যান্স অপ্টিমাইজেশন:
- হাইপারপ্যারামিটারগুলির সঠিক মান নির্বাচন করলে মডেলটি তার পারফরম্যান্স সর্বোচ্চ পর্যায়ে পৌঁছাতে পারে। যদি এই প্যারামিটারগুলি ভুলভাবে সেট করা হয়, তবে মডেলটি আদর্শ ফলাফল দিতে সক্ষম হবে না।
অতিরিক্ত ফিটিং বা আন্ডারফিটিং রোধ:
- যদি হাইপারপ্যারামিটারগুলো সঠিকভাবে টিউন করা না হয়, তাহলে মডেল অতিরিক্ত ফিটিং (Overfitting) বা আন্ডারফিটিং (Underfitting) সমস্যায় পড়তে পারে। Learning rate বা Epochs এর মতো হাইপারপ্যারামিটারগুলো সঠিকভাবে নির্বাচন করলে এই সমস্যা কমানো সম্ভব।
ট্রেনিং সময়ের উন্নতি:
- সঠিক হাইপারপ্যারামিটার নির্বাচন করলে মডেল দ্রুত এবং দক্ষতার সাথে ট্রেনিং করতে পারে। উদাহরণস্বরূপ, Batch size এবং Learning rate সঠিকভাবে নির্বাচন করলে ট্রেনিং দ্রুত হবে।
অন্তর্দৃষ্টি ও ভালো ফলাফল:
- মডেলের কনফিগারেশন পরিমার্জন করে ভাল ফলাফল পাওয়া সম্ভব। Hyperparameter tuning এর মাধ্যমে মডেলটিকে এমনভাবে কনফিগার করা যায় যাতে সেটি বিভিন্ন ডেটাসেটে কার্যকরভাবে কাজ করে।

Hyperparameter Tuning এর কৌশল:

Grid Search:
- এটি একটি সিস্টেম্যাটিক পদ্ধতি যেখানে হাইপারপ্যারামিটারগুলির সম্ভাব্য মানের একটি গ্রিড তৈরি করা হয় এবং সেগুলোর প্রত্যেকটি কনফিগারেশনের জন্য মডেল ট্রেনিং করা হয়। তবে, এটি সময়সাপেক্ষ হতে পারে কারণ এই পদ্ধতিতে অনেক সম্ভাব্য কনফিগারেশন পরীক্ষা করতে হয়।
- উদাহরণ: বিভিন্ন Learning rate, Batch size এবং Epochs এর মান নির্ধারণ করে তাদের জন্য আলাদা ট্রেনিং করা।
Random Search:
- Grid Search এর চেয়ে কম খরচে, এখানে হাইপারপ্যারামিটারগুলির বিভিন্ন মানের এলোমেলো নির্বাচন করা হয় এবং সেগুলোর মধ্য থেকে সবচেয়ে ভালো পারফরম্যান্স প্রদানকারী কনফিগারেশনটি নির্বাচন করা হয়।
Bayesian Optimization:
- এটি একটি পরিসংখ্যানিক পদ্ধতি যা একটি বায়েসিয়ান মডেল তৈরি করে এবং সেই মডেল ব্যবহার করে সবচেয়ে ভালো ফলাফল পাওয়া সম্ভব এমন কনফিগারেশনটি নির্বাচন করে। এটি grid search এর তুলনায় অনেক বেশি দক্ষ এবং কম সময় নেয়।
Genetic Algorithms:
- এটি একটি ন্যাচারাল সিলেকশন ভিত্তিক অপটিমাইজেশন কৌশল যেখানে হাইপারপ্যারামিটারগুলির মান নির্বাচন এবং পরবর্তীতে নির্বাচন করা হয় এমনভাবে যাতে প্রতিটি প্রজন্মের সাথে মডেল আরও উন্নত হতে থাকে।
Hyperband:
- এটি একটি আধুনিক এবং দ্রুত হাইপারপ্যারামিটার অপটিমাইজেশন কৌশল যা সঠিক কনফিগারেশন খুঁজে বের করার জন্য সম্পদ ব্যবহার করে।

Hyperparameter Tuning এর কিছু উদাহরণ:

Learning Rate:
- উচ্চ learning rate খুব দ্রুত অপটিমাইজেশন করতে পারে, তবে এটি মাঝে মাঝে optimal পয়েন্ট মিস করতে পারে।
- খুব কম learning rate মডেলকে ধীরে ধীরে শিখতে সাহায্য করে, তবে এটি অনেক সময় নেয়।
Batch Size:
- ছোট batch size মডেলটিকে আরও ভালো জেনারালাইজেশনের জন্য সহায়ক হতে পারে, তবে এটি ট্রেনিং ধীর করে দিতে পারে।
- বড় batch size দ্রুত ট্রেনিং করতে সাহায্য করে, তবে এটি মডেলের জেনারালাইজেশন ক্ষমতা কমিয়ে দিতে পারে।
Number of Epochs:
- বেশি epoch ট্রেনিংয়ে মডেল আরও বেশি শিখতে পারে, তবে অতিরিক্ত epoch মডেলকে অতিরিক্ত ফিট (overfit) করে ফেলতে পারে।
- কম epoch মডেলকে আন্ডারফিট করতে পারে।

সারাংশ:

Hyperparameter Tuning একটি গুরুত্বপূর্ণ প্রক্রিয়া যা মডেলের পারফরম্যান্স অপ্টিমাইজ করতে সাহায্য করে। সঠিক হাইপারপ্যারামিটারগুলি নির্বাচন করা মডেলের কার্যকারিতা ও প্রশিক্ষণ সময় উভয়কেই প্রভাবিত করে। এটি Grid Search, Random Search, Bayesian Optimization, এবং Genetic Algorithms এর মতো বিভিন্ন কৌশল ব্যবহার করে করা হয়। হাইপারপ্যারামিটার টিউনিং মডেলের সঠিক কার্যকারিতা নিশ্চিত করতে এবং বাস্তব বিশ্বের ডেটা থেকে ভালো ফলাফল পাওয়ার জন্য অপরিহার্য।

Content added By

Md Azizur Rahman

Learning Rate, Batch Size, এবং Epoch কনফিগার করা

143

Caffe2 বা যেকোনো মেশিন লার্নিং ফ্রেমওয়ার্কে, Learning Rate, Batch Size, এবং Epoch কনফিগার করা খুবই গুরুত্বপূর্ণ কারণ এগুলো মডেল ট্রেনিং প্রক্রিয়ার পারফরম্যান্স এবং সফলতা নির্ধারণ করে। নিচে Caffe2 তে এই প্যারামিটারগুলো কিভাবে কনফিগার করা যায় তা ব্যাখ্যা করা হলো।

১. Learning Rate কনফিগার করা

Learning Rate হল একটি প্যারামিটার যা মডেল ট্রেনিংয়ের সময় প্রতি স্টেপে প্যারামিটার আপডেটের আকার নির্ধারণ করে। এটি অত্যন্ত গুরুত্বপূর্ণ, কারণ খুব বেশি learning rate মডেলকে সঠিক পথে নিয়ে যেতে পারে না, আর খুব কম learning rate ট্রেনিং প্রক্রিয়া ধীর করতে পারে।

Caffe2 তে learning rate কনফিগার করার জন্য, আপনাকে সাধারণত optimizer এর মধ্যে এটি সেট করতে হবে। উদাহরণস্বরূপ, SGD (Stochastic Gradient Descent) অপটিমাইজারের জন্য এটি কিভাবে কনফিগার করা হয় তা নিচে দেখানো হলো।

Learning Rate কনফিগার করার কোড উদাহরণ:

from caffe2.python import workspace, model_lib, core
import numpy as np

# Hyperparameters
learning_rate = 0.001  # Set learning rate
batch_size = 32  # Set batch size
epochs = 10  # Set the number of epochs

# Model Initialization
model = model_lib.ResNet50()

# Learning rate scheduler
optimizer = core.CreateOperator(
    "SGD", 
    ["param", "learning_rate"], 
    ["param_out"]
)

# Set the learning rate in the workspace
workspace.FeedBlob("learning_rate", np.array([learning_rate], dtype=np.float32))

# Run training with set learning rate
for epoch in range(epochs):
    # training loop
    workspace.RunNetOnce(model.param_init_net)
    workspace.RunNetOnce(model.net)

    # Here we can print the loss or accuracy for each epoch
    print(f"Epoch {epoch + 1}/{epochs} completed.")

এখানে, learning_rate কনফিগার করা হয়েছে 0.001 এবং এটি SGD অপটিমাইজারে ব্যবহার করা হয়েছে।

২. Batch Size কনফিগার করা

Batch Size হল কতটি ডেটা পয়েন্ট একসাথে প্রসেস করা হবে প্রতিটি iteration এ। এটি মেমরি ব্যবহারের উপর প্রভাব ফেলে এবং মডেল ট্রেনিংয়ের গতিকে নির্ধারণ করে। ছোট batch size ডেটাকে দ্রুত প্রসেস করে কিন্তু বেশি আপডেট তৈরি করতে পারে, আর বড় batch size ধীর গতিতে কাজ করে তবে ট্রেনিং পরিসংখ্যান আরো সঠিক হতে পারে।

Batch Size কনফিগার করার কোড উদাহরণ:

# Hyperparameters
batch_size = 32  # Set batch size

# Model Data Input
input_data = np.random.randn(batch_size, 3, 224, 224).astype(np.float32)  # Example input data for batch size of 32

# Feed the data to the model
workspace.FeedBlob("data", input_data)

# Run training for the current batch
workspace.RunNetOnce(model.param_init_net)
workspace.RunNetOnce(model.net)

এখানে, batch_size সেট করা হয়েছে 32 এবং প্রতি ব্যাচে 32টি ডেটা পয়েন্ট প্রসেস করা হচ্ছে।

৩. Epoch কনফিগার করা

Epoch হল ট্রেনিংয়ের কতবার পুরো ডেটাসেট মডেলের মাধ্যমে প্রক্রিয়া করা হবে। একটি epoch এর মধ্যে সমস্ত ট্রেনিং ডেটা একবার পাস হয়ে যায়। বেশি epochs ব্যবহার করলে মডেল আরও ভালভাবে ট্রেনিং হতে পারে, তবে অনেক বেশি epochs মডেলের ওভারফিটিং (Overfitting) ঘটাতে পারে।

Epoch কনফিগার করার কোড উদাহরণ:

# Hyperparameters
epochs = 10  # Set number of epochs

# Training loop for multiple epochs
for epoch in range(epochs):
    print(f"Starting epoch {epoch + 1}/{epochs}")
    
    # Training on the current epoch
    workspace.RunNetOnce(model.param_init_net)
    workspace.RunNetOnce(model.net)
    
    # After each epoch, print loss or accuracy if needed
    print(f"Epoch {epoch + 1} completed.")

এখানে, মডেলটি 10টি epoch এর জন্য ট্রেনিং হবে এবং প্রতিটি epoch এ মডেলকে পুনরায় ডেটাসেটের উপর ট্রেনিং করা হবে।

৪. Learning Rate, Batch Size, এবং Epoch কনফিগার করার টিপস:

Learning Rate:
- যদি মডেল ট্রেনিং ধীর হয়ে যায়, তাহলে আপনি learning rate বাড়াতে পারেন।
- যদি মডেল ট্রেনিং সময়মত সঠিক জায়গায় পৌঁছাতে না পারে, তাহলে learning rate কমিয়ে দিতে পারেন।
Batch Size:
- ছোট batch size (যেমন 16 বা 32) ব্যবহার করলে মেমরি কম লাগে এবং মডেল দ্রুত ট্রেনিং হতে পারে, তবে বেশি noisy গ্রেডিয়েন্ট তৈরি হতে পারে।
- বড় batch size (যেমন 64 বা 128) সঠিক গ্রেডিয়েন্টের সাথে ট্রেনিং করতে পারে তবে মেমরি বেশি ব্যবহার করবে।
Epoch:
- অধিক epochs ট্রেনিং সময় বাড়াবে, তবে মডেল আরও ভালভাবে ট্রেন হবে।
- কম epochs দ্রুত ট্রেনিং করতে পারে কিন্তু মডেলটি পরিপূর্ণভাবে শিখতে নাও পারে।

5. Hyperparameter Tuning:

Learning rate, batch size, এবং epoch এর মান নির্ধারণে সাধারণত hyperparameter tuning করা হয়। বিভিন্ন মানের জন্য একাধিক ট্রায়াল চালিয়ে কোন মানগুলি সেরা পারফরম্যান্স দেয় তা নির্ধারণ করা হয়।

সারাংশ:

Learning Rate: এটি মডেল আপডেটের গতি নির্ধারণ করে এবং এটি অপটিমাইজারের মধ্যে কনফিগার করতে হয়।
Batch Size: এটি প্রতি iteration এ কত ডেটা প্রসেস করা হবে তা নির্ধারণ করে এবং এটি মেমরি ব্যবহারে প্রভাব ফেলে।
Epoch: এটি পুরো ডেটাসেট কতবার মডেলটি পাস করবে তা নির্ধারণ করে এবং এটি মডেল ট্রেনিংয়ের পরিমাণের সাথে সম্পর্কিত।

Caffe2 এ এই প্যারামিটারগুলো সঠিকভাবে কনফিগার করা ট্রেনিং পারফরম্যান্স এবং সঠিকতা অর্জন করতে সহায়ক।

Content added By

Md Azizur Rahman

Grid Search এবং Random Search ব্যবহার করে Hyperparameter Tuning

131

Grid Search এবং Random Search হল দুটি জনপ্রিয় কৌশল যা মেশিন লার্নিং মডেলের hyperparameter tuning করতে ব্যবহৃত হয়। Hyperparameters এমন প্যারামিটার যা মডেল ট্রেনিংয়ের আগে সেট করতে হয় এবং এগুলি মডেলের কার্যকারিতা উল্লেখযোগ্যভাবে প্রভাবিত করে। উদাহরণস্বরূপ, লার্নিং রেট, ব্যাচ সাইজ, নেস্টেড লেয়ার সংখ্যা, ইত্যাদি।

১. Grid Search

Grid Search একটি ব্রুট ফোর্স কৌশল যা নির্দিষ্ট একটি প্যারামিটার গ্রিডের প্রতিটি সমন্বয়ে মডেল ট্রেনিং করে এবং সর্বোত্তম পারফরম্যান্স প্রদানকারী প্যারামিটার সেটটি নির্বাচন করে। এটি একটি শীতল (exhaustive) পদ্ধতি, যেখানে সবকটি প্যারামিটার সমন্বয়ের জন্য ট্রেনিং করা হয়।

Grid Search এর পদ্ধতি:

প্রথমে মডেলের জন্য সম্ভাব্য hyperparameter মানের একটি পরিসর (range) নির্ধারণ করুন।
তারপর, grid search প্রতিটি সম্ভাব্য প্যারামিটার সমন্বয় ব্যবহার করে মডেল ট্রেনিং করে এবং একটি স্কোর মেট্রিক্স (যেমন accuracy) ব্যবহার করে সেরা প্যারামিটার সেট নির্বাচন করে।

Grid Search উদাহরণ (Scikit-learn ব্যবহার করে):

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# মডেল তৈরি
model = RandomForestClassifier()

# Hyperparameter গ্রিড সেট করা
param_grid = {
    'n_estimators': [100, 200, 300],  # Number of trees
    'max_depth': [None, 10, 20, 30],   # Max depth of tree
    'min_samples_split': [2, 5, 10]    # Min samples required to split a node
}

# Grid Search এর মাধ্যমে হাইপারপ্যারামিটার টিউনিং
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# সেরা প্যারামিটার সেট পাওয়া
print("Best Hyperparameters:", grid_search.best_params_)

এখানে,

param_grid হল hyperparameters এর একটি গ্রিড, যেখানে প্রতিটি প্যারামিটার জন্য একাধিক মান প্রদান করা হয়।
cv=5 মানে ক্রস-ভ্যালিডেশন ৫ ফোল্ডে হবে।
grid_search.best_params_ সেরা hyperparameters প্রদান করবে।

২. Random Search

Random Search হল একটি কৌশল যেখানে প্যারামিটার স্পেস থেকে এলোমেলোভাবে মান নির্বাচন করা হয় এবং একটি নির্দিষ্ট সংখ্যক iteration (trial) পর পরীক্ষিত হয়। এটি Grid Search এর তুলনায় অনেক বেশি কার্যকরী হতে পারে যখন প্যারামিটার স্পেস বিশাল হয় এবং exhaustive অনুসন্ধান করা সম্ভব নয়।

Random Search এর পদ্ধতি:

Grid Search এর মতোই, প্রথমে hyperparameters এর একটি পরিসর নির্ধারণ করুন।
তারপর এলোমেলোভাবে কিছু প্যারামিটার সেট নির্বাচন করুন এবং মডেল ট্রেনিং করুন।
সাধারণত, Random Search অনেক কম সময় নেয় কারণ এটি শুধুমাত্র এলোমেলোভাবে কিছু কম্বিনেশন পরীক্ষা করে।

Random Search উদাহরণ (Scikit-learn ব্যবহার করে):

from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from scipy.stats import randint

# মডেল তৈরি
model = RandomForestClassifier()

# Hyperparameter ডিস্ট্রিবিউশন সেট করা
param_dist = {
    'n_estimators': randint(100, 1000),  # Random values between 100 and 1000
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': randint(2, 10)  # Random values between 2 and 10
}

# Random Search এর মাধ্যমে হাইপারপ্যারামিটার টিউনিং
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, n_iter=100, cv=5)
random_search.fit(X_train, y_train)

# সেরা প্যারামিটার সেট পাওয়া
print("Best Hyperparameters:", random_search.best_params_)

এখানে,

param_dist হল hyperparameters এর এলোমেলো ডিস্ট্রিবিউশন।
n_iter=100 মানে ১০০টি এলোমেলো প্যারামিটার সেটের জন্য পরীক্ষা করা হবে।
random_search.best_params_ সেরা প্যারামিটার সেট প্রদান করবে।

Grid Search vs Random Search:

বৈশিষ্ট্য	Grid Search	Random Search
পদ্ধতি	Exhaustive (সব সম্ভাব্য কম্বিনেশন পরীক্ষা করে)	এলোমেলোভাবে কিছু কম্বিনেশন পরীক্ষা করা
পারফরম্যান্স	সাধারণত সঠিক তবে সময়সাপেক্ষ	দ্রুত, তবে সঠিকতা কিছুটা কম হতে পারে
প্রয়োজনীয় সময়	অনেক সময় নেয় (বিশাল প্যারামিটার স্পেসের জন্য বেশি সময় নেয়)	অনেক দ্রুত, কিন্তু উপযুক্ত প্যারামিটার পাওয়ার সম্ভাবনা কম হতে পারে
প্যারামিটার স্পেস	ছোট এবং সীমিত প্যারামিটার স্পেসে কার্যকর	বড় প্যারামিটার স্পেসের জন্য উপযুক্ত
ব্যবহারযোগ্যতা	যখন প্যারামিটার স্পেস ছোট এবং আপনি সঠিক প্যারামিটার চান	বড় প্যারামিটার স্পেসের জন্য যেখানে exhaustive পরীক্ষা করা সম্ভব নয়

কখন Grid Search ব্যবহার করবেন?

যখন প্যারামিটার স্পেস ছোট এবং আপনি সেরা সেটটি নির্বাচন করতে চান।
যখন আপনি নিশ্চিত হতে চান যে সেরা প্যারামিটার সেট নির্বাচিত হচ্ছে।

কখন Random Search ব্যবহার করবেন?

যখন প্যারামিটার স্পেস বড় বা অনেক ভেরিয়েবল থাকে এবং exhaustive পরীক্ষা করা সম্ভব নয়।
যখন সময় সীমিত থাকে এবং আপনি দ্রুত ভাল ফলাফল চান।

সারাংশ:

Grid Search একটি exhaustive কৌশল যা সকল সম্ভব প্যারামিটার কম্বিনেশন পরীক্ষা করে সেরা সমাধান খুঁজে বের করে।
Random Search এলোমেলোভাবে কিছু প্যারামিটার কম্বিনেশন পরীক্ষা করে এবং দ্রুত কার্যকরী ফলাফল প্রদান করতে সক্ষম।

Content added By

Md Azizur Rahman

Hyperparameter Optimization Techniques

200

Hyperparameters হলো এমন প্যারামিটার যা মডেল প্রশিক্ষণের আগে সেট করা হয় এবং প্রশিক্ষণের সময় পরিবর্তন করা যায় না। এটি মডেলের কার্যকারিতা এবং সক্ষমতা নির্ধারণে গুরুত্বপূর্ণ ভূমিকা পালন করে। Hyperparameter optimization (অথবা hyperparameter tuning) হল সেই প্রক্রিয়া যার মাধ্যমে সেরা ফলাফল পাওয়ার জন্য মডেলের hyperparameters নির্বাচন করা হয়।

Common Hyperparameters:

Learning Rate: এটি মডেলের ওজন আপডেট করার জন্য গতি নির্ধারণ করে।
Batch Size: এটি প্রতিটি গ্র্যাডিয়েন্ট আপডেটের জন্য ব্যবহৃত ডেটার সংখ্যা নির্ধারণ করে।
Number of Layers: মডেলটির মধ্যে লুকানো স্তরের সংখ্যা।
Number of Units in Each Layer: প্রতিটি স্তরে নিউরনের সংখ্যা।
Epochs: প্রশিক্ষণের জন্য মোট পাসের সংখ্যা।
Activation Functions: নিউরাল নেটওয়ার্কের জন্য ব্যবহৃত অ্যাকটিভেশন ফাংশন (যেমন ReLU, Sigmoid, Tanh)।
Optimizer: মডেলের প্যারামিটার আপডেটের জন্য ব্যবহৃত অপটিমাইজার (যেমন SGD, Adam, RMSprop)।
Dropout Rate: নিউরাল নেটওয়ার্কে ওভারফিটিং প্রতিরোধে ব্যবহার করা হয়।

Hyperparameter Optimization Techniques:

Grid Search: Grid Search হল একটি পদ্ধতি যেখানে বিভিন্ন hyperparameter এর সম্ভাব্য মানের একটি নির্দিষ্ট গ্রিড তৈরি করা হয় এবং এই গ্রিডের প্রতিটি মানে মডেল প্রশিক্ষণ দেওয়া হয়। এটি সবচেয়ে মৌলিক এবং সহজ পদ্ধতি।
- কিভাবে কাজ করে: Grid Search সব সম্ভাব্য hyperparameter মানের জন্য একটি সারণি তৈরি করে, যেখানে প্রতিটি কোষ একটি নির্দিষ্ট hyperparameter সেটিংয়ের জন্য ফলাফল দেখায়।
- ফায়দা: সহজ, সরল এবং গাণিতিকভাবে সহজ।
- অসুবিধা: খুবই সময়সাপেক্ষ এবং কম্পিউটেশনালভাবে ব্যয়বহুল হতে পারে, কারণ প্রতিটি কম্বিনেশন চেষ্টা করতে হয়।
উদাহরণ:
```
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Define parameter grid
param_grid = {'C': [0.1, 1, 10],
              'kernel': ['linear', 'rbf']}

# Create model
model = SVC()

# Perform grid search
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Best parameters
print("Best parameters:", grid_search.best_params_)
```
Random Search: Random Search Grid Search এর একটি বিকল্প, যেখানে hyperparameters এর মান এলোমেলোভাবে নির্বাচন করা হয়। এটি Grid Search থেকে দ্রুত হতে পারে কারণ এটি সম্পূর্ণ গ্রিডের পরিবর্তে এলোমেলো নমুনা নির্বাচন করে।
- কিভাবে কাজ করে: Random Search grid এর পরিসরের মধ্যে এলোমেলো পদ্ধতিতে hyperparameter মান বেছে নেয় এবং কম্পিউটেশনের সময় কমায়।
- ফায়দা: কম্পিউটেশনের খরচ কমায় এবং Grid Search এর তুলনায় অধিক দক্ষ হতে পারে।
- অসুবিধা: সম্ভাব্য কিছু ভালো মান মিস হয়ে যেতে পারে।
উদাহরণ:
```
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from scipy.stats import randint

# Define parameter distributions
param_dist = {'n_estimators': randint(1, 200),
              'max_features': ['auto', 'sqrt', 'log2']}

# Create model
model = RandomForestClassifier()

# Perform random search
random_search = RandomizedSearchCV(model, param_dist, n_iter=100, cv=5)
random_search.fit(X_train, y_train)

# Best parameters
print("Best parameters:", random_search.best_params_)
```
Bayesian Optimization: Bayesian Optimization একটি প্রোবাবিলিস্টিক মডেলিং পদ্ধতি যা hyperparameter স্পেস অনুসন্ধান করতে Bayesian নেটওয়ার্ক ব্যবহার করে। এটি সম্ভাব্য প্যারামিটার সেটিংস অনুমান করে এবং পরবর্তী সেরা প্যারামিটার নির্বাচন করতে সাহায্য করে।
- কিভাবে কাজ করে: Bayesian Optimization একটি মডেল তৈরি করে যা hyperparameters-এর একটি সম্ভাব্য মানের ভিত্তিতে একটি ভবিষ্যদ্বাণী তৈরি করে, এবং এটি পুনরায় নতুন প্যারামিটার সেটগুলি নির্বাচন করতে ব্যবহার হয়।
- ফায়দা: আরও সুনির্দিষ্ট এবং দক্ষ।
- অসুবিধা: প্রোগ্রামিংয়ের জন্য জটিল এবং কিছুটা বেশি সময় নেয়ার মতো হতে পারে।
উদাহরণ:
```
from skopt import BayesSearchCV
from sklearn.svm import SVC

# Define parameter space
param_space = {'C': (1e-6, 1e+6, 'log-uniform'), 
               'kernel': ['linear', 'rbf']}

# Create model
model = SVC()

# Perform Bayesian optimization
bayes_search = BayesSearchCV(model, param_space, n_iter=50, cv=5)
bayes_search.fit(X_train, y_train)

# Best parameters
print("Best parameters:", bayes_search.best_params_)
```
Genetic Algorithm: Genetic Algorithm (GA) হল একটি প্রাকৃতিক নির্বাচন প্রক্রিয়ার অনুকরণে ভিত্তিক অপ্টিমাইজেশন পদ্ধতি, যা একটি সম্প্রদায় থেকে সেরা সলিউশন খোঁজে।
- কিভাবে কাজ করে: GA বিভিন্ন হাইপারপ্যারামিটার কম্বিনেশন (population) তৈরি করে, এবং তাদের মধ্যে সেরা কম্বিনেশনটি বেছে নেয়। এরপর এটি নতুন একটি ‘generation’ তৈরি করতে ক্রসওভার (crossover) এবং মিউটেশন (mutation) অপারেশন ব্যবহার করে।
- ফায়দা: এটি বৃহত এবং জটিল স্পেসের মধ্যে কার্যকরী হতে পারে।
- অসুবিধা: গাণিতিকভাবে জটিল এবং অনেক সময় নেয়।
Hyperband: Hyperband হল একটি বহুমুখী অপ্টিমাইজেশন অ্যালগরিদম যা bandit-based পদ্ধতি ব্যবহার করে এবং দ্রুত অপ্টিমাইজেশনের জন্য অল্প সময়ের মধ্যে বড় আকারের কনফিগারেশন স্পেস এক্সপ্লোর করতে সক্ষম। এটি Successive Halving অ্যালগরিদমের উপর ভিত্তি করে কাজ করে।
- ফায়দা: High-dimensional hyperparameter স্পেসের জন্য খুবই দ্রুত।
- অসুবিধা: কিছুটা প্রযুক্তিগত এবং প্রাথমিকভাবে বেশি পদ্ধতির প্রয়োজন হয়।

6. Manual Search:

এটি সবচেয়ে সাধারণ পদ্ধতি, যেখানে আপনি কিছু অভিজ্ঞতা বা পূর্বের ফলাফল অনুযায়ী কিছু hyperparameters নির্বাচন করেন এবং ম্যানুয়ালি পরীক্ষা করেন। যদিও এটি সহজ, তবে এর কার্যকারিতা সীমিত এবং সময়সাপেক্ষ হতে পারে।

Conclusion:

Hyperparameter optimization হল মডেল টিউনিং এর একটি গুরুত্বপূর্ণ অংশ, এবং এটি মডেলের পারফরম্যান্স বৃদ্ধি করতে সহায়ক। বিভিন্ন অপ্টিমাইজেশন পদ্ধতি যেমন Grid Search, Random Search, Bayesian Optimization, Genetic Algorithm, এবং Hyperband বিভিন্ন ধরনের ডেটা এবং প্রোজেক্টের জন্য উপযোগী হতে পারে। আপনাকে আপনার সমস্যার জন্য উপযুক্ত পদ্ধতি নির্বাচন করতে হবে এবং যথাযথভাবে মডেলটির কার্যকারিতা মূল্যায়ন করতে হবে।

Content added By

Md Azizur Rahman

Caffe2 পরিচিতি Caffe2 ইনস্টলেশন এবং সেটআপ Caffe2 এর আর্কিটেকচার Caffe2 তে ডেটা লোড এবং প্রিপ্রসেসিং Caffe2 তে মডেল তৈরি করা

Hyperparameter Tuning এবং Optimization

1. Hyperparameter Tuning

1.1. Grid Search

1.2. Random Search

1.3. Bayesian Optimization

1.4. Manual Search

2. Hyperparameter Optimization Techniques

2.1. L2 Regularization (Weight Decay)

2.2. Learning Rate Scheduling

2.3. Gradient Clipping

2.4. Adaptive Optimizers

3. Best Practices for Hyperparameter Tuning and Optimization:

সারাংশ:

Hyperparameter Tuning কী এবং কেন গুরুত্বপূর্ণ?

Hyperparameter কী?

হাইপারপ্যারামিটারগুলির উদাহরণ:

Hyperparameter Tuning কেন গুরুত্বপূর্ণ?

Hyperparameter Tuning এর কৌশল:

Hyperparameter Tuning এর কিছু উদাহরণ:

সারাংশ:

Learning Rate, Batch Size, এবং Epoch কনফিগার করা

১. Learning Rate কনফিগার করা

Learning Rate কনফিগার করার কোড উদাহরণ:

২. Batch Size কনফিগার করা

Batch Size কনফিগার করার কোড উদাহরণ:

৩. Epoch কনফিগার করা

Epoch কনফিগার করার কোড উদাহরণ:

৪. Learning Rate, Batch Size, এবং Epoch কনফিগার করার টিপস:

5. Hyperparameter Tuning:

সারাংশ:

Grid Search এবং Random Search ব্যবহার করে Hyperparameter Tuning

১. Grid Search

Grid Search এর পদ্ধতি:

Grid Search উদাহরণ (Scikit-learn ব্যবহার করে):

২. Random Search

Random Search এর পদ্ধতি:

Random Search উদাহরণ (Scikit-learn ব্যবহার করে):

Grid Search vs Random Search:

কখন Grid Search ব্যবহার করবেন?

কখন Random Search ব্যবহার করবেন?

সারাংশ:

Hyperparameter Optimization Techniques

Common Hyperparameters:

Hyperparameter Optimization Techniques:

6. Manual Search:

Conclusion:

All Notifications

Promotion