Data Parallelism এবং Model Parallelism

Distributed Training এবং Multi-GPU Support - মাইক্রোসফট কগনিটিভ টুলকিট (Microsoft Cognitive Toolkit) - Machine Learning

315

Data Parallelism এবং Model Parallelism হল দুটি গুরুত্বপূর্ণ কৌশল যা distributed training এ ব্যবহৃত হয়, বিশেষত বড় ডিপ লার্নিং মডেল এবং ডেটাসেট নিয়ে কাজ করার সময়। এই দুটি পদ্ধতির মাধ্যমে মডেল প্রশিক্ষণ দ্রুততর এবং দক্ষ করা যায়, কারণ এগুলি ডেটা এবং মডেলকে একাধিক প্রসেসরে ভাগ করে কাজ করতে সাহায্য করে।

Data Parallelism (ডেটা প্যারালালিজম)

Data Parallelism হল একটি কৌশল যেখানে একটি ডিপ লার্নিং মডেল একাধিক প্রসেসরে (বা GPU) প্রশিক্ষিত হয়, তবে মডেলটি একাই থাকে। এখানে ডেটাসেটটি ভাগ করা হয় এবং প্রতিটি প্রসেসর বা GPU আলাদাভাবে একই মডেলটি প্রশিক্ষণ দেয়। এর পরে, প্রতিটি GPU বা প্রসেসরের মধ্যে প্রশিক্ষিত গ্রেডিয়েন্টগুলি একত্রিত করা হয়, যাতে মডেলটির একক কপি সর্বদা আপডেট হয়।

কিভাবে Data Parallelism কাজ করে?

ডেটাসেটটি সমানভাবে একাধিক GPU বা প্রসেসরে ভাগ করা হয়।
প্রতিটি GPU তার ভাগ করা ডেটার ওপর মডেল প্রশিক্ষণ দেয়।
প্রতিটি GPU তার নিজস্ব গ্রেডিয়েন্ট (প্যারামিটার আপডেট) তৈরি করে।
গ্রেডিয়েন্টগুলি একত্রিত করা হয় (এটি All-Reduce বা Parameter Server মেথড দ্বারা করা হয়) এবং তারপর প্যারামিটারগুলো আপডেট করা হয়।

Data Parallelism এর সুবিধা:

বৃহৎ ডেটাসেট: বড় ডেটাসেটের জন্য এটি কার্যকর, কারণ ডেটা বিভিন্ন প্রসেসরে ভাগ করা হয় এবং তাদের মাধ্যমে সমান্তরালভাবে প্রশিক্ষণ চালানো যায়।
কম্পিউটেশনাল গতি: একাধিক প্রসেসর ব্যবহার করার ফলে প্রশিক্ষণের গতি বৃদ্ধি পায়।
সহজ কার্যকরী: এটি তুলনামূলকভাবে সহজ এবং মডেল সিঙ্ক্রোনাইজেশনের মাধ্যমে এটি পরিচালনা করা সম্ভব।

Data Parallelism উদাহরণ:

# Keras উদাহরণ
from tensorflow.keras import datasets, layers, models
from tensorflow.keras.optimizers import Adam
import tensorflow as tf

# ডেটাসেট লোড করা
(x_train, y_train), (x_test, y_test) = datasets.cifar10.load_data()

# মডেল তৈরি করা
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10)
])

# মডেল কম্পাইল করা
model.compile(optimizer=Adam(), loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=['accuracy'])

# Data Parallelism ব্যবহার করে প্রশিক্ষণ
strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
    model.fit(x_train, y_train, epochs=10, batch_size=64)

Model Parallelism (মডেল প্যারালালিজম)

Model Parallelism হল একটি কৌশল যেখানে মডেলটি একাধিক প্রসেসরে বা GPU তে ভাগ করা হয়। এখানে, মডেলটির বিভিন্ন অংশ বা লেয়ারগুলি বিভিন্ন প্রসেসরে বা GPU তে প্রশিক্ষিত হয়। এটি তখন ব্যবহৃত হয় যখন মডেলটি অত্যন্ত বড় হয় এবং একক প্রসেসরের মেমরি তে ফিট করার মতো থাকে না।

কিভাবে Model Parallelism কাজ করে?

মডেলটি ভাগ করা হয়, যেমন প্রতিটি লেয়ার বা সেগমেন্ট একটি আলাদা প্রসেসরে রাখা হয়।
ইনপুট ডেটা প্রথম GPU তে প্রেরণ করা হয়, যেখানে প্রথম লেয়ারটি কম্পিউট করা হয়।
প্রথম GPU থেকে আউটপুট সেকেন্ড GPU তে প্রেরণ করা হয় এবং দ্বিতীয় লেয়ারের উপর গণনা করা হয়।
এইভাবে, মডেলের প্রতিটি অংশ একাধিক GPU বা প্রসেসর দ্বারা সমান্তরালভাবে প্রক্রিয়া করা হয় এবং তাদের মধ্যে ডেটা প্রেরণ করা হয়।

Model Parallelism এর সুবিধা:

বৃহৎ মডেল: মডেল খুব বড় হলে এটি ব্যবহার করা হয়, যখন একক GPU বা প্রসেসরের মেমরি সক্ষমতা সীমিত।
বিভিন্ন মডেল আর্কিটেকচার: যদি মডেলের আর্কিটেকচার এমন হয় যেখানে বিভিন্ন লেয়ার বা অংশগুলি খুব বড়, তাহলে Model Parallelism কার্যকর হতে পারে।

Model Parallelism উদাহরণ:

import torch
import torch.nn as nn
import torch.optim as optim

# উদাহরণ মডেল তৈরি করা
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.layer1 = nn.Linear(10, 10)
        self.layer2 = nn.Linear(10, 10)
        self.layer3 = nn.Linear(10, 10)

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        return x

# মডেলটিকে দুইটি GPU তে বিভক্ত করা
device1 = torch.device('cuda:0')
device2 = torch.device('cuda:1')

model = SimpleModel()

# লেয়ারগুলি GPU তে ভাগ করা
model.layer1.to(device1)
model.layer2.to(device2)
model.layer3.to(device2)

# ইনপুট ডেটা
x = torch.randn(1, 10).to(device1)

# প্রশিক্ষণ
output = model(x)