Multi-GPU এবং Multi-node Training কনফিগার করা

Distributed Training এবং Parallelism - ক্যাফে২ (Caffe2) - Machine Learning

277

Multi-GPU এবং Multi-node Training কনফিগার করা মেশিন লার্নিং বা ডিপ লার্নিং মডেলগুলির প্রশিক্ষণকে দ্রুত এবং স্কেলেবল করার জন্য ব্যবহৃত গুরুত্বপূর্ণ কৌশল। এই কৌশলগুলি ব্যবহার করে আপনি আপনার মডেল ট্রেনিং-এর পারফরম্যান্স উন্নত করতে পারেন এবং বৃহৎ ডেটাসেটের উপর প্রশিক্ষণ চালানোর সময় ক্যালকুলেশন সময় কমাতে পারেন।

1. Multi-GPU Training

Multi-GPU Training এর মাধ্যমে একটি সিঙ্গেল সিস্টেমে একাধিক GPU ব্যবহার করে ট্রেনিং প্রক্রিয়া সম্পন্ন করা হয়। এতে মডেলের বিভিন্ন অংশ একাধিক GPU তে ভাগ করা হয়, যা প্রশিক্ষণ সময় অনেক কমিয়ে দেয়।

1.1. TensorFlow এ Multi-GPU Training

TensorFlow তে Multi-GPU প্রশিক্ষণ সহজেই করা যায়। tf.distribute.Strategy API ব্যবহৃত হয়, বিশেষত MirroredStrategy।

MirroredStrategy:

এটি একটি অন্যতম জনপ্রিয় কৌশল, যা সমস্ত GPU এর মধ্যে গ্র্যাডিয়েন্ট এবং ওয়েট আপডেটগুলি সিঙ্ক্রোনাইজ করে।
এটি GPU এর মধ্যে ডেটা ভাগ করে এবং প্রতিটি GPU তে সমান কাজ দিয়ে পারফরম্যান্স বৃদ্ধি করে।

উদাহরণ:

import tensorflow as tf

# MirroredStrategy ব্যবহার করা
strategy = tf.distribute.MirroredStrategy()

# মডেল সংজ্ঞায়িত করা
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# মডেল প্রশিক্ষণ
model.fit(x_train, y_train, epochs=5)

এখানে, MirroredStrategy ব্যবহার করে আমরা একাধিক GPU তে প্রশিক্ষণ চালিয়েছি। strategy.scope() এর মধ্যে মডেল তৈরি এবং প্রশিক্ষণ করা হয়।

1.2. PyTorch এ Multi-GPU Training

PyTorch এ Multi-GPU প্রশিক্ষণ করতে torch.nn.DataParallel বা torch.nn.parallel.DistributedDataParallel ব্যবহার করা হয়।

DataParallel:

এটি একাধিক GPU তে ডেটা ভাগ করে এবং গ্র্যাডিয়েন্ট আপডেটগুলি সিঙ্ক্রোনাইজ করে।

উদাহরণ:

import torch
import torch.nn as nn
import torch.optim as optim

# মডেল সংজ্ঞায়িত করা
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# মডেল তৈরি এবং DataParallel এর মাধ্যমে Multi-GPU কনফিগার করা
model = SimpleModel()
if torch.cuda.device_count() > 1:
    model = nn.DataParallel(model)  # DataParallel দিয়ে একাধিক GPU তে কাজ করবে

model = model.cuda()  # মডেলকে GPU তে স্থানান্তরিত করা
optimizer = optim.Adam(model.parameters(), lr=0.001)
loss_fn = nn.CrossEntropyLoss()

# প্রশিক্ষণ লুপ
for epoch in range(5):
    # প্রশিক্ষণ কোড এখানে হবে
    optimizer.zero_grad()
    output = model(x_train)  # মডেল প্রশিক্ষণ
    loss = loss_fn(output, y_train)
    loss.backward()
    optimizer.step()

এখানে DataParallel ব্যবহার করা হয়েছে, যা স্বয়ংক্রিয়ভাবে একাধিক GPU তে প্রশিক্ষণ প্রক্রিয়া ভাগ করে নেয়।

2. Multi-node Training

Multi-node Training তে একাধিক সার্ভার বা মেশিনে প্রশিক্ষণ চালানো হয়। এটি সেই ক্ষেত্রে উপকারী যখন আপনার মডেল বা ডেটাসেট এত বড় হয়ে যায় যে একক মেশিনে ট্রেনিং করা সম্ভব হয় না। এই কৌশলটি গ্রিড বা ক্লাস্টার পরিবেশে একাধিক নোডের মধ্যে কাজ ভাগ করে দেয়।

2.1. TensorFlow এ Multi-node Training

TensorFlow তে Multi-node প্রশিক্ষণের জন্য tf.distribute.experimental.MultiWorkerMirroredStrategy ব্যবহার করা হয়। এটি একটি স্ট্র্যাটেজি যা একাধিক নোডের মধ্যে ডেটা ভাগ করে এবং সমস্ত নোডে সিঙ্ক্রোনাইজড গ্র্যাডিয়েন্ট আপডেট করে।

উদাহরণ:

import tensorflow as tf

# MultiWorkerMirroredStrategy ব্যবহার করা
strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()

# মডেল সংজ্ঞায়িত করা
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# প্রশিক্ষণ
model.fit(x_train, y_train, epochs=5)

কনফিগারেশন:

TensorFlow এর TF_CONFIG পরিবেশ ভেরিয়েবল ব্যবহার করে ক্লাস্টারে প্রশিক্ষণ চালানো হয়।
প্রতিটি নোডের জন্য আলাদা IP অ্যাড্রেস এবং পোর্ট কনফিগারেশন দরকার।

2.2. PyTorch এ Multi-node Training

PyTorch তে Multi-node প্রশিক্ষণের জন্য DistributedDataParallel (DDP) ব্যবহৃত হয়। DDP পুরো প্রশিক্ষণ প্রক্রিয়াকে একাধিক মেশিনের মধ্যে সমানভাবে ভাগ করে এবং সিঙ্ক্রোনাইজ করে।

উদাহরণ:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

def setup(rank, world_size):
    dist.init_process_group("nccl", rank=rank, world_size=world_size)
    torch.cuda.set_device(rank)

def cleanup():
    dist.destroy_process_group()

# মডেল সংজ্ঞায়িত করা
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

def main(rank, world_size):
    setup(rank, world_size)
    model = SimpleModel().to(rank)
    model = DDP(model, device_ids=[rank])

    optimizer = optim.Adam(model.parameters(), lr=0.001)
    loss_fn = nn.CrossEntropyLoss()

    for epoch in range(5):
        optimizer.zero_grad()
        output = model(x_train)  # মডেল প্রশিক্ষণ
        loss = loss_fn(output, y_train)
        loss.backward()
        optimizer.step()

    cleanup()

# Multi-node কনফিগারেশন: প্রশিক্ষণ চলাকালীন একাধিক মেশিনের মধ্যে কোড চালানো

কনফিগারেশন:

world_size: ক্লাস্টারে মোট নোড সংখ্যা।
rank: প্রতিটি নোডের অবস্থান।
device_ids: ব্যবহার করা GPU এর সংখ্যা।

3. সারাংশ:

Multi-GPU Training একাধিক GPU তে প্রশিক্ষণ চালানোর জন্য ব্যবহৃত হয় এবং এর মাধ্যমে প্রশিক্ষণ সময় অনেক কমানো সম্ভব।
Multi-node Training একাধিক সার্ভার বা মেশিনের মধ্যে প্রশিক্ষণ চলানোর জন্য ব্যবহৃত হয়, বিশেষ করে বড় মডেল বা ডেটাসেটের জন্য।
TensorFlow এবং PyTorch উভয়েই Multi-GPU এবং Multi-node প্রশিক্ষণ সমর্থন করে এবং এটি tf.distribute.Strategy বা torch.nn.parallel.DistributedDataParallel এর মাধ্যমে পরিচালনা করা যায়।
Multi-GPU তে একাধিক GPU তে একই কাজ ভাগ করে, এবং Multi-node তে একাধিক সার্ভারের মধ্যে কাজ ভাগ করে প্রশিক্ষণকে দ্রুত এবং স্কেলেবেল করা হয়।

Content added By

Azizar Rahman Aziz

Distributed Training এর ধারণা Data Parallelism এবং Model Parallelism Large-scale Model Training এর জন্য Distributed Training Techniques

Multi-GPU এবং Multi-node Training কনফিগার করা

1. Multi-GPU Training

1.1. TensorFlow এ Multi-GPU Training

1.2. PyTorch এ Multi-GPU Training

2. Multi-node Training

2.1. TensorFlow এ Multi-node Training

2.2. PyTorch এ Multi-node Training

3. সারাংশ:

Promotion

Satt AI

Hi, আমি SATT AI!

Multi-GPU এবং Multi-node Training কনফিগার করা

1. Multi-GPU Training

1.1. TensorFlow এ Multi-GPU Training

1.2. PyTorch এ Multi-GPU Training

2. Multi-node Training

2.1. TensorFlow এ Multi-node Training

2.2. PyTorch এ Multi-node Training

3. সারাংশ:

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!