Distributed Training এবং Parallelism

Machine Learning - ক্যাফে২ (Caffe2)
231

Caffe2 তে Distributed Training এবং Parallelism ব্যবহার করা মডেল ট্রেনিং প্রক্রিয়ার গতি এবং দক্ষতা অনেক উন্নত করতে পারে। যখন আপনার ডেটাসেট বড় এবং মডেল জটিল হয়, তখন Distributed Training এবং Parallelism প্রযুক্তি ব্যবহার করে আপনি দ্রুত মডেল ট্রেনিং সম্পন্ন করতে পারবেন।

1. Distributed Training:

Distributed Training তে, একাধিক সার্ভার বা মেশিন ব্যবহার করা হয় যাতে ডেটা ও মডেল ট্রেনিং ভাগ করে কাজ করা যায়। এটি ট্রেনিং প্রক্রিয়া দ্রুততর করে এবং বড় মডেল ট্রেনিংয়ের ক্ষেত্রে স্মার্ট সলিউশন প্রদান করে।

1.1. Caffe2 তে Distributed Training এর জন্য প্রয়োজনীয় উপাদান:

  • Parameter Server Architecture: এটি একটি প্রাথমিক আর্কিটেকচার যেখানে ট্রেনিং প্রক্রিয়ার প্যারামিটারগুলি ভাগ করা হয় এবং প্রতিটি মেশিন তার অংশ ট্রেনিং করে। একাধিক নোডের মধ্যে প্যারামিটার আপডেট এবং সমন্বয় করতে প্যারামিটার সার্ভার ব্যবহার করা হয়।
  • Data Parallelism: ডেটাসেটটি একাধিক মেশিনে ভাগ করে, এবং প্রতিটি মেশিন ট্রেনিংয়ের জন্য তার নিজস্ব ব্যাচ ডেটা ব্যবহার করে। এরপর, নেটওয়ার্কে একত্রিত হওয়া প্যারামিটারগুলির সমন্বয় করা হয়।

1.2. Caffe2 তে Distributed Training এর জন্য স্টেপ:

Caffe2 তে Distributed Training শুরু করতে প্রথমে আপনাকে distributed launcher ব্যবহার করতে হবে। এটি Python বা C++ API এর মাধ্যমে কাজ করে।

Step-by-Step Example:
  1. কনফিগারেশন ফাইল তৈরি করা: প্রথমে, একটি কনফিগারেশন ফাইল তৈরি করতে হবে যেখানে প্যারামিটার সার্ভার এবং কাজের জন্য প্রয়োজনীয় সেটিংস নির্ধারণ করা হবে।
python -m caffe2.python.tools.launcher --num_workers=2 --num_parameter_servers=1 --cuda_devices=0,1 --machine_ranks=0

এখানে:

  • num_workers: কাজের সংখ্যা নির্ধারণ করে।
  • num_parameter_servers: প্যারামিটার সার্ভারের সংখ্যা।
  • cuda_devices: যে GPU ডিভাইস ব্যবহার করা হবে তা নির্ধারণ করে।
  • machine_ranks: সার্ভারের অবস্থান (যেমন, কোন মেশিনে কোন কাজ হবে)।
  1. Distributed Training জন্য গ্রাফ তৈরি এবং রান করা: একবার কনফিগারেশন সম্পন্ন হলে, আপনি আপনার Caffe2 গ্রাফ বা মডেলটি সেট আপ করতে পারবেন। এরপর সেই গ্রাফটি distributed launcher ব্যবহার করে চালানো যাবে।
from caffe2.python import model_helper, workspace
from caffe2.python import core

# মডেল তৈরি
model = model_helper.ModelHelper(name="distributed_model")

# গ্রাফের অন্যান্য অংশ যেমন লেয়ার, অপারেশন যোগ করা
# ...

# মডেল ট্রেনিং শুরু
workspace.RunOperatorOnce(core.CreateOperator("DistributedTrainingOp", ["input"], ["output"]))
  1. Parameter Server ব্যবহার করে প্যারামিটার আপডেট: ট্রেনিং শেষ হলে, প্যারামিটার আপডেট এবং সিঙ্ক্রোনাইজ করা হবে যা প্যারামিটার সার্ভারের মাধ্যমে করা হয়। এটি নিশ্চিত করে যে সব সার্ভার বা নোড একই আপডেট পায়।

2. Parallelism in Caffe2:

Parallelism এর মাধ্যমে একই সময়ে একাধিক কাজ বা অপারেশন একাধিক ডিভাইস (CPU বা GPU) ব্যবহার করে সম্পন্ন করা হয়। Caffe2 তে, Parallelism সাধারণত data parallelism এবং model parallelism ব্যবহার করে হয়।

2.1. Data Parallelism:

Data Parallelism হল একটি পদ্ধতি যেখানে ডেটার বিভিন্ন ভাগ একাধিক মেশিন বা GPU তে প্রসেস করা হয়। এতে করে পুরো ডেটাসেটটি একযোগে প্রক্রিয়া করা যায়, যার ফলে ট্রেনিং দ্রুত হয়।

Data Parallelism উদাহরণ:
  1. ডেটাকে ব্যাচে ভাগ করা হয়।
  2. প্রতিটি GPU বা CPU নিজস্ব ডেটা ব্যাচ প্রসেস করে।
  3. শেষে সব প্যারামিটার সিঙ্ক্রোনাইজ করা হয়, যাতে সার্বিক মডেল একত্রিত হয়।

2.2. Model Parallelism:

Model Parallelism তখন ব্যবহার করা হয় যখন মডেল খুব বড় হয়ে যায় এবং একক মেশিনে অথবা একক GPU তে ট্রেনিং করা সম্ভব নয়। Model Parallelism তে মডেলের বিভিন্ন অংশ বা লেয়ারগুলো একাধিক ডিভাইসে ভাগ করে ট্রেনিং করা হয়।

Model Parallelism উদাহরণ:
  1. মডেলের কিছু অংশ (যেমন লেয়ার) এক GPU তে এবং কিছু অংশ অন্য GPU তে প্রসেস করা হয়।
  2. এইভাবে, মডেলের একাধিক অংশে একযোগভাবে কাজ করা যায়।

2.3. Parallel Training with Multiple GPUs:

Caffe2 তে আপনি একাধিক GPU ব্যবহার করে ট্রেনিং পারফরম্যান্স বাড়াতে পারেন। একাধিক GPU তে ট্রেনিং করার জন্য data parallelism ব্যবহার করা হয়। এর মাধ্যমে একই সময়ে একাধিক GPU তে ট্রেনিং করা হয় এবং সব GPU তে একযোগে ডেটা প্রসেস করা হয়।

from caffe2.python import workspace
from caffe2.python import model_helper

# মডেল তৈরি এবং GPU এর জন্য সেটিংস
model = model_helper.ModelHelper(name="multi_gpu_model")
workspace.RunOperatorOnce(model.net)

3. Caffe2 তে Parallelism এবং Distributed Training এর সুবিধা:

  • স্কেলেবিলিটি: Caffe2 তে আপনি সহজেই একাধিক GPU বা মেশিন ব্যবহার করতে পারেন, যার ফলে ট্রেনিং দ্রুত হয়ে যায় এবং বড় মডেল সহজে ট্রেন করা যায়।
  • পারফরম্যান্স উন্নয়ন: Parallelism এবং Distributed Training ব্যবহার করলে ট্রেনিংয়ের গতি অনেক বৃদ্ধি পায়, বিশেষত যখন ডেটাসেট খুব বড় হয়।
  • রিসোর্স অপ্টিমাইজেশন: বিভিন্ন মেশিন বা GPU ব্যবহার করে আপনি আপনার সার্ভারের রিসোর্স আরও ভালোভাবে ব্যবহার করতে পারেন।

4. সারাংশ:

Caffe2 তে Distributed Training এবং Parallelism ব্যবহারের মাধ্যমে আপনি মডেল ট্রেনিং আরও দ্রুত এবং দক্ষভাবে করতে পারেন। যখন আপনার ডেটাসেট বড় এবং মডেল জটিল, তখন এই প্রযুক্তিগুলি গুরুত্বপূর্ণ ভূমিকা পালন করে। Distributed Training বিভিন্ন মেশিনে কাজ ভাগ করে দেয় এবং Parallelism বিভিন্ন ডিভাইসে ডেটা এবং মডেল ভাগ করে দ্রুত ট্রেনিং করে। Caffe2 তে এই প্রযুক্তি দুটি ব্যবহার করার মাধ্যমে আপনি বড় স্কেলের মডেল ট্রেনিং করতে সক্ষম হবেন।

Content added By

Distributed Training এর ধারণা

230

Distributed Training বা বিতরিত প্রশিক্ষণ একটি মেশিন লার্নিং (ML) এবং ডিপ লার্নিং (DL) কৌশল যা একাধিক কম্পিউটার বা ডিভাইসের মাধ্যমে মডেল ট্রেনিংয়ের প্রক্রিয়াকে দ্রুত এবং কার্যকরী করে তোলে। এটি একাধিক হার্ডওয়্যার রিসোর্স (যেমন CPU, GPU বা TPU) ব্যবহার করে প্রশিক্ষণ কাজের ভাগ করে নেয়, ফলে প্রশিক্ষণ প্রক্রিয়া অনেক দ্রুত হয় এবং বড় মডেল বা ডেটাসেট নিয়ে কাজ করা সম্ভব হয়।

Distributed Training এর মূল ধারণা:

  1. ডেটা পার্টিশনিং (Data Parallelism):
    • ডেটা পার্টিশনিং বা ডেটা প্যারালেলিজম এমন একটি কৌশল, যেখানে পুরো ডেটাসেটটি একাধিক মেশিন বা ডিভাইসে ভাগ করে দেয়া হয় এবং প্রতিটি মেশিন একটি আলাদা অংশের উপরে প্রশিক্ষণ চালায়।
    • প্রতিটি ডিভাইস তার নিজস্ব ডেটা অংশের উপর গণনা করে এবং শেষে তাদের আপডেট করা প্যারামিটারগুলি একত্রিত (aggregate) করে।
  2. মডেল পার্টিশনিং (Model Parallelism):
    • মডেল পার্টিশনিং বা মডেল প্যারালেলিজম এমন একটি কৌশল, যেখানে একটি বড় মডেলটি একাধিক মেশিন বা ডিভাইসে ভাগ করা হয়।
    • এটি তখন কার্যকরী হয় যখন মডেলটির আকার খুব বড় হয় এবং একক ডিভাইসে পুরো মডেলটি ফিট না হয়। এখানে, মডেলটির ভিন্ন অংশগুলি বিভিন্ন ডিভাইসে থাকে এবং তাদের মধ্যে যোগাযোগের মাধ্যমে গণনা সমাপ্ত হয়।
  3. সিঙ্ক্রোনাস ট্রেনিং (Synchronous Training):
    • সিঙ্ক্রোনাস ট্রেনিং এ, প্রতিটি মেশিন বা ডিভাইস একই সময়ে গণনা করে এবং ফলাফল একত্রিত করার জন্য একটি সেন্ট্রাল সার্ভারে পাঠায়।
    • পরবর্তীতে, একত্রিত প্যারামিটারগুলি পুরো সিস্টেমে আপডেট করা হয় এবং তারপর প্রতিটি মেশিন নতুন প্যারামিটার ব্যবহার করে পরবর্তী ব্যাচ ট্রেনিং শুরু করে।
    • এটি একটি সিঙ্ক্রোনাস আপডেট প্রক্রিয়া, যেখানে প্রত্যেকটি মেশিন/ডিভাইস অপেক্ষা করে সবার আপডেট শেষ হওয়ার পর।
  4. অসিঙ্ক্রোনাস ট্রেনিং (Asynchronous Training):
    • অসিঙ্ক্রোনাস ট্রেনিং এ, প্রতিটি মেশিন বা ডিভাইস নিজে নিজেই কাজ চালিয়ে যায় এবং তার ফলাফল দ্রুত পাঠিয়ে দেয়।
    • এখানে, প্রত্যেকটি মেশিন আপডেট প্যারামিটারগুলোকে একত্রিত না করেই তাদের নিজস্ব কাজ চালিয়ে যায়, ফলে একটি মেশিন অন্য মেশিনের অপেক্ষা করে না।
    • এটি কখনও কখনও দ্রুত হতে পারে, কিন্তু এটি কিছু সমস্যা তৈরি করতে পারে, যেমন কিছু মেশিনের ট্রেনিংয়ের সময় অন্য মেশিনের কাজ শেষ হতে পারে না, যার ফলে কিছু বিভ্রান্তি বা অসামঞ্জস্য হতে পারে।

Distributed Training এর উপকারিতা:

  1. দ্রুত প্রশিক্ষণ (Faster Training):
    • একাধিক ডিভাইস বা মেশিন ব্যবহার করে প্রশিক্ষণের কাজ দ্রুত সম্পন্ন করা যায়, কারণ কাজগুলিকে ভাগ করা হয়।
    • প্রশিক্ষণ সময় কমিয়ে আনা সম্ভব হয়, বিশেষত যখন বড় ডেটাসেট এবং মডেল ট্রেনিংয়ের প্রয়োজন হয়।
  2. বড় মডেল প্রশিক্ষণ (Training Large Models):
    • Distributed Training বড় মডেল এবং ডেটাসেটের জন্য কার্যকরী, যেমন টেনসরের আকার বড় হলে বা মডেল অনেক লেয়ারে বিভক্ত হলে।
    • একক ডিভাইসের মেমরি সীমাবদ্ধতার কারণে, একটি বড় মডেল একাধিক ডিভাইসে বিভক্ত করা হয়।
  3. বড় ডেটাসেট পরিচালনা (Handling Large Datasets):
    • ডিস্ট্রিবিউটেড প্রশিক্ষণের মাধ্যমে আপনি বিশাল আকারের ডেটাসেট প্রশিক্ষণ করতে পারেন, যা একক ডিভাইসে সম্ভব নয়।
    • ডেটার বিভিন্ন অংশ একাধিক মেশিনে ভাগ করে নেওয়ার ফলে ডেটার সুরক্ষা এবং কর্মক্ষমতা উন্নত হয়।
  4. স্কেলেবল ট্রেনিং (Scalable Training):
    • Distributed Training সহজেই স্কেল করা যায়, অর্থাৎ যত মেশিন বা ডিভাইস প্রয়োজন তত সংখ্যা বাড়ানো যায়, ফলে বড় ডেটাসেট ও মডেলের জন্য ট্রেনিং আরও দ্রুত হয়।

Distributed Training এর চ্যালেঞ্জ:

  1. কমিউনিকেশন ওভারহেড (Communication Overhead):
    • একাধিক মেশিনের মধ্যে প্যারামিটার শেয়ার এবং আপডেটের জন্য উচ্চ কমিউনিকেশন প্রয়োজন, যা কিছু সময় ট্রেনিংয়ের গতিতে বাধা সৃষ্টি করতে পারে।
    • সিঙ্ক্রোনাস ট্রেনিং এ প্রতিটি মেশিনের কাজ শেষ হওয়া পর্যন্ত অপেক্ষা করতে হয়, যার ফলে কমিউনিকেশন লেটেন্সি সমস্যার সৃষ্টি হতে পারে।
  2. ডাটা ইন্সটেবিলিটি (Data Instability):
    • ডিস্ট্রিবিউটেড সিস্টেমে ডেটা ইনস্টেবিলিটি ঘটতে পারে, বিশেষত যখন মেশিনগুলির মধ্যে সমন্বয় না থাকে বা একে অপরের সাথে সঠিকভাবে কমিউনিকেট করতে না পারে।
  3. ডিবাগিং (Debugging):
    • একাধিক মেশিন বা ডিভাইসের মধ্যে সমস্যাগুলি সনাক্ত করা এবং সমাধান করা অনেক কঠিন হতে পারে। এতে ডিবাগিং প্রক্রিয়া জটিল হয়ে পড়ে।

Popular Frameworks for Distributed Training:

  1. TensorFlow:
    • TF Distributed: TensorFlow এর মধ্যে রয়েছে একটি বিশেষ কম্পোনেন্ট যা MirroredStrategy, MultiWorkerMirroredStrategy ইত্যাদি ব্যবহার করে ডিস্ট্রিবিউটেড ট্রেনিং সহজ করে।
  2. PyTorch:
    • PyTorch Distributed: PyTorch এ torch.nn.DataParallel এবং torch.distributed প্যাকেজ ডিস্ট্রিবিউটেড ট্রেনিংয়ের জন্য ব্যবহৃত হয়।
  3. Horovod:
    • এটি একটি ওপেন সোর্স লাইব্রেরি যা TensorFlow, Keras, PyTorch এবং MXNet এর জন্য ডিস্ট্রিবিউটেড ট্রেনিং সহজ করে তোলে।
  4. Microsoft's DeepSpeed:
    • এটি একটি লাইব্রেরি যা ডিপ লার্নিং মডেলগুলির জন্য মাপযোগ্য, দ্রুত এবং কম কমিউনিকেশন সহ ডিস্ট্রিবিউটেড ট্রেনিং সমাধান প্রদান করে।

সারাংশ:

Distributed Training মডেল প্রশিক্ষণকে দ্রুত এবং দক্ষ করতে সহায়তা করে, বিশেষত যখন বড় ডেটাসেট এবং মডেল ব্যবহার করা হয়। ডেটা বা মডেল পার্টিশনিং, সিঙ্ক্রোনাস এবং অসিঙ্ক্রোনাস ট্রেনিং কৌশল ব্যবহার করে প্রশিক্ষণ সময় কমানো এবং কর্মক্ষমতা উন্নত করা সম্ভব। তবে, এটি কিছু চ্যালেঞ্জের সম্মুখীন হতে পারে যেমন কমিউনিকেশন ওভারহেড এবং ডিবাগিং সমস্যা।

Content added By

Multi-GPU এবং Multi-node Training কনফিগার করা

178

Multi-GPU এবং Multi-node Training কনফিগার করা মেশিন লার্নিং বা ডিপ লার্নিং মডেলগুলির প্রশিক্ষণকে দ্রুত এবং স্কেলেবল করার জন্য ব্যবহৃত গুরুত্বপূর্ণ কৌশল। এই কৌশলগুলি ব্যবহার করে আপনি আপনার মডেল ট্রেনিং-এর পারফরম্যান্স উন্নত করতে পারেন এবং বৃহৎ ডেটাসেটের উপর প্রশিক্ষণ চালানোর সময় ক্যালকুলেশন সময় কমাতে পারেন।

1. Multi-GPU Training

Multi-GPU Training এর মাধ্যমে একটি সিঙ্গেল সিস্টেমে একাধিক GPU ব্যবহার করে ট্রেনিং প্রক্রিয়া সম্পন্ন করা হয়। এতে মডেলের বিভিন্ন অংশ একাধিক GPU তে ভাগ করা হয়, যা প্রশিক্ষণ সময় অনেক কমিয়ে দেয়।

1.1. TensorFlow এ Multi-GPU Training

TensorFlow তে Multi-GPU প্রশিক্ষণ সহজেই করা যায়। tf.distribute.Strategy API ব্যবহৃত হয়, বিশেষত MirroredStrategy

MirroredStrategy:

  • এটি একটি অন্যতম জনপ্রিয় কৌশল, যা সমস্ত GPU এর মধ্যে গ্র্যাডিয়েন্ট এবং ওয়েট আপডেটগুলি সিঙ্ক্রোনাইজ করে।
  • এটি GPU এর মধ্যে ডেটা ভাগ করে এবং প্রতিটি GPU তে সমান কাজ দিয়ে পারফরম্যান্স বৃদ্ধি করে।

উদাহরণ:

import tensorflow as tf

# MirroredStrategy ব্যবহার করা
strategy = tf.distribute.MirroredStrategy()

# মডেল সংজ্ঞায়িত করা
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# মডেল প্রশিক্ষণ
model.fit(x_train, y_train, epochs=5)

এখানে, MirroredStrategy ব্যবহার করে আমরা একাধিক GPU তে প্রশিক্ষণ চালিয়েছি। strategy.scope() এর মধ্যে মডেল তৈরি এবং প্রশিক্ষণ করা হয়।

1.2. PyTorch এ Multi-GPU Training

PyTorch এ Multi-GPU প্রশিক্ষণ করতে torch.nn.DataParallel বা torch.nn.parallel.DistributedDataParallel ব্যবহার করা হয়।

DataParallel:

  • এটি একাধিক GPU তে ডেটা ভাগ করে এবং গ্র্যাডিয়েন্ট আপডেটগুলি সিঙ্ক্রোনাইজ করে।

উদাহরণ:

import torch
import torch.nn as nn
import torch.optim as optim

# মডেল সংজ্ঞায়িত করা
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# মডেল তৈরি এবং DataParallel এর মাধ্যমে Multi-GPU কনফিগার করা
model = SimpleModel()
if torch.cuda.device_count() > 1:
    model = nn.DataParallel(model)  # DataParallel দিয়ে একাধিক GPU তে কাজ করবে

model = model.cuda()  # মডেলকে GPU তে স্থানান্তরিত করা
optimizer = optim.Adam(model.parameters(), lr=0.001)
loss_fn = nn.CrossEntropyLoss()

# প্রশিক্ষণ লুপ
for epoch in range(5):
    # প্রশিক্ষণ কোড এখানে হবে
    optimizer.zero_grad()
    output = model(x_train)  # মডেল প্রশিক্ষণ
    loss = loss_fn(output, y_train)
    loss.backward()
    optimizer.step()

এখানে DataParallel ব্যবহার করা হয়েছে, যা স্বয়ংক্রিয়ভাবে একাধিক GPU তে প্রশিক্ষণ প্রক্রিয়া ভাগ করে নেয়।


2. Multi-node Training

Multi-node Training তে একাধিক সার্ভার বা মেশিনে প্রশিক্ষণ চালানো হয়। এটি সেই ক্ষেত্রে উপকারী যখন আপনার মডেল বা ডেটাসেট এত বড় হয়ে যায় যে একক মেশিনে ট্রেনিং করা সম্ভব হয় না। এই কৌশলটি গ্রিড বা ক্লাস্টার পরিবেশে একাধিক নোডের মধ্যে কাজ ভাগ করে দেয়।

2.1. TensorFlow এ Multi-node Training

TensorFlow তে Multi-node প্রশিক্ষণের জন্য tf.distribute.experimental.MultiWorkerMirroredStrategy ব্যবহার করা হয়। এটি একটি স্ট্র্যাটেজি যা একাধিক নোডের মধ্যে ডেটা ভাগ করে এবং সমস্ত নোডে সিঙ্ক্রোনাইজড গ্র্যাডিয়েন্ট আপডেট করে।

উদাহরণ:

import tensorflow as tf

# MultiWorkerMirroredStrategy ব্যবহার করা
strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()

# মডেল সংজ্ঞায়িত করা
with strategy.scope():
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(128, activation='relu', input_shape=(784,)),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# প্রশিক্ষণ
model.fit(x_train, y_train, epochs=5)

কনফিগারেশন:

  • TensorFlow এর TF_CONFIG পরিবেশ ভেরিয়েবল ব্যবহার করে ক্লাস্টারে প্রশিক্ষণ চালানো হয়।
  • প্রতিটি নোডের জন্য আলাদা IP অ্যাড্রেস এবং পোর্ট কনফিগারেশন দরকার।

2.2. PyTorch এ Multi-node Training

PyTorch তে Multi-node প্রশিক্ষণের জন্য DistributedDataParallel (DDP) ব্যবহৃত হয়। DDP পুরো প্রশিক্ষণ প্রক্রিয়াকে একাধিক মেশিনের মধ্যে সমানভাবে ভাগ করে এবং সিঙ্ক্রোনাইজ করে।

উদাহরণ:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

def setup(rank, world_size):
    dist.init_process_group("nccl", rank=rank, world_size=world_size)
    torch.cuda.set_device(rank)

def cleanup():
    dist.destroy_process_group()

# মডেল সংজ্ঞায়িত করা
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

def main(rank, world_size):
    setup(rank, world_size)
    model = SimpleModel().to(rank)
    model = DDP(model, device_ids=[rank])

    optimizer = optim.Adam(model.parameters(), lr=0.001)
    loss_fn = nn.CrossEntropyLoss()

    for epoch in range(5):
        optimizer.zero_grad()
        output = model(x_train)  # মডেল প্রশিক্ষণ
        loss = loss_fn(output, y_train)
        loss.backward()
        optimizer.step()

    cleanup()

# Multi-node কনফিগারেশন: প্রশিক্ষণ চলাকালীন একাধিক মেশিনের মধ্যে কোড চালানো

কনফিগারেশন:

  • world_size: ক্লাস্টারে মোট নোড সংখ্যা।
  • rank: প্রতিটি নোডের অবস্থান।
  • device_ids: ব্যবহার করা GPU এর সংখ্যা।

3. সারাংশ:

  • Multi-GPU Training একাধিক GPU তে প্রশিক্ষণ চালানোর জন্য ব্যবহৃত হয় এবং এর মাধ্যমে প্রশিক্ষণ সময় অনেক কমানো সম্ভব।
  • Multi-node Training একাধিক সার্ভার বা মেশিনের মধ্যে প্রশিক্ষণ চলানোর জন্য ব্যবহৃত হয়, বিশেষ করে বড় মডেল বা ডেটাসেটের জন্য।
  • TensorFlow এবং PyTorch উভয়েই Multi-GPU এবং Multi-node প্রশিক্ষণ সমর্থন করে এবং এটি tf.distribute.Strategy বা torch.nn.parallel.DistributedDataParallel এর মাধ্যমে পরিচালনা করা যায়।
  • Multi-GPU তে একাধিক GPU তে একই কাজ ভাগ করে, এবং Multi-node তে একাধিক সার্ভারের মধ্যে কাজ ভাগ করে প্রশিক্ষণকে দ্রুত এবং স্কেলেবেল করা হয়।
Content added By

Data Parallelism এবং Model Parallelism

287

Data Parallelism এবং Model Parallelism দুটি ভিন্ন প্যারালাল প্রসেসিং কৌশল যা ডিপ লার্নিং এবং মেশিন লার্নিং মডেল ট্রেনিংয়ের সময়ে মডেলের পারফরম্যান্স এবং স্কেলেবিলিটি বৃদ্ধি করতে ব্যবহৃত হয়। এই দুটি কৌশল একে অপরের থেকে আলাদা হলেও, তারা মূলত মডেল ট্রেনিংয়ের সময় গতি বৃদ্ধি এবং বড় ডেটাসেটের ক্ষেত্রে সক্ষমতা উন্নত করতে সাহায্য করে।

1. Data Parallelism

Data Parallelism (ডেটা প্যারালালিজম) একটি প্যারালাল প্রসেসিং কৌশল, যেখানে ডেটাসেটটি ভেঙে বিভিন্ন প্রসেসর বা GPU তে ভাগ করা হয় এবং প্রতিটি অংশে একই মডেল ট্রেনিং করা হয়। প্রতিটি প্রসেসর বা GPU আলাদা ডেটা ব্যাচের উপর কাজ করে এবং ট্রেনিং শেষে গ্রাডিয়েন্টগুলোকে একত্রিত করা হয়।

Data Parallelism কিভাবে কাজ করে:

  1. ডেটা ভাগ করা: একটি বড় ডেটাসেট ছোট ছোট অংশে ভাগ করা হয়, এবং প্রতিটি অংশ আলাদাভাবে ট্রেনিং করা হয়।
  2. একই মডেল ব্যবহার করা: প্রতিটি অংশে একই মডেল রান করা হয়।
  3. গ্রাডিয়েন্ট একত্রিত করা: একে অপরের সাথে গ্রাডিয়েন্টগুলো সিঙ্ক্রোনাইজ করা হয় (সাধারণত All-Reduce অপারেশন ব্যবহার করা হয়) যাতে একটি সেন্ট্রাল মডেল ট্রেনিং হয়।

উদাহরণ:

  • PyTorch এ Data Parallelism ব্যবহারের জন্য torch.nn.DataParallel ব্যবহার করা যেতে পারে:

    import torch
    import torch.nn as nn
    
    model = nn.Sequential(
        nn.Linear(100, 100),
        nn.ReLU(),
        nn.Linear(100, 10)
    )
    
    # Multiple GPUs ব্যবহারের জন্য DataParallel ব্যবহার করা
    model = nn.DataParallel(model, device_ids=[0, 1])  # GPU 0 এবং GPU 1 ব্যবহার হবে
    

Data Parallelism এর সুবিধা:

  • স্কেলেবিলিটি: এটি অনেক বড় ডেটাসেট এবং কম্পিউটেশনাল কাজের জন্য ব্যবহারযোগ্য।
  • সহজ বাস্তবায়ন: মডেলটি প্রতিটি ডিভাইসে একেবারে একইভাবে রানে, তাই কাস্টমাইজেশন কম প্রয়োজন।

অসুবিধা:

  • গ্রাডিয়েন্ট সিঙ্ক্রোনাইজেশন: একাধিক GPU তে একসাথে গ্রাডিয়েন্ট সিঙ্ক্রোনাইজেশন করা প্রয়োজন, যা কিছুটা সময় সাপেক্ষ হতে পারে।
  • প্রসেসর ব্যবস্থাপনা: একাধিক GPU ব্যবস্থাপনা করতে কিছু অতিরিক্ত কোডিং এবং কনফিগারেশন প্রয়োজন।

2. Model Parallelism

Model Parallelism (মডেল প্যারালালিজম) এমন একটি প্যারালাল প্রসেসিং কৌশল, যেখানে মডেলটির আলাদা অংশগুলো বিভিন্ন প্রসেসর বা GPU তে ভাগ করা হয়। এতে মডেলের মধ্যে ভিন্ন ভিন্ন অংশ একাধিক GPU তে রান করা হয়। একে অপরের সাথে যোগাযোগ বজায় রাখার জন্য মডেল বিভিন্ন অংশে ভাগ হয়ে কাজ করে।

Model Parallelism কিভাবে কাজ করে:

  1. মডেল ভাগ করা: মডেলটি ছোট ছোট ভাগে বিভক্ত করা হয়। এক GPU তে মডেলের একটি অংশ চলবে এবং অন্য GPU তে অন্য একটি অংশ চলবে।
  2. কম্পিউটেশনাল লোড ভাগ করা: মডেলের বিভিন্ন লেয়ার বা উপাদান একাধিক GPU তে প্রক্রিয়া করা হয়, যা মডেলটির বড় আর্কিটেকচার হ্যান্ডল করার জন্য উপযুক্ত।
  3. ডেটা পাসিং: এক GPU থেকে আরেক GPU তে আউটপুট পাস করা হয়, যাতে পুরো মডেল ট্রেনিং চলতে থাকে।

উদাহরণ:

  • PyTorch এ Model Parallelism ব্যবহারের জন্য মডেল লেয়ারগুলিকে আলাদাভাবে GPU তে অ্যাসাইন করা হয়:

    import torch
    import torch.nn as nn
    
    class ModelParallelismExample(nn.Module):
        def __init__(self):
            super(ModelParallelismExample, self).__init__()
            self.layer1 = nn.Linear(100, 50).to('cuda:0')  # GPU 0 এ প্রথম লেয়ার
            self.layer2 = nn.Linear(50, 10).to('cuda:1')   # GPU 1 এ দ্বিতীয় লেয়ার
    
        def forward(self, x):
            x = self.layer1(x)
            x = x.to('cuda:1')  # GPU 1 এ পাস করা
            x = self.layer2(x)
            return x
    
    model = ModelParallelismExample()
    

Model Parallelism এর সুবিধা:

  • বড় মডেলগুলোর জন্য উপযুক্ত: যখন মডেলের আকার খুব বড় হয় এবং এক GPU তে পুরো মডেল চালানো সম্ভব না হয়, তখন এটি সহায়ক হয়।
  • GPU মেমরি অপ্টিমাইজেশন: এক GPU তে পুরো মডেল রাখতে না পারলে এটি GPU মেমরি ব্যবহারের ক্ষেত্রে সহায়ক।

অসুবিধা:

  • কম্পিউটেশনাল কমপ্লেক্সিটি: GPU গুলির মধ্যে বারবার ডেটা পাসিং করার কারণে কম্পিউটেশনাল ব্যস্ততা বাড়তে পারে।
  • সিঙ্ক্রোনাইজেশন: এক GPU থেকে অন্য GPU তে মডেল অংশের মধ্যে ডেটা সঠিকভাবে পাস করা একটি চ্যালেঞ্জ হতে পারে।

Data Parallelism vs Model Parallelism

বৈশিষ্ট্যData ParallelismModel Parallelism
কাজের ধরনডেটা বিভিন্ন GPU তে ভাগ করে একই মডেল রান করা হয়।মডেলটি বিভিন্ন GPU তে ভাগ করে চলানো হয়।
বিভাগডেটা ভাগ করা হয় এবং একাধিক GPU তে একই মডেল ট্রেনিং হয়।মডেলের অংশগুলো GPU তে ভাগ হয়ে পৃথকভাবে কাজ করে।
উপযুক্ত পরিস্থিতিছোট থেকে মাঝারি আকারের মডেল, বড় ডেটাসেটের জন্য।বড় মডেল আর্কিটেকচার, যেখানে মডেল এক GPU তে ফিট না হয়।
পারফরম্যান্সGPU সিঙ্ক্রোনাইজেশন সময় সাপেক্ষ হতে পারে।ডেটা পাসিং এবং সিঙ্ক্রোনাইজেশন চ্যালেঞ্জ হতে পারে।
মেমরি ব্যবস্থাপনাএক GPU তে এক মডেল, ডেটা ভাগ করা।একাধিক GPU তে মডেল ভাগ করা হয়, মেমরি ব্যবস্থাপনা উন্নত।

সারাংশ:

  • Data Parallelism ব্যবহার করে আমরা এক মডেলকে একাধিক GPU তে একই সময়ে ট্রেন করতে পারি, যেখানে ডেটা ভাগ করা হয়।
  • Model Parallelism ব্যবহার করে মডেলের বড় আর্কিটেকচারকে একাধিক GPU তে ভাগ করা হয় এবং প্রতিটি GPU মডেলের আলাদা অংশ ট্রেনিং করে।

যেকোনো প্যারালাল প্রসেসিং কৌশলই ব্যবহৃত হতে পারে, তবে আপনার ডেটাসেট এবং মডেল আর্কিটেকচারের ধরন অনুযায়ী সিদ্ধান্ত নেওয়া উচিত।

Content added By

Large-scale Model Training এর জন্য Distributed Training Techniques

189

ডিপ লার্নিং মডেলগুলি যখন বড় ডেটাসেট এবং জটিল আর্কিটেকচার সহ ট্রেনিং করা হয়, তখন একক মেশিন বা সিঙ্গল GPU ব্যবহার করে মডেল ট্রেনিং করা কঠিন হয়ে পড়ে। এই সমস্যা সমাধান করতে, distributed training techniques ব্যবহৃত হয়। Distributed training মডেল ট্রেনিংয়ের জন্য একাধিক প্রসেসর বা মেশিন ব্যবহার করে, যার ফলে মডেলটি দ্রুত এবং আরও বড় ডেটাসেটের সাথে কাজ করতে সক্ষম হয়।

নিচে distributed training techniques এর বিভিন্ন প্রকার এবং তাদের উপকারিতা আলোচনা করা হলো:

১. Data Parallelism

Data Parallelism হল সবচেয়ে সাধারণ এবং জনপ্রিয় ডিস্ট্রিবিউটেড ট্রেনিং টেকনিক। এখানে ডেটাসেটটি একাধিক ভাগে ভাগ করা হয় এবং প্রতিটি ভাগ আলাদা মেশিন বা GPU তে ট্রেনিং করা হয়।

কিভাবে কাজ করে?

  • ডেটা পারালালিজমে, পুরো ডেটাসেটটি একাধিক ব্যাচে ভাগ করা হয়।
  • প্রতিটি ব্যাচ আলাদা কম্পিউটার বা GPU তে প্রক্রিয়া করা হয়।
  • মডেল প্যারামিটারগুলি প্রতিটি GPU তে একই থাকে, তবে ডেটা আলাদা আলাদা থাকে।
  • ট্রেনিং শেষে, সমস্ত GPU থেকে গ্র্যাডিয়েন্টগুলো একত্রিত করা হয় এবং একে অপরের সাথে সিঙ্ক্রোনাইজ করা হয়।

পাঠ্য উদাহরণ:

PyTorch বা TensorFlow তে Data Parallelism বাস্তবায়িত করা সহজ। উদাহরণস্বরূপ, PyTorch-এ DataParallel ব্যবহার করা যায়।

import torch
import torch.nn as nn

# Model definition
model = nn.Sequential(
    nn.Linear(128, 256),
    nn.ReLU(),
    nn.Linear(256, 10)
)

# Data parallelism
model = nn.DataParallel(model)  # Distribute across available GPUs

# Move model to GPUs
model = model.cuda()

উপকারিতা:

  • সহজে বাস্তবায়নযোগ্য।
  • একাধিক GPU তে কাজ করা সহজ হয়।

সীমাবদ্ধতা:

  • সমন্বয় (synchronization) এবং গ্র্যাডিয়েন্ট আপডেটিং সময় নিতে পারে।
  • ব্যাচ সাইজ বড় হলে মেমোরি সমস্যা হতে পারে।

২. Model Parallelism

Model Parallelism হল একটি পদ্ধতি যেখানে মডেলটি বিভিন্ন অংশে ভাগ করা হয় এবং প্রতিটি অংশ একাধিক মেশিন বা GPU তে প্রক্রিয়া করা হয়।

কিভাবে কাজ করে?

  • মডেলের বিভিন্ন লেয়ার বা অংশকে বিভিন্ন GPU বা মেশিনে বিভক্ত করা হয়।
  • প্রতিটি GPU কেবল তার নির্দিষ্ট অংশের ট্রেনিং করে এবং ডেটা ট্রান্সফার করার জন্য যোগাযোগ করতে হয়।
  • উদাহরণস্বরূপ, একটি বড় নিউরাল নেটওয়ার্কের প্রথম কিছু লেয়ার একটি GPU তে এবং পরবর্তী কিছু লেয়ার অন্য GPU তে থাকতে পারে।

পাঠ্য উদাহরণ:

import torch
import torch.nn as nn

# Define a large model split across GPUs
class ModelParallel(nn.Module):
    def __init__(self):
        super(ModelParallel, self).__init__()
        self.layer1 = nn.Linear(128, 256).cuda(0)  # Layer on GPU 0
        self.layer2 = nn.Linear(256, 10).cuda(1)  # Layer on GPU 1

    def forward(self, x):
        x = self.layer1(x)
        x = x.cuda(1)
        x = self.layer2(x)
        return x

model = ModelParallel()

উপকারিতা:

  • মডেলটির বড় অংশ একটি মেশিনে বা GPU তে হোস্ট করা সম্ভব হয়।
  • বড় মডেলগুলি ট্রেনিং করা সম্ভব হয়।

সীমাবদ্ধতা:

  • GPU বা মেশিনের মধ্যে ডেটা ট্রান্সফারের জন্য সময় লাগতে পারে।
  • মডেল স্প্লিটিং এবং সিঙ্ক্রোনাইজেশনের জন্য কিছু জটিলতা থাকতে পারে।

৩. Synchronous vs Asynchronous Training

Synchronous Training:

  • Synchronous training-এ, সমস্ত GPU বা নোড একই সময়ে গ্র্যাডিয়েন্ট আপডেট করে। একবার সব GPU গ্র্যাডিয়েন্ট গণনা শেষ করলে, তাদের একত্রিত করে মডেল আপডেট করা হয়।
  • Synchronous SGD (Stochastic Gradient Descent) এর মাধ্যমে এটি সাধিত হয়।
# In synchronous training, all workers synchronize before updating parameters

Asynchronous Training:

  • Asynchronous training-এ, প্রতিটি GPU বা মেশিন আলাদা আলাদা ভাবে গ্র্যাডিয়েন্ট আপডেট করে। সবার গ্র্যাডিয়েন্ট একত্রিত না হলেও কাজ চলতে থাকে।
  • Asynchronous SGD এর মাধ্যমে এটি সাধিত হয়, এবং এটি ট্রেনিং স্পিডে দ্রুত উন্নতি করতে সাহায্য করে।
# In asynchronous training, workers don't wait for others before updating parameters

উপকারিতা:

  • Synchronous: অধিক নির্ভুল এবং মডেলের কনভার্জেন্স ভালো হতে পারে।
  • Asynchronous: দ্রুত এবং মডেলের জন্য সময় বাঁচানো যায়।

সীমাবদ্ধতা:

  • Synchronous: সবকিছু সিঙ্ক্রোনাইজ করা দরকার, যা মাঝে মাঝে সময় নিতে পারে।
  • Asynchronous: কম সঠিক হতে পারে এবং গ্র্যাডিয়েন্ট ড্রিফট হতে পারে।

৪. Horovod:

Horovod একটি ফ্রেমওয়ার্ক যা ব্যবহার করে সিঙ্ক্রোনাস ট্রেনিং প্রক্রিয়াগুলি একাধিক GPU বা মেশিনে সোজা এবং দক্ষভাবে পরিচালনা করা যায়। এটি MPI (Message Passing Interface) ভিত্তিক এবং TensorFlow, PyTorch, Keras ইত্যাদির জন্য সমর্থন প্রদান করে।

Horovod Setup Example:

pip install horovod
import horovod.torch as hvd
import torch
import torch.optim as optim

# Initialize Horovod
hvd.init()

# Create model
model = MyModel()

# Use Horovod optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01 * hvd.size())

# Wrap the optimizer with Horovod
optimizer = hvd.DistributedOptimizer(optimizer, named_parameters=model.named_parameters())

# Synchronize training
hvd.broadcast_parameters(model.state_dict(), root_rank=0)

উপকারিতা:

  • গতি বৃদ্ধি, বিশেষত যখন একাধিক GPU বা নোড ব্যবহার করা হয়।
  • Horovod GPU বা মেশিনের মধ্যে গ্র্যাডিয়েন্ট সমন্বয় করতে সাহায্য করে।

৫. Model Parallelism + Data Parallelism:

মডেল পারালালিজম এবং ডেটা পারালালিজমের সংমিশ্রণ ব্যবহার করে, আপনি একটি বড় মডেলকে বিভিন্ন অংশে ভাগ করে একাধিক GPU বা মেশিনে ডেটা ভাগ করে ট্রেনিং করতে পারেন। এই পদ্ধতিটি বেশি শক্তিশালী এবং একটি বৃহৎ স্কেল মডেল ট্রেনিংয়ের জন্য উপযুক্ত।

উপকারিতা:

  • মডেল ও ডেটা দুটোই পারালালাইজ করা সম্ভব, যার ফলে দ্রুত ট্রেনিং হয়।
  • Data Parallelism এবং Model Parallelism একসাথে ব্যবহার করলে বৃহৎ মডেল গুলি দ্রুত ট্রেন করা সম্ভব।

সারাংশ:

Distributed training techniques মডেল ট্রেনিংয়ের জন্য ব্যাপক পরিমাণ ডেটা এবং বড় মডেল সমর্থন করার জন্য খুবই প্রয়োজনীয়।

  • Data Parallelism এবং Model Parallelism সাধারণত সবচেয়ে ব্যবহৃত পদ্ধতি।
  • Horovod এবং MPI এর মাধ্যমে সিঙ্ক্রোনাস এবং অ্যাসিঙ্ক্রোনাস ট্রেনিং সহজে বাস্তবায়িত করা সম্ভব।
  • সঠিক পদ্ধতি নির্বাচন আপনার মডেলের আকার এবং ট্রেনিং সময়ের উপর নির্ভর করবে।
Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...