Weight Initialization Techniques

Machine Learning - পাইটর্চ (Pytorch) - PyTorch এর জন্য Model Optimization

220

Weight Initialization হল নিউরাল নেটওয়ার্কে প্রথমবারের মতো প্যারামিটার (ওজন) সেট করার প্রক্রিয়া। সঠিকভাবে ওজন ইনিশিয়ালাইজ করা না হলে, মডেল ট্রেনিংয়ে সমস্যা তৈরি হতে পারে, যেমন গ্র্যাডিয়েন্ট ভ্যানিশিং বা গ্র্যাডিয়েন্ট এক্সপ্লোডিং, যা মডেলের শিখন প্রক্রিয়াকে বাধাগ্রস্ত করে। তাই সঠিক ওজন ইনিশিয়ালাইজেশন মডেল ট্রেনিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ।

নিচে সাধারণভাবে ব্যবহৃত কিছু Weight Initialization Techniques এর আলোচনা করা হলো।

১. Zero Initialization

এই পদ্ধতিতে সমস্ত ওজনের মান শূন্য দিয়ে শুরু হয়। তবে, এই পদ্ধতি নিউরাল নেটওয়ার্কের জন্য সমস্যাজনক হতে পারে, কারণ:

Symmetry Breaking: যদি সমস্ত নোডের ওজন শূন্য থাকে, তাহলে প্রতিটি নোড একে অপরের মতো আচরণ করবে এবং শিখন প্রক্রিয়া শুরু হবে না। অর্থাৎ, মডেল সঠিকভাবে শিখতে পারবে না।

এই কারণে Zero Initialization সাধারণত ব্যবহার করা হয় না।

২. Random Initialization

এটি সবচেয়ে সাধারণ ইনিশিয়ালাইজেশন পদ্ধতি, যেখানে ওজনের মান র‍্যান্ডমভাবে ছোট সীমার মধ্যে সেট করা হয়।

সাধারণত, uniform distribution বা normal distribution ব্যবহার করে র‍্যান্ডম ভ্যালু ইনিশিয়ালাইজ করা হয়।

যদিও এটি কিছু ক্ষেত্রে কার্যকরী হতে পারে, তবে vanishing gradients এবং exploding gradients সমস্যাও দেখা দিতে পারে।

৩. Xavier/Glorot Initialization

Xavier বা Glorot Initialization পদ্ধতি sigmoid বা tanh অ্যাক্টিভেশন ফাংশনের সাথে ভালোভাবে কাজ করে। এটি ইনপুট এবং আউটপুট ইউনিটের সংখ্যা অনুযায়ী ওজন ইনিশিয়ালাইজ করে।

Xavier Initialization Formula:

$w = \mathcal{U}\left(-\sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}, \sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}\right)$

এখানে:

n_in: ইনপুট নিউরনের সংখ্যা
n_out: আউটপুট নিউরনের সংখ্যা
$\mathcal{U}(a, b)$ হল ইউনিফর্ম ডিস্ট্রিবিউশন, যেখানে আউটপুট রেঞ্জ $[a, b]$ এর মধ্যে থাকে।

এটি ওজনের মান ইনপুট এবং আউটপুট লেয়ারের নিউরনের সংখ্যা অনুযায়ী সীমাবদ্ধ করে, যা vanishing gradients এবং exploding gradients সমস্যা কমাতে সাহায্য করে।

৪. He Initialization

He Initialization হল ReLU (Rectified Linear Unit) অ্যাক্টিভেশন ফাংশনের জন্য একটি জনপ্রিয় পদ্ধতি। ReLU এর ক্ষেত্রে, ইনপুটের মান নেগেটিভ হলে শূন্য হয়ে যায়, তাই He Initialization ব্যবহার করা হয় যাতে গ্র্যাডিয়েন্ট সঠিকভাবে প্রবাহিত হয়।

He Initialization Formula:

$w = \mathcal{N}(0, \sqrt{\frac{2}{n_{\text{in}}}})$

এখানে:

n_in: ইনপুট নিউরনের সংখ্যা,
$\mathcal{N}(0, \sqrt{\frac{2}{n_{\text{in}}}})$ হল গৌসিয়ান বা Normal Distribution, যার গড় ০ এবং স্ট্যান্ডার্ড ডিভিয়েশন $\sqrt{\frac{2}{n_{\text{in}}}}$ ।

He Initialization এর উদ্দেশ্য হল ইনপুট ইউনিটগুলোর জন্য আরো বড় রেঞ্জ প্রদান করা, যা ReLU অ্যাক্টিভেশন ফাংশনের জন্য উপযুক্ত।

৫. LeCun Initialization

LeCun Initialization পদ্ধতি Leaky ReLU এবং sigmoid অ্যাক্টিভেশন ফাংশনের জন্য ব্যবহার করা হয়। এটি He Initialization এর মতো, তবে এটি কিছুটা ভিন্ন সূত্র অনুসরণ করে।

LeCun Initialization Formula:

$w = \mathcal{N}(0, \sqrt{\frac{1}{n_{\text{in}}}})$

এখানে:

n_in: ইনপুট নিউরনের সংখ্যা,
$\mathcal{N}(0, \sqrt{\frac{1}{n_{\text{in}}}})$ হল গৌসিয়ান ডিস্ট্রিবিউশন যার গড় ০ এবং স্ট্যান্ডার্ড ডিভিয়েশন $\sqrt{\frac{1}{n_{\text{in}}}}$ ।

LeCun Initialization সাধারণত Leaky ReLU বা tanh ফাংশনের সাথে ভালোভাবে কাজ করে এবং এটি vanishing gradients সমস্যা কমাতে সহায়ক।

৬. Orthogonal Initialization

Orthogonal Initialization পদ্ধতি ওজনের ম্যাট্রিক্সের প্রতিটি কলাম বা সারিকে একে অপরের প্রতি আর্কিটেকচারের জন্য অরথোগোনাল (অর্থাৎ, পরস্পরের প্রতি আনুভূমিকভাবে স্বতন্ত্র) হিসেবে ইনিশিয়ালাইজ করা হয়। এটি বিশেষভাবে গভীর নিউরাল নেটওয়ার্কে উপকারী।

Orthogonal Initialization Formula:

এখানে, ইনপুট নিউরনের জন্য একটি অরথোগোনাল ম্যাট্রিক্স তৈরি করা হয়, যার মধ্যে QR decomposition পদ্ধতি ব্যবহার করা হয়।

এটি RNNs (Recurrent Neural Networks) এর মতো সিকোয়েন্স-ভিত্তিক মডেলগুলির জন্য বিশেষভাবে উপকারী, যেখানে এটি gradient vanishing/exploding সমস্যা কমায়।

৭. Uniform Initialization

এটি ওজন ইনিশিয়ালাইজেশনের একটি সাধারণ পদ্ধতি, যেখানে সমস্ত ওজন এক ধরনের ইউনিফর্ম ডিস্ট্রিবিউশন (uniform distribution) থেকে নেওয়া হয়। এই পদ্ধতিতে একটি নির্দিষ্ট রেঞ্জের মধ্যে ওজনের মান নির্ধারণ করা হয়।

Uniform Initialization Formula:

$w = \mathcal{U}(a, b)$

এখানে $\mathcal{U}(a, b)$ হল ইউনিফর্ম ডিস্ট্রিবিউশন, যেখানে $a$ এবং $b$ হল রেঞ্জ।

৮. Random Normal Initialization

এই পদ্ধতিতে ওজন গুলো গৌসিয়ান ডিস্ট্রিবিউশন (Normal Distribution) থেকে র্যান্ডমভাবে নেওয়া হয়, যা নির্দিষ্ট গড় এবং স্ট্যান্ডার্ড ডেভিয়েশন অনুযায়ী ইনিশিয়ালাইজ হয়। এটি সাধারণত অন্যান্য পদ্ধতিগুলোর সাথে তুলনামূলকভাবে কম ব্যবহৃত হয়।

সারাংশ

Weight Initialization মডেলের কার্যক্ষমতা এবং ট্রেনিং সময়ের জন্য অত্যন্ত গুরুত্বপূর্ণ। সঠিকভাবে ইনিশিয়ালাইজ করা না হলে, vanishing gradients বা exploding gradients এর মতো সমস্যা হতে পারে। Xavier, He, এবং LeCun Initialization পদ্ধতিগুলি সাধারণত ডিপ লার্নিং মডেলগুলির জন্য সবচেয়ে উপকারী, কারণ তারা বিশেষভাবে বিভিন্ন অ্যাক্টিভেশন ফাংশনের জন্য উপযোগী এবং মডেল ট্রেনিং দ্রুত ও কার্যকর করতে সহায়ক।

Content added By

SATT Academy

Hyperparameter Tuning এবং Optimization Learning Rate Schedule এবং তার ভূমিকা Model Overfitting এবং Underfitting এর সমস্যা সমাধান

Weight Initialization Techniques

১. Zero Initialization

২. Random Initialization

৩. Xavier/Glorot Initialization

Xavier Initialization Formula:

৪. He Initialization

He Initialization Formula:

৫. LeCun Initialization

LeCun Initialization Formula:

৬. Orthogonal Initialization

Orthogonal Initialization Formula:

৭. Uniform Initialization

Uniform Initialization Formula:

৮. Random Normal Initialization

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Weight Initialization Techniques

১. Zero Initialization

২. Random Initialization

৩. Xavier/Glorot Initialization

Xavier Initialization Formula:

৪. He Initialization

He Initialization Formula:

৫. LeCun Initialization

LeCun Initialization Formula:

৬. Orthogonal Initialization

Orthogonal Initialization Formula:

৭. Uniform Initialization

Uniform Initialization Formula:

৮. Random Normal Initialization

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!