Long Short-Term Memory (LSTM) এবং Gated Recurrent Units (GRU)

Recurrent Neural Networks (RNN) - চেইনার (Chainer) - Latest Technologies

484

Long Short-Term Memory (LSTM) এবং Gated Recurrent Unit (GRU) হলো উন্নত ধরনের Recurrent Neural Network (RNN) যা বিশেষ করে দীর্ঘ সময়ের নির্ভরশীলতা বজায় রাখতে সক্ষম। সাধারণ RNN গুলোতে long-term dependency সমস্যা দেখা যায়, অর্থাৎ দীর্ঘ sequence data প্রসেস করতে সমস্যায় পড়ে এবং gradient vanish বা explode হয়ে যায়। LSTM এবং GRU সেই সমস্যাগুলো সমাধান করার জন্য তৈরি করা হয়েছে।

Long Short-Term Memory (LSTM)

LSTM হলো RNN এর একটি বিশেষ সংস্করণ, যা দীর্ঘ সময়ের জন্য তথ্য সংরক্ষণ করতে সক্ষম। LSTM এ মূলত কিছু গেট (gates) ব্যবহৃত হয়, যা তথ্য সংরক্ষণ, আপডেট এবং ফিল্টার করতে সাহায্য করে।

LSTM এর মূল অংশ

LSTM সেল চারটি প্রধান অংশ নিয়ে গঠিত:

Forget Gate:

  • Forget gate পূর্বের hidden state এর কিছু অংশ মুছে ফেলার জন্য কাজ করে।
  • এটি নির্ধারণ করে যে পূর্বের তথ্য থেকে কোন অংশ পরবর্তী সময়ে প্রয়োজনীয় নয় এবং সেটি মুছে ফেলে।
  • ফরমুলা: ft=σ(Wf⋅[ht−1,xt]+bf)f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)ft​=σ(Wf​⋅[ht−1​,xt​]+bf​)

Input Gate:

  • Input gate নতুন তথ্য সংরক্ষণের জন্য কাজ করে।
  • বর্তমান ইনপুটের তথ্য থেকে কোন অংশ গুরুত্বপূর্ণ সেটি নির্ধারণ করে এবং cell state এ সংরক্ষণ করে।
  • ফরমুলা: it=σ(Wi⋅[ht−1,xt]+bi)i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)it​=σ(Wi​⋅[ht−1​,xt​]+bi​)

Cell State Update:

  • Cell state মূলত LSTM এর মেমোরি হিসেবে কাজ করে।
  • Forget gate এবং input gate এর তথ্য অনুযায়ী cell state আপডেট হয়।
  • ফরমুলা: Ct=ft∗Ct−1+it∗C~tC_t = f_t * C_{t-1} + i_t * \tilde{C}_tCt​=ft​∗Ct−1​+it​∗C~t​

Output Gate:

  • Output gate নির্ধারণ করে বর্তমান hidden state এর আউটপুট কী হবে।
  • এটি পূর্ববর্তী hidden state এবং বর্তমান cell state এর উপর ভিত্তি করে আউটপুট প্রদান করে।
  • ফরমুলা: ht=ot∗tanh⁡(Ct)h_t = o_t * \tanh(C_t)ht​=ot​∗tanh(Ct​)

LSTM এর গেটিং মেকানিজম তথ্য সংরক্ষণ এবং প্রয়োজনে তথ্য মুছে ফেলার মাধ্যমে sequence এ দীর্ঘ সময়ের নির্ভরশীলতা বজায় রাখে।

LSTM এর কোড উদাহরণ

import torch
import torch.nn as nn

class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(LSTMModel, self).__init__()
        self.hidden_size = hidden_size
        self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        h0 = torch.zeros(1, x.size(0), self.hidden_size)  # Initial hidden state
        c0 = torch.zeros(1, x.size(0), self.hidden_size)  # Initial cell state
        out, _ = self.lstm(x, (h0, c0))                   # Forward propagate LSTM
        out = self.fc(out[:, -1, :])                      # Last time-step output
        return out

Gated Recurrent Unit (GRU)

GRU হলো LSTM এর একটি সরল সংস্করণ। এটি LSTM এর মত কার্যকর হলেও কিছু পার্থক্য রয়েছে, যা GRU কে computationally efficient করে তোলে। GRU তেও গেটিং মেকানিজম ব্যবহার করা হয়, তবে এখানে cell state এর পরিবর্তে শুধু hidden state থাকে। LSTM এ যে চারটি গেট থাকে, GRU তে তার পরিবর্তে মাত্র দুটি গেট থাকে।

GRU এর মূল অংশ

Update Gate:

  • Update gate LSTM এর input gate এবং forget gate এর সমন্বয়, যা সিদ্ধান্ত নেয় কোন তথ্য সংরক্ষণ বা মুছে ফেলা হবে।
  • ফরমুলা: zt=σ(Wz⋅[ht−1,xt]+bz)z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)zt​=σ(Wz​⋅[ht−1​,xt​]+bz​)

Reset Gate:

  • Reset gate LSTM এর forget gate এর মতো কাজ করে। এটি পূর্বের তথ্য ignore করার জন্য ব্যবহৃত হয়।
  • ফরমুলা: rt=σ(Wr⋅[ht−1,xt]+br)r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)rt​=σ(Wr​⋅[ht−1​,xt​]+br​)

New Memory Content:

  • Reset gate এর সাহায্যে বর্তমান তথ্য অনুযায়ী hidden state আপডেট হয়।
  • ফরমুলা: h~t=tanh⁡(W⋅[rt∗ht−1,xt]+b)\tilde{h}_t = \tanh(W \cdot [r_t * h_{t-1}, x_t] + b)h~t​=tanh(W⋅[rt​∗ht−1​,xt​]+b)

Final Hidden State:

  • Update gate ব্যবহার করে নতুন hidden state এবং পূর্বের hidden state এর সমন্বয় করা হয়।
  • ফরমুলা: ht=(1−zt)∗ht−1+zt∗h~th_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_tht​=(1−zt​)∗ht−1​+zt​∗h~t​

GRU এর এই সরল ডিজাইন এর training সহজ করে এবং এটি computationally LSTM এর তুলনায় দ্রুত।

GRU এর কোড উদাহরণ

import torch
import torch.nn as nn

class GRUModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(GRUModel, self).__init__()
        self.hidden_size = hidden_size
        self.gru = nn.GRU(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        h0 = torch.zeros(1, x.size(0), self.hidden_size)  # Initial hidden state
        out, _ = self.gru(x, h0)                          # Forward propagate GRU
        out = self.fc(out[:, -1, :])                      # Last time-step output
        return out

LSTM এবং GRU এর মধ্যে পার্থক্য

বৈশিষ্ট্যLSTMGRU
গেট সংখ্যা3 (Forget, Input, Output) এবং Cell State2 (Update এবং Reset)
মেমোরি ব্যবস্থাপনাCell State এবং Hidden Stateকেবল Hidden State
জটিলতাতুলনামূলক জটিল এবং training এ সময় লাগেসহজ এবং computationally দ্রুত
ব্যবহারদীর্ঘ সময়ের নির্ভরশীলতার ক্ষেত্রে ভালোছোট এবং মাঝারি নির্ভরশীলতার ক্ষেত্রে ভালো

LSTM এবং GRU এর প্রয়োজনীয়তা

দীর্ঘ সময়ের নির্ভরশীলতা:

  • LSTM এবং GRU দীর্ঘ সময়ের জন্য তথ্য সংরক্ষণ করতে পারে, যা সাধারণ RNN করতে সক্ষম নয়।

Gradient Vanishing এবং Exploding সমস্যা সমাধান:

  • LSTM এবং GRU এর গেটিং মেকানিজম gradient vanishing সমস্যা কমিয়ে দেয়।

Sequential Data Processing:

  • Text, audio, এবং অন্যান্য sequential ডেটা নিয়ে কাজ করতে LSTM এবং GRU কার্যকর।

Computational Efficiency:

  • GRU computationally efficient হওয়ায় দ্রুত training এর জন্য ব্যবহৃত হয়।

LSTM এবং GRU এর উদাহরণ দেখানো হয়েছে sequential ডেটা প্রসেসিং এর জন্য এবং এটি সাধারণত NLP, speech recognition, এবং time-series forecasting এর মত ক্ষেত্রগুলোতে ব্যবহৃত হয়।

Content added By
Promotion

Are you sure to start over?

Loading...