Activation Functions (Sigmoid, ReLU, Tanh)

Neural Networks এর ধারণা - থিয়ানো (Theano) - Machine Learning

368

Activation Functions (এ্যাকটিভেশন ফাংশন) হল ডিপ লার্নিং মডেলগুলির গুরুত্বপূর্ণ উপাদান, যা নিউরাল নেটওয়ার্কে ইনপুট থেকে আউটপুট তৈরি করতে ব্যবহৃত হয়। এগুলি নিউরনের আউটপুট সিগন্যালকে পরবর্তী লেয়ারে পাঠানোর জন্য একটি ফাংশন হিসাবে কাজ করে এবং মডেলকে non-linearity যুক্ত করতে সহায়ক হয়, যা তাকে জটিল প্যাটার্ন চিনতে সক্ষম করে। এখানে আমরা Sigmoid, ReLU এবং Tanh এর বিস্তারিত আলোচনা করব।

১. Sigmoid Activation Function

Sigmoid একটি সিগময়েড ফাংশন যা আউটপুটকে 0 থেকে 1 এর মধ্যে সীমাবদ্ধ রাখে। এটি একটি S-আকৃতির (S-shaped) ফাংশন যা খুবই জনপ্রিয় এবং সাধারণত binary classification মডেলে ব্যবহৃত হয়।

ফাংশন:

σ(x)=11+ex\sigma(x) = \frac{1}{1 + e^{-x}}

যেখানে,

  • ee হল মৌলিক লগারিদমিক ধ্রুবক,
  • xx হল ইনপুট ভ্যালু।

প্রয়োজনীয়তা ও বৈশিষ্ট্য:

  • output range: (0,1)(0, 1)
  • ডিফারেনশিয়েশন: ddxσ(x)=σ(x)(1σ(x))\frac{d}{dx} \sigma(x) = \sigma(x)(1 - \sigma(x))
  • প্রযুক্তি: এটি সাধারণত output layer এর জন্য ব্যবহৃত হয়, বিশেষত যখন সমস্যা binary classification

সুবিধা:

  • সহজ এবং গণনা করা তুলনামূলকভাবে সোজা।
  • আউটপুট 0 থেকে 1 এর মধ্যে থাকে, যা প্রোবাবিলিটির মতো কাজ করে।

অসুবিধা:

  • Vanishing Gradient সমস্যা: যখন ইনপুট অনেক বড় বা ছোট হয়, তখন গ্রেডিয়েন্ট খুব ছোট হয়ে যায়, ফলে backpropagation চলাকালীন প্রশিক্ষণ ধীরগতির হতে পারে।

২. ReLU (Rectified Linear Unit)

ReLU হল সবচেয়ে জনপ্রিয় একটিভেশন ফাংশন যা নিউরাল নেটওয়ার্কের hidden layers এ ব্যাপকভাবে ব্যবহৃত হয়। এটি ইনপুট মানকে 0 এর নিচে সোজা করে এবং 0 এর উপরে রেখে দেয়।

ফাংশন:

f(x)=max(0,x)f(x) = \max(0, x)

প্রয়োজনীয়তা ও বৈশিষ্ট্য:

  • output range: [0,)[0, \infty)
  • ডিফারেনশিয়েশন: f(x)={1if x>00if x0f'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}
  • খুব দ্রুত computation এবং সাধারণত hidden layers এ ব্যবহৃত হয়।

সুবিধা:

  • Vanishing Gradient সমস্যা নেই (যেহেতু ইনপুট 0 এর নিচে হলে গ্রেডিয়েন্ট 0, অন্যথায় 1 থাকে)।
  • fast training: দ্রুত প্রশিক্ষণ এবং কম্পিউটেশনাল দক্ষতা।

অসুবিধা:

  • Dead Neuron সমস্যা: যদি ইনপুটগুলির বেশিরভাগই নেতিবাচক হয়, তবে সেগুলি 0 হয়ে যাবে এবং নেটওয়ার্কের মধ্যে কিছু নিউরন কার্যকরী না থাকতে পারে (এটি "Dead Neurons" হিসাবে পরিচিত)।

৩. Tanh (Hyperbolic Tangent)

Tanh একটি হাইপারবোলিক ট্যানজেন্ট ফাংশন যা আউটপুটকে -1 থেকে 1 এর মধ্যে সীমাবদ্ধ রাখে। এটি Sigmoid এর মতোই, তবে আউটপুট পরিসীমা ভিন্ন। এটি hidden layers এর জন্য জনপ্রিয়।

ফাংশন:

tanh(x)=exexex+ex\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

প্রয়োজনীয়তা ও বৈশিষ্ট্য:

  • output range: (1,1)(-1, 1)
  • ডিফারেনশিয়েশন: ddxtanh(x)=1tanh2(x)\frac{d}{dx} \tanh(x) = 1 - \tanh^2(x)
  • S-shaped ফাংশন, তবে আউটপুট পরিসীমা সিগময়েডের তুলনায় আরও বিস্তৃত।

সুবিধা:

  • Symmetric: এটি -1 থেকে 1 পর্যন্ত আউটপুট তৈরি করে, ফলে মডেলকে zero-centered এর দিকে নিয়ে যায় এবং প্রশিক্ষণ প্রক্রিয়া আরও দ্রুত হতে পারে।
  • ভাল gradient propagation: এটি Vanishing Gradient সমস্যা তুলনামূলকভাবে কম করে।

অসুবিধা:

  • Vanishing Gradient: এটি সিগময়েডের মতোই গ্রেডিয়েন্ট কম হতে পারে, বিশেষত যখন ইনপুট মান বড় বা ছোট হয়।

Activation Functions এর তুলনা:

Activation FunctionOutput RangeProsCons
Sigmoid(0,1)(0, 1)সহজ, প্রোবাবিলিটি হিসেবে ব্যবহারVanishing Gradient
ReLU[0,)[0, \infty)দ্রুত প্রশিক্ষণ, সহজ গণনাDead Neurons, Unbounded Output
Tanh(1,1)(-1, 1)Symmetric, better gradient flowVanishing Gradient

সারাংশ:

  • Sigmoid: সিম্পল, তবে Vanishing Gradient সমস্যার কারণে অনেক ক্ষেত্রে ব্যবহার কমে গেছে।
  • ReLU: দ্রুত প্রশিক্ষণ এবং সরলতা, তবে Dead Neuron সমস্যা হতে পারে।
  • Tanh: Symmetric ফাংশন, যা কিছু ক্ষেত্রে ভাল কাজ করে, তবে এটি Vanishing Gradient সমস্যায় ভুগতে পারে।

ডিপ লার্নিং মডেলগুলিতে ReLU এখন সবচেয়ে জনপ্রিয় এবং এর জনপ্রিয়তা অনেকাংশে এর দ্রুত প্রশিক্ষণ ক্ষমতার জন্য।

Content added By
Promotion

Are you sure to start over?

Loading...