Activation Functions: Sigmoid, ReLU, Tanh

নিউরাল নেটওয়ার্কের বেসিক ধারণা - পাইথন ডিপ লার্নিং (Python Deep Learning) - Machine Learning

353

ডিপ লার্নিং মডেলগুলির কার্যকারিতা এবং পারফরম্যান্সের জন্য Activation Functions গুরুত্বপূর্ণ ভূমিকা পালন করে। একে নিউরাল নেটওয়ার্ক এর "নিউরন"গুলির মধ্যে সিগন্যাল প্রসেসিং বা সিদ্ধান্ত গ্রহণের উপায় হিসেবে ভাবা যেতে পারে। ইনপুট ডেটাকে আউটপুটে রূপান্তরিত করার সময়, অ্যাকটিভেশন ফাংশন নির্ধারণ করে যে, একটি নিউরন সক্রিয় হবে কিনা এবং তার আউটপুট কী হবে।

এখানে তিনটি জনপ্রিয় Activation Functions-এর আলোচনা করা হলো: Sigmoid, ReLU (Rectified Linear Unit), এবং Tanh (Hyperbolic Tangent)।

1. Sigmoid Activation Function:

Sigmoid একটি সোজা সিগময়েড কার্ভ দ্বারা সন্নিবেশিত একটি ফাংশন, যা আউটপুটকে 0 এবং 1 এর মধ্যে সীমাবদ্ধ রাখে। এটি প্রধানত ক্লাসিফিকেশন সমস্যায় ব্যবহৃত হয়, যেখানে আউটপুট দুইটি ক্লাসের মধ্যে একটি হবে।

গাণিতিক রূপ:

$f(x) = \frac{1}{1 + e^{-x}}$

এখানে, $x$ হলো ইনপুট, $e$ হল ন্যাচারাল লগের বেস (যেমন, 2.71828)।

বিশেষ বৈশিষ্ট্য:

Range: $0$ থেকে $1$ ।
Derivative: $f'(x) = f(x)(1 - f(x))$ , যা গ্রেডিয়েন্ট ডিসেন্টে সহজেই ব্যবহারযোগ্য।
আনুষ্ঠানিক বর্ণনা: এটি একটি সিগময়েড ফাংশন হওয়ায় আউটপুট মাপের সীমা 0 এবং 1 এর মধ্যে থাকে। এটি আউটপুট কে ধারাবাহিকভাবে ছোট বা বড় হতে বাধ্য করে, যেহেতু সিগময়েডের মাধ্যে অতিরিক্ত বড় বা ছোট মানগুলো স্যাচুরেটেড (saturated) হয়ে যায় এবং ব্যাকপ্রপাগেশন কাজ করতে সক্ষম হয় না।

ব্যবহার:

সিগময়েড মূলত বাইনারি ক্লাসিফিকেশন মডেলগুলিতে ব্যবহৃত হয়, যেমন ইমেইল স্প্যাম ফিল্টারিং, মেডিকেল রিপোর্ট বিশ্লেষণ ইত্যাদি।

ข้อเสีย:

Vanishing Gradient Problem: সিগময়েড ফাংশনের জন্য বড় বা ছোট ইনপুট মানের সাথে গ্রেডিয়েন্ট প্রায় শূন্য হয়ে যায়, ফলে ব্যাকপ্রপাগেশনে সমস্যা হতে পারে।

2. ReLU (Rectified Linear Unit):

ReLU (Rectified Linear Unit) হল একটি সাধারণ এবং খুবই জনপ্রিয় অ্যাকটিভেশন ফাংশন যা নেগেটিভ ইনপুটগুলিকে শূন্যে রূপান্তরিত করে এবং পজিটিভ ইনপুটগুলিকে অপরিবর্তিত রেখে দেয়।

গাণিতিক রূপ:

$f(x) = \max(0, x)$

বিশেষ বৈশিষ্ট্য:

Range: $[0, \infty)$ ।
Derivative: এটি একটি পিসওয়াই ডিফারেনশিয়েবল ফাংশন, এবং $f'(x) = 1$ যদি $x > 0$ , অন্যথায় $f'(x) = 0$ ।
আনুষ্ঠানিক বর্ণনা: ReLU সহজ এবং দ্রুত প্রশিক্ষণের জন্য উপযুক্ত। যদি ইনপুট $x > 0$ , তাহলে আউটপুট হবে $x$ , অন্যথায় আউটপুট হবে 0।

ব্যবহার:

ReLU ফাংশন ডিপ লার্নিং মডেলগুলোতে বিশেষভাবে ব্যবহৃত হয় কারণ এটি দ্রুত গণনা এবং প্রশিক্ষণের জন্য উপযুক্ত।
এটি কনভলিউশনাল নিউরাল নেটওয়ার্ক (CNN) এবং ফিডফরওয়ার্ড নিউরাল নেটওয়ার্ক (FNN) তে ব্যবহৃত হয়।

ข้อดี:

Computational Efficiency: এটি দ্রুত এবং দক্ষ, কারণ $f(x)$ গাণিতিকভাবে খুব সহজ।
Avoiding Vanishing Gradient: ReLU ফাংশন ভ্যানিশিং গ্র্যাডিয়েন্ট সমস্যা কাটিয়ে ওঠে কারণ এটি নেতিবাচক মানকে শূন্যে রূপান্তরিত করে এবং পজিটিভ মানগুলির জন্য লিনিয়ার।

ข้อเสีย:

Dying ReLU Problem: অনেক সময় ReLU এক্সপ্রেশন $x < 0$ থাকলে পুরোপুরি শূন্য হয়ে যেতে পারে, ফলে নিউরনগুলি আর শিখতে পারে না (এটি "Dying ReLU" হিসাবে পরিচিত)।

3. Tanh (Hyperbolic Tangent) Activation Function:

Tanh হল সিগময়েড ফাংশনের একটি স্কেলড সংস্করণ, যেখানে আউটপুট রেঞ্জ $[-1, 1]$ এর মধ্যে সীমাবদ্ধ থাকে।

গাণিতিক রূপ:

$f(x) = \tanh(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$

বিশেষ বৈশিষ্ট্য:

Range: $[-1, 1]$
Derivative: $f'(x) = 1 - f(x)^2$
আনুষ্ঠানিক বর্ণনা: Tanh আউটপুটকে স্কেলড বা হাইপারবোলিক আকারে রূপান্তরিত করে, যা সিগময়েডের তুলনায় আরও কেন্দ্রীভূত আউটপুট দেয় (মানে $-1$ এবং $1$ এর মধ্যে)।

ব্যবহার:

Tanh ফাংশন প্রধানত ফিডফরওয়ার্ড নিউরাল নেটওয়ার্কে ব্যবহৃত হয়, বিশেষ করে রেকারেন্ট নিউরাল নেটওয়ার্ক (RNN) এর মধ্যে।

ข้อดี:

Centering: এটি সিগময়েডের চেয়ে বেশি সুবিধাজনক কারণ এটি আউটপুটকে কেন্দ্র করে, অর্থাৎ আউটপুট $0$ এর আশেপাশে থাকে।
Vanishing Gradient Problem: এটি সিগময়েডের তুলনায় ভালো পারফরম্যান্স প্রদান করতে পারে, কারণ এটি আরও বড় এবং ছোট আউটপুট মানের জন্য গ্র্যাডিয়েন্ট ডিসেন্ট কাজ করতে সহায়ক।

ข้อเสีย:

Vanishing Gradient Problem: Tanh, সিগময়েডের মতো, যদি ইনপুট খুব বড় বা ছোট হয়, তবে গ্র্যাডিয়েন্ট ভ্যানিশিং সমস্যা হতে পারে।

সারাংশ:

Sigmoid: বাইনারি ক্লাসিফিকেশনে ব্যবহৃত হয়, আউটপুট $0$ থেকে $1$ এর মধ্যে থাকে। তবে, এটি Vanishing Gradient Problem-এ ভোগে।
ReLU: এটি দ্রুত এবং দক্ষ, এবং ডিপ লার্নিং মডেলগুলিতে ব্যবহৃত হয়। এটি Vanishing Gradient সমস্যাটি কাটিয়ে ওঠে, কিন্তু Dying ReLU সমস্যা হতে পারে।
Tanh: এটি Sigmoid এর তুলনায় আরও কার্যকর, কারণ আউটপুট $[-1, 1]$ এর মধ্যে থাকে, তবে এটি Vanishing Gradient সমস্যায় আক্রান্ত হতে পারে।

প্রত্যেকটি অ্যাকটিভেশন ফাংশনের নিজস্ব সুবিধা এবং সীমাবদ্ধতা রয়েছে, এবং কোন ফাংশনটি ব্যবহার করবেন তা আপনার মডেলের ধরন এবং ডেটার উপর নির্ভর করে।

Content added By

Azizar Rahman Aziz

নিউরাল নেটওয়ার্কের কাজের পদ্ধতি Perceptron এবং Multi-Layer Perceptron (MLP) Forward এবং Backpropagation Process

Activation Functions: Sigmoid, ReLU, Tanh

1. Sigmoid Activation Function:

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อเสีย:

2. ReLU (Rectified Linear Unit):

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อดี:

ข้อเสีย:

3. Tanh (Hyperbolic Tangent) Activation Function:

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อดี:

ข้อเสีย:

সারাংশ:

Promotion

Satt AI

Hi, আমি SATT AI!

Activation Functions: Sigmoid, ReLU, Tanh

1. Sigmoid Activation Function:

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อเสีย:

2. ReLU (Rectified Linear Unit):

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อดี:

ข้อเสีย:

3. Tanh (Hyperbolic Tangent) Activation Function:

গাণিতিক রূপ:

বিশেষ বৈশিষ্ট্য:

ব্যবহার:

ข้อดี:

ข้อเสีย:

সারাংশ:

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!