Naive Bayes হল একটি জনপ্রিয় পরিসংখ্যান ভিত্তিক শ্রেণীবিভাজন (classification) অ্যালগরিদম যা বায়েজিয়ান সম্ভাবনা (Bayesian probability) তত্ত্বের উপর ভিত্তি করে কাজ করে। Naive Bayes এর দুটি সাধারণ ধরনের অ্যালগরিদম হল Gaussian Naive Bayes এবং Multinomial Naive Bayes। উভয়ই বিভিন্ন ধরণের ডেটার জন্য উপযুক্ত, এবং তাদের ব্যবহারের ক্ষেত্রে কিছু পার্থক্য রয়েছে।
১. Gaussian Naive Bayes
Gaussian Naive Bayes হল সেই ধরণের Naive Bayes মডেল যা নিরবচ্ছিন্ন বৈশিষ্ট্য (continuous features) বিশ্লেষণ করতে ব্যবহৃত হয়, যেখানে বৈশিষ্ট্যগুলি গাউসিয়ান বিতরণের (Gaussian distribution) অধীনে থাকে। এটি একটি পরিসংখ্যানিক মডেল যা ডেটার গড় এবং মানের বিচ্যুতি (standard deviation) ব্যবহার করে।
কিভাবে কাজ করে:
- গাউসিয়ান Naive Bayes প্রতিটি বৈশিষ্ট্যের জন্য গাউসিয়ান বা নর্মাল ডিস্ট্রিবিউশন অনুমান করে, অর্থাৎ বৈশিষ্ট্যগুলি একটি নির্দিষ্ট গড় এবং মান বিচ্যুতির চারপাশে গড় হয়।
- প্রতিটি শ্রেণীর জন্য বৈশিষ্ট্যের সম্ভাবনা গাউসিয়ান ফর্মুলা ব্যবহার করে গণনা করা হয়।
- গাউসিয়ান ডিস্ট্রিবিউশন ব্যবহার করার জন্য, একটি বৈশিষ্ট্য এর জন্য প্রাথমিকভাবে দুটি পরামিতি নির্ধারণ করা হয়:
- গড় ()
- মান বিচ্যুতি ()
গাউসিয়ান Naive Bayes-এর সূত্র:
গাউসিয়ান ডিস্ট্রিবিউশনে একটি বৈশিষ্ট্য এর জন্য সম্ভাবনা (probability) এর গণনা:
এখানে:
- হলো বৈশিষ্ট্যের মান
- হলো শ্রেণী
- হলো গড়
- হলো বৈশিষ্ট্যের মান বিচ্যুতি
কবে ব্যবহার করবেন:
- যখন ডেটার বৈশিষ্ট্যগুলি নিরবচ্ছিন্ন (continuous) এবং গাউসিয়ান ডিস্ট্রিবিউশন অনুসরণ করে।
- উদাহরণস্বরূপ, উচ্চতা, ওজন, তাপমাত্রা ইত্যাদি।
২. Multinomial Naive Bayes
Multinomial Naive Bayes হল সেই ধরণের Naive Bayes মডেল যা প্রধানত ক্যাটেগরিক্যাল ডেটা বা ডিসক্রিট ডেটা (discrete data) বিশ্লেষণ করতে ব্যবহৃত হয়, যেখানে বৈশিষ্ট্যগুলি বিভিন্ন শ্রেণীর মধ্যে গণনা করা হয়। এটি সাধারণত টেক্সট শ্রেণীবিভাজন সমস্যা (যেমন স্প্যাম ইমেইল ফিল্টারিং বা নিউজ আর্টিকেল শ্রেণীবিভাজন) এ ব্যবহৃত হয়।
কিভাবে কাজ করে:
- Multinomial Naive Bayes মডেলটি প্রতিটি বৈশিষ্ট্যের সম্ভাবনা গণনা করতে Multinomial Distribution ব্যবহার করে।
- এই মডেলটি সাধারণত শ্রেণীভিত্তিক বৈশিষ্ট্য বা শব্দের সংখ্যা নির্ধারণ করে, বিশেষ করে টেক্সট ডেটা বিশ্লেষণ করার জন্য।
- বৈশিষ্ট্য এর জন্য, এর উপস্থিতি বা সংখ্যা গণনা করা হয়, এবং পরবর্তীতে সম্ভাবনা গণনা করা হয়।
Multinomial Naive Bayes এর সূত্র:
এখানে:
- হলো বৈশিষ্ট্য বা শব্দ
- হলো শ্রেণী এর জন্য এর শর্তাধীন সম্ভাবনা
কবে ব্যবহার করবেন:
- যখন বৈশিষ্ট্যগুলি ডিসক্রিট বা ক্যাটেগরিক্যাল ডেটা হয় এবং অনেকগুলি ভিন্ন শ্রেণী থাকে। সাধারণত শব্দের সংখ্যা বা শ্রেণীভিত্তিক হিসাব যখন গুরুত্বপূর্ণ হয়।
- উদাহরণস্বরূপ, টেক্সট ক্লাসিফিকেশন, স্প্যাম ফিল্টারিং, ডকুমেন্ট শ্রেণীবিভাজন।
Gaussian Naive Bayes এবং Multinomial Naive Bayes এর মধ্যে পার্থক্য
| বৈশিষ্ট্য | Gaussian Naive Bayes | Multinomial Naive Bayes |
|---|---|---|
| ডেটার ধরন | নিরবচ্ছিন্ন (continuous) বৈশিষ্ট্য | ক্যাটেগরিক্যাল বা ডিসক্রিট (discrete) বৈশিষ্ট্য |
| বৈশিষ্ট্য বিতরণ | গাউসিয়ান ডিস্ট্রিবিউশন (Gaussian distribution) | মাল্টিনোমিয়াল ডিস্ট্রিবিউশন (Multinomial distribution) |
| ব্যবহার | গাণিতিক বৈশিষ্ট্য (যেমন উচ্চতা, ওজন, তাপমাত্রা) | টেক্সট ডেটা বা শব্দের সংখ্যা (যেমন স্প্যাম ফিল্টারিং) |
| মডেলিং পদ্ধতি | বৈশিষ্ট্যের গড় এবং মান বিচ্যুতি ব্যবহার করে | শ্রেণীভিত্তিক বৈশিষ্ট্যগুলির সংখ্যা ব্যবহার করে |
| উদাহরণ | উচ্চতা, তাপমাত্রা, দৈর্ঘ্য | শব্দের উপস্থিতি বা সংখ্যা, ক্যাটাগরিক্যাল বৈশিষ্ট্য |
উপসংহার
- Gaussian Naive Bayes ব্যবহার করা হয় যখন বৈশিষ্ট্যগুলি নিরবচ্ছিন্ন এবং গাউসিয়ান ডিস্ট্রিবিউশন অনুসরণ করে।
- Multinomial Naive Bayes ব্যবহার করা হয় যখন বৈশিষ্ট্যগুলি ডিসক্রিট বা ক্যাটেগরিক্যাল এবং বিশেষভাবে টেক্সট ডেটা বা শব্দের উপস্থিতি বিশ্লেষণ করা হয়।
উপযুক্ত মডেল নির্বাচন ডেটার প্রকৃতির উপর নির্ভর করে, এবং প্রতিটি মডেল নির্দিষ্ট ধরনের সমস্যার জন্য উপযুক্ত।
Read more