Confusion Matrix এবং Classification Report হল দুটি গুরুত্বপূর্ণ মেট্রিক্স যা মেশিন লার্নিং ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। এই দুটি টুল ডেটার প্রকৃত এবং পূর্বাভাসকৃত শ্রেণি সম্পর্কে বিশদ তথ্য প্রদান করে, যা মডেলের কার্যকারিতা বিশ্লেষণ করতে সাহায্য করে।
Confusion Matrix (কনফিউশন ম্যাট্রিক্স)
Confusion Matrix একটি টেবিলের মতো কাঠামো, যা মডেলের ক্লাসিফিকেশন ফলাফলকে দেখায় এবং বিভিন্ন শ্রেণীর জন্য সঠিক এবং ভুল পূর্বাভাসের সংখ্যা প্রদান করে। এটি ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করার জন্য অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি আপনার মডেল কতটা ভালোভাবে বিভিন্ন শ্রেণীকে আলাদা করতে পারছে তা সঠিকভাবে দেখাতে সাহায্য করে।
Confusion Matrix এর উপাদান:
- True Positives (TP):
সঠিকভাবে পজিটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল সঠিকভাবে পজিটিভ শ্রেণী চিহ্নিত করেছে। - True Negatives (TN):
সঠিকভাবে নেগেটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল সঠিকভাবে নেগেটিভ শ্রেণী চিহ্নিত করেছে। - False Positives (FP):
ভুলভাবে পজিটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল নেগেটিভ শ্রেণীকে পজিটিভ হিসেবে চিহ্নিত করেছে। এটি Type I error বা false alarm হিসেবেও পরিচিত। - False Negatives (FN):
ভুলভাবে নেগেটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল পজিটিভ শ্রেণীকে নেগেটিভ হিসেবে চিহ্নিত করেছে। এটি Type II error হিসেবেও পরিচিত।
Confusion Matrix এর গঠন:
Confusion Matrix উদাহরণ:
ধরা যাক, আপনার একটি মডেল দুটি শ্রেণি (পজিটিভ এবং নেগেটিভ) চিহ্নিত করছে এবং আপনার ১০০টি পরীক্ষা করা ডেটা পয়েন্ট রয়েছে।
| Actual\Predicted | Positive | Negative |
|---|---|---|
| Positive | 50 | 10 |
| Negative | 5 | 35 |
এখানে:
- True Positives (TP) = 50
- True Negatives (TN) = 35
- False Positives (FP) = 10
- False Negatives (FN) = 5
Classification Report (ক্লাসিফিকেশন রিপোর্ট)
Classification Report হল একটি বিশ্লেষণী রিপোর্ট যা মডেলের Precision, Recall, F1-Score, এবং Support এর মতো মেট্রিক্স প্রদান করে। এটি বিভিন্ন শ্রেণীর জন্য এই পরিসংখ্যানগুলি গণনা করে এবং একটি বিস্তারিত প্রতিবেদন তৈরি করে, যা মডেলের পারফরম্যান্স সম্পর্কে গভীর তথ্য প্রদান করে।
Classification Report এর মেট্রিক্স:
Precision (প্রিসিশন):
- Precision হলো সঠিকভাবে পজিটিভ পূর্বাভাসের অনুপাত।
এটি বলে, পজিটিভ পূর্বাভাসের মধ্যে কতটি সঠিক ছিল।
Recall (রিকল):
- Recall হলো সঠিকভাবে শনাক্ত করা পজিটিভ ডেটার অনুপাত।
এটি বলে, মোট পজিটিভ ডেটার মধ্যে কতটি সঠিকভাবে চিহ্নিত করা হয়েছে।
F1-Score (এফ১ স্কোর):
- F1-Score হলো Precision এবং Recall এর গাণিতিক গড়, যা তাদের মধ্যে ভারসাম্য তৈরি করে।
এটি Precision এবং Recall এর মধ্যে একটি ভারসাম্য তৈরি করে এবং তাদের মধ্যে সমতা থাকা নিশ্চিত করে।
- Support (সাপোর্ট):
- Support হলো প্রতিটি শ্রেণীর জন্য প্রকৃত ডেটা পয়েন্টের সংখ্যা। এটি মডেলের প্রতি শ্রেণীর মধ্যে কতটা সঠিক পূর্বাভাস দিয়েছে তা বোঝাতে সাহায্য করে।
Classification Report উদাহরণ:
একটি ক্লাসিফিকেশন রিপোর্ট দেখতে কিছুটা এইরকম হতে পারে:
| Class | Precision | Recall | F1-Score | Support |
|---|---|---|---|---|
| Positive | 0.91 | 0.83 | 0.87 | 60 |
| Negative | 0.78 | 0.88 | 0.82 | 40 |
| Accuracy | 0.85 | 100 | ||
| Macro Avg | 0.85 | 0.86 | 0.84 | |
| Weighted Avg | 0.86 | 0.85 | 0.85 |
এখানে:
- Precision: Positive ক্লাসের জন্য 0.91 এবং Negative ক্লাসের জন্য 0.78।
- Recall: Positive ক্লাসের জন্য 0.83 এবং Negative ক্লাসের জন্য 0.88।
- F1-Score: Positive ক্লাসের জন্য 0.87 এবং Negative ক্লাসের জন্য 0.82।
- Support: Positive ক্লাসে 60টি এবং Negative ক্লাসে 40টি ডেটা পয়েন্ট।
Confusion Matrix এবং Classification Report এর পার্থক্য
| বৈশিষ্ট্য | Confusion Matrix | Classification Report |
|---|---|---|
| বর্ণনা | মডেলের সঠিক এবং ভুল পূর্বাভাসের সংখ্যা দেখায় | মডেলের Precision, Recall, F1-Score, Support দেখায় |
| ফোকাস | শ্রেণি বিভাজন এবং মডেলের সঠিকতা/ভুলতা | বিভিন্ন শ্রেণীর মেট্রিক্স (Precision, Recall, F1) |
| আবশ্যকতা | মডেলের পারফরম্যান্স বিশ্লেষণে ব্যবহৃত হয় | শ্রেণীভিত্তিক বিস্তারিত বিশ্লেষণে ব্যবহৃত হয় |
সারাংশ
- Confusion Matrix হলো একটি সারণী যা সঠিক এবং ভুল শ্রেণীভিত্তিক পূর্বাভাসের সংখ্যা দেখায় এবং মডেলের পারফরম্যান্স বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।
- Classification Report মডেলের Precision, Recall, F1-Score, এবং Support এর মাধ্যমে শ্রেণীভিত্তিক বিশদ তথ্য প্রদান করে, যা মডেলের পারফরম্যান্স আরও বিস্তারিতভাবে বুঝতে সাহায্য করে।
Read more