১. Confusion Matrix
Confusion Matrix একটি টেবিল বা ম্যাট্রিক্স যা মডেলটির কর্মক্ষমতা বিশ্লেষণ করতে ব্যবহৃত হয়, বিশেষ করে ক্লাসিফিকেশন মডেলগুলির জন্য। এটি সঠিকভাবে এবং ভুলভাবে ক্লাসিফাই করা ট্যাগ করা ডেটার সম্পর্কের একটি সন্নিবেশ দেখায়। এতে মডেলের সত্যি ও মিথ্যা পজিটিভ এবং নেগেটিভের সংখ্যা এবং অন্যান্য পরিমাপ দেখানো হয়।
Confusion Matrix-এর কম্পোনেন্টস:
- True Positive (TP): সঠিকভাবে পজিটিভ ক্লাসিফাই করা আইটেমগুলি।
- True Negative (TN): সঠিকভাবে নেগেটিভ ক্লাসিফাই করা আইটেমগুলি।
- False Positive (FP): ভুলভাবে পজিটিভ ক্লাসিফাই করা আইটেমগুলি (Type I error)।
- False Negative (FN): ভুলভাবে নেগেটিভ ক্লাসিফাই করা আইটেমগুলি (Type II error)।
Confusion Matrix এর কাঠামো:
| Predicted Positive | Predicted Negative | |
|---|---|---|
| Actual Positive | True Positive (TP) | False Negative (FN) |
| Actual Negative | False Positive (FP) | True Negative (TN) |
Confusion Matrix থেকে নির্ণীত মেট্রিকস:
Accuracy (সঠিকতা):
সঠিকভাবে ক্লাসিফাই করা সমস্ত আইটেমের অনুপাত।
Precision (প্রিসিশন):
এটি মডেলের পজিটিভ পূর্বানুমানগুলির মধ্যে কতটা সঠিক ছিল তা নির্দেশ করে।
Recall (রিকল) বা Sensitivity:
এটি মডেলের পজিটিভ ক্লাস সঠিকভাবে চিহ্নিত করার ক্ষমতা পরিমাপ করে।
F1-Score:
Precision এবং Recall এর মধ্যে ভারসাম্য রাখার জন্য ব্যবহৃত হয়।
Specificity:
এটি মডেলের নেগেটিভ ক্লাস সঠিকভাবে চিহ্নিত করার ক্ষমতা পরিমাপ করে।
২. ROC-AUC Curve
ROC (Receiver Operating Characteristic) Curve এবং AUC (Area Under the Curve) হল একটি বিশ্লেষণাত্মক সরঞ্জাম যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স মূল্যায়নে ব্যবহৃত হয়। এটি প্রধানত মডেলের ক্ষমতা চিহ্নিত করে যে কীভাবে এটি পজিটিভ এবং নেগেটিভ ক্লাসকে আলাদা করতে পারে।
ROC Curve:
ROC Curve হলো একটি গ্রাফ যা মডেলের True Positive Rate (TPR) (রিকল) এবং False Positive Rate (FPR) (এক্স পজিটিভ) এর মধ্যে সম্পর্ক দেখায়। এটি মডেলের ক্ষমতা বিশ্লেষণ করতে সহায়ক।
- True Positive Rate (TPR) বা Recall:
- False Positive Rate (FPR):
ROC Curve এর গ্রাফ:
- X-axis: False Positive Rate (FPR)
- Y-axis: True Positive Rate (TPR)
এটি গ্রাফের মধ্যে যতটা উপরের দিকে এবং বাম দিকের কাছাকাছি থাকে, ততই মডেলটি ভালো। আদর্শ মডেলটি (সর্বোচ্চ পারফরম্যান্স) গ্রাফের শীর্ষ বাম কোণে অবস্থিত।
AUC (Area Under the Curve):
AUC (Area Under the Curve) হল ROC Curve-এর নিচে থাকা এলাকা, যা মডেলের ক্ষমতা পরিমাপ করে। AUC এর মান 0 থেকে 1 এর মধ্যে থাকে:
- AUC = 1: এটি একটি আদর্শ মডেলকে নির্দেশ করে, যেখানে মডেলটি 100% সঠিকভাবে পজিটিভ এবং নেগেটিভ ক্লাস আলাদা করতে পারে।
- AUC = 0.5: এটি একটি র্যান্ডম মডেলকে নির্দেশ করে, যেটি সঠিকভাবে আলাদা করতে পারছে না (যেমন, মাথা বা পা ছুঁড়ে যাওয়া)।
- AUC < 0.5: এটি একটি মডেলকে নির্দেশ করে যা বিপরীতভাবে কাজ করছে এবং ভুল সিদ্ধান্ত নিচ্ছে।
ROC-AUC এর সুবিধা:
- ক্লাস ইমব্যালেন্স: ROC-AUC Curve খুবই উপকারী যখন আপনার ডেটাতে ক্লাস ইমব্যালেন্স থাকে। যেহেতু এটি True Positive Rate এবং False Positive Rate এর মধ্যে সম্পর্ক দেখায়, এটি ইমব্যালেন্সের প্রভাব কমাতে সাহায্য করে।
- মডেল তুলনা: বিভিন্ন মডেলের পারফরম্যান্স তুলনা করতে এটি একটি শক্তিশালী সরঞ্জাম। উচ্চ AUC মান একটি ভাল মডেল নির্দেশ করে।
উপসংহার
- Confusion Matrix একটি সঠিক এবং ভুল পূর্বানুমান বিশ্লেষণ করতে ব্যবহৃত হয়, যা Accuracy, Precision, Recall, F1-Score এবং Specificity এর মতো মেট্রিকস নির্ধারণ করতে সাহায্য করে।
- ROC-AUC Curve এবং AUC মডেলের পারফরম্যান্স বিশ্লেষণ করতে ব্যবহৃত হয়, যেখানে ROC Curve মডেলের True Positive Rate এবং False Positive Rate এর সম্পর্ক দেখায় এবং AUC এর মাধ্যমে মডেলের সক্ষমতা পরিমাপ করা হয়।
Read more