Confusion Matrix, ROC Curve, এবং AUC

মডেল টেস্টিং এবং ইভ্যালুয়েশন - এইচ২ও (H2O) - Machine Learning

458

এই তিনটি হল মেশিন লার্নিং মডেলের কার্যকারিতা বা পারফরম্যান্স মূল্যায়নের জন্য ব্যবহৃত গুরুত্বপূর্ণ পরিমাপক। এগুলি বিশেষত ক্লাসিফিকেশন মডেল এর মূল্যায়ন করতে ব্যবহৃত হয়, যেখানে আমাদের মডেলটি ক্যাটেগোরিকাল আউটপুট প্রেডিক্ট করে।

১. Confusion Matrix

Confusion Matrix হল একটি টেবিল যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স দেখায়, বিশেষত দুটি ক্লাস (positive এবং negative) এর মধ্যে সঠিক এবং ভুল পূর্বাভাসের পরিসংখ্যান সরবরাহ করে। এটি আমাদের মডেলটির ভুল পূর্বাভাস এবং সঠিক পূর্বাভাসের ধরণ জানাতে সহায়ক।

Confusion Matrix এর প্রধান উপাদানগুলি:

True Positive (TP): মডেল সঠিকভাবে যে ইতিবাচক ক্লাস পূর্বাভাস করেছে।
True Negative (TN): মডেল সঠিকভাবে যে নেতিবাচক ক্লাস পূর্বাভাস করেছে।
False Positive (FP): মডেল ভুলভাবে যে ইতিবাচক ক্লাস পূর্বাভাস করেছে (Type I Error)।
False Negative (FN): মডেল ভুলভাবে যে নেতিবাচক ক্লাস পূর্বাভাস করেছে (Type II Error).

Confusion Matrix এর একটি সাধারণ রূপ:

	Predicted Positive	Predicted Negative
Actual Positive	TP	FN
Actual Negative	FP	TN

Confusion Matrix থেকে প্রাপ্ত কিছু পরিমাপক:

Accuracy:
$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
Precision:
$Precision = \frac{TP}{TP + FP}$
Recall (Sensitivity):
$Recall = \frac{TP}{TP + FN}$
F1 Score:
$F1 Score = 2 \times \frac{Precision \times Recall}{Precision + Recall}$

২. ROC Curve (Receiver Operating Characteristic Curve)

ROC Curve হল একটি গ্রাফ যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স প্রদর্শন করে, যেখানে True Positive Rate (TPR) এবং False Positive Rate (FPR) এর মধ্যে সম্পর্ক দেখানো হয়।

True Positive Rate (TPR) (বা Recall):
$TPR = \frac{TP}{TP + FN}$
False Positive Rate (FPR):
$FPR = \frac{FP}{FP + TN}$

ROC Curve সাধারণত X-অক্ষের উপর False Positive Rate (FPR) এবং Y-অক্ষের উপর True Positive Rate (TPR) স্থাপন করে। মডেলের পারফরম্যান্সের মানদণ্ড হল:

যদি মডেলটি পুরোপুরি random হয়, তাহলে ROC Curve একটি রেখার মতো হবে, যেটি $45^\circ$ কোণে অবস্থিত।
যদি মডেলটি খুব ভালো পারফরম্যান্স দেখায়, তবে ROC Curve অনেক উঁচুতে থাকবে (TPR উচ্চ এবং FPR কম)।

ROC Curve এর সাহায্যে মডেল পারফরম্যান্স মূল্যায়ন করা হয়, যেখানে:

উচ্চ TPR এবং কম FPR সহ একটি ক্রভ মডেলটির ভালো পারফরম্যান্স নির্দেশ করে।
45 ডিগ্রি ডায়াগনাল রেখাটি র্যান্ডম মডেলকে চিহ্নিত করে।

৩. AUC (Area Under the Curve)

AUC হল ROC Curve এর নিচের এলাকা যা মডেলের পারফরম্যান্সের পরিমাপ সরবরাহ করে। AUC হল একটি একক স্কোর যা মডেলটির সামগ্রিক কার্যকারিতা নির্দেশ করে, এবং এটি 0 থেকে 1 এর মধ্যে থাকে:

AUC = 1: মডেলটি পুরোপুরি সঠিকভাবে পারফর্ম করছে (এটি perfect classifier)।
AUC = 0.5: মডেলটি র্যান্ডমভাবে পূর্বাভাস করছে।
AUC < 0.5: মডেলটি বিপরীতভাবে কাজ করছে, অর্থাৎ এটি একেবারে ভুল পূর্বাভাস দিচ্ছে।

AUC উচ্চ মান (যেমন 0.9 বা তার বেশি) থাকা একটি মডেলকে খুব ভালো বলে বিবেচনা করা হয়, কারণ এটি খুব ভালোভাবে True Positive গুলিকে সনাক্ত করতে সক্ষম এবং False Positive গুলিকে কম করে।

সারাংশ

Confusion Matrix হল ক্লাসিফিকেশন মডেলের সঠিকতা এবং ভুল সিদ্ধান্তগুলি বিশ্লেষণ করার জন্য একটি টেবিল।
ROC Curve ক্লাসিফিকেশন মডেলের True Positive Rate এবং False Positive Rate এর মধ্যে সম্পর্ক দেখায়, এবং এটি মডেলের পারফরম্যান্সের গ্রাফিকাল উপস্থাপন।
AUC (Area Under the Curve) হল ROC Curve এর নিচের এলাকা, যা মডেলের সামগ্রিক পারফরম্যান্স পরিমাপ করে এবং 0 থেকে 1 এর মধ্যে মান পায়।

এই তিনটি পদ্ধতি একত্রে ব্যবহার করে আপনি মডেলের কার্যকারিতা ভালভাবে বুঝতে এবং তুলনা করতে পারবেন।

Content added By

Azizar Rahman Aziz

Train/Test Split এবং Cross-Validation Model Performance Metrics: Accuracy, Precision, Recall, F1-Score Regression Model Evaluation (RMSE, R-squared)

Confusion Matrix, ROC Curve, এবং AUC

১. Confusion Matrix

Confusion Matrix এর প্রধান উপাদানগুলি:

Confusion Matrix থেকে প্রাপ্ত কিছু পরিমাপক:

২. ROC Curve (Receiver Operating Characteristic Curve)

ROC Curve এর সাহায্যে মডেল পারফরম্যান্স মূল্যায়ন করা হয়, যেখানে:

৩. AUC (Area Under the Curve)

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Confusion Matrix, ROC Curve, এবং AUC

১. Confusion Matrix

Confusion Matrix এর প্রধান উপাদানগুলি:

Confusion Matrix থেকে প্রাপ্ত কিছু পরিমাপক:

২. ROC Curve (Receiver Operating Characteristic Curve)

ROC Curve এর সাহায্যে মডেল পারফরম্যান্স মূল্যায়ন করা হয়, যেখানে:

৩. AUC (Area Under the Curve)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!