Confusion Matrix, ROC Curve, এবং AUC

মডেল টেস্টিং এবং ইভ্যালুয়েশন - এইচ২ও (H2O) - Machine Learning

393

এই তিনটি হল মেশিন লার্নিং মডেলের কার্যকারিতা বা পারফরম্যান্স মূল্যায়নের জন্য ব্যবহৃত গুরুত্বপূর্ণ পরিমাপক। এগুলি বিশেষত ক্লাসিফিকেশন মডেল এর মূল্যায়ন করতে ব্যবহৃত হয়, যেখানে আমাদের মডেলটি ক্যাটেগোরিকাল আউটপুট প্রেডিক্ট করে।


১. Confusion Matrix

Confusion Matrix হল একটি টেবিল যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স দেখায়, বিশেষত দুটি ক্লাস (positive এবং negative) এর মধ্যে সঠিক এবং ভুল পূর্বাভাসের পরিসংখ্যান সরবরাহ করে। এটি আমাদের মডেলটির ভুল পূর্বাভাস এবং সঠিক পূর্বাভাসের ধরণ জানাতে সহায়ক।

Confusion Matrix এর প্রধান উপাদানগুলি:

  1. True Positive (TP): মডেল সঠিকভাবে যে ইতিবাচক ক্লাস পূর্বাভাস করেছে।
  2. True Negative (TN): মডেল সঠিকভাবে যে নেতিবাচক ক্লাস পূর্বাভাস করেছে।
  3. False Positive (FP): মডেল ভুলভাবে যে ইতিবাচক ক্লাস পূর্বাভাস করেছে (Type I Error)।
  4. False Negative (FN): মডেল ভুলভাবে যে নেতিবাচক ক্লাস পূর্বাভাস করেছে (Type II Error).

Confusion Matrix এর একটি সাধারণ রূপ:

Predicted PositivePredicted Negative
Actual PositiveTPFN
Actual NegativeFPTN

Confusion Matrix থেকে প্রাপ্ত কিছু পরিমাপক:

  • Accuracy:

    Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP + TN}{TP + TN + FP + FN}

  • Precision:

    Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}

  • Recall (Sensitivity):

    Recall=TPTP+FNRecall = \frac{TP}{TP + FN}

  • F1 Score:

    F1Score=2×Precision×RecallPrecision+RecallF1 Score = 2 \times \frac{Precision \times Recall}{Precision + Recall}


২. ROC Curve (Receiver Operating Characteristic Curve)

ROC Curve হল একটি গ্রাফ যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স প্রদর্শন করে, যেখানে True Positive Rate (TPR) এবং False Positive Rate (FPR) এর মধ্যে সম্পর্ক দেখানো হয়।

  • True Positive Rate (TPR) (বা Recall):

    TPR=TPTP+FNTPR = \frac{TP}{TP + FN}

  • False Positive Rate (FPR):

    FPR=FPFP+TNFPR = \frac{FP}{FP + TN}

ROC Curve সাধারণত X-অক্ষের উপর False Positive Rate (FPR) এবং Y-অক্ষের উপর True Positive Rate (TPR) স্থাপন করে। মডেলের পারফরম্যান্সের মানদণ্ড হল:

  • যদি মডেলটি পুরোপুরি random হয়, তাহলে ROC Curve একটি রেখার মতো হবে, যেটি 4545^\circ কোণে অবস্থিত।
  • যদি মডেলটি খুব ভালো পারফরম্যান্স দেখায়, তবে ROC Curve অনেক উঁচুতে থাকবে (TPR উচ্চ এবং FPR কম)।

ROC Curve এর সাহায্যে মডেল পারফরম্যান্স মূল্যায়ন করা হয়, যেখানে:

  • উচ্চ TPR এবং কম FPR সহ একটি ক্রভ মডেলটির ভালো পারফরম্যান্স নির্দেশ করে।
  • 45 ডিগ্রি ডায়াগনাল রেখাটি র্যান্ডম মডেলকে চিহ্নিত করে।

৩. AUC (Area Under the Curve)

AUC হল ROC Curve এর নিচের এলাকা যা মডেলের পারফরম্যান্সের পরিমাপ সরবরাহ করে। AUC হল একটি একক স্কোর যা মডেলটির সামগ্রিক কার্যকারিতা নির্দেশ করে, এবং এটি 0 থেকে 1 এর মধ্যে থাকে:

  • AUC = 1: মডেলটি পুরোপুরি সঠিকভাবে পারফর্ম করছে (এটি perfect classifier)।
  • AUC = 0.5: মডেলটি র্যান্ডমভাবে পূর্বাভাস করছে।
  • AUC < 0.5: মডেলটি বিপরীতভাবে কাজ করছে, অর্থাৎ এটি একেবারে ভুল পূর্বাভাস দিচ্ছে।

AUC উচ্চ মান (যেমন 0.9 বা তার বেশি) থাকা একটি মডেলকে খুব ভালো বলে বিবেচনা করা হয়, কারণ এটি খুব ভালোভাবে True Positive গুলিকে সনাক্ত করতে সক্ষম এবং False Positive গুলিকে কম করে।


সারাংশ

  • Confusion Matrix হল ক্লাসিফিকেশন মডেলের সঠিকতা এবং ভুল সিদ্ধান্তগুলি বিশ্লেষণ করার জন্য একটি টেবিল।
  • ROC Curve ক্লাসিফিকেশন মডেলের True Positive Rate এবং False Positive Rate এর মধ্যে সম্পর্ক দেখায়, এবং এটি মডেলের পারফরম্যান্সের গ্রাফিকাল উপস্থাপন।
  • AUC (Area Under the Curve) হল ROC Curve এর নিচের এলাকা, যা মডেলের সামগ্রিক পারফরম্যান্স পরিমাপ করে এবং 0 থেকে 1 এর মধ্যে মান পায়।

এই তিনটি পদ্ধতি একত্রে ব্যবহার করে আপনি মডেলের কার্যকারিতা ভালভাবে বুঝতে এবং তুলনা করতে পারবেন।

Content added By
Promotion

Are you sure to start over?

Loading...