Confusion Matrix এবং Classification Report

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Model Evaluation এবং Validation Techniques
245

Confusion Matrix এবং Classification Report হল দুটি গুরুত্বপূর্ণ মেট্রিক্স যা মেশিন লার্নিং ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। এই দুটি টুল ডেটার প্রকৃত এবং পূর্বাভাসকৃত শ্রেণি সম্পর্কে বিশদ তথ্য প্রদান করে, যা মডেলের কার্যকারিতা বিশ্লেষণ করতে সাহায্য করে।


Confusion Matrix (কনফিউশন ম্যাট্রিক্স)

Confusion Matrix একটি টেবিলের মতো কাঠামো, যা মডেলের ক্লাসিফিকেশন ফলাফলকে দেখায় এবং বিভিন্ন শ্রেণীর জন্য সঠিক এবং ভুল পূর্বাভাসের সংখ্যা প্রদান করে। এটি ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করার জন্য অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি আপনার মডেল কতটা ভালোভাবে বিভিন্ন শ্রেণীকে আলাদা করতে পারছে তা সঠিকভাবে দেখাতে সাহায্য করে।

Confusion Matrix এর উপাদান:

  • True Positives (TP):
    সঠিকভাবে পজিটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল সঠিকভাবে পজিটিভ শ্রেণী চিহ্নিত করেছে।
  • True Negatives (TN):
    সঠিকভাবে নেগেটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল সঠিকভাবে নেগেটিভ শ্রেণী চিহ্নিত করেছে।
  • False Positives (FP):
    ভুলভাবে পজিটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল নেগেটিভ শ্রেণীকে পজিটিভ হিসেবে চিহ্নিত করেছে। এটি Type I error বা false alarm হিসেবেও পরিচিত।
  • False Negatives (FN):
    ভুলভাবে নেগেটিভ শ্রেণীর পূর্বাভাস করা। অর্থাৎ, মডেল পজিটিভ শ্রেণীকে নেগেটিভ হিসেবে চিহ্নিত করেছে। এটি Type II error হিসেবেও পরিচিত।

Confusion Matrix এর গঠন:

[TPFPFNTN]\begin{bmatrix} \text{TP} & \text{FP} \\ \text{FN} & \text{TN} \end{bmatrix}

Confusion Matrix উদাহরণ:

ধরা যাক, আপনার একটি মডেল দুটি শ্রেণি (পজিটিভ এবং নেগেটিভ) চিহ্নিত করছে এবং আপনার ১০০টি পরীক্ষা করা ডেটা পয়েন্ট রয়েছে।

Actual\PredictedPositiveNegative
Positive5010
Negative535

এখানে:

  • True Positives (TP) = 50
  • True Negatives (TN) = 35
  • False Positives (FP) = 10
  • False Negatives (FN) = 5

Classification Report (ক্লাসিফিকেশন রিপোর্ট)

Classification Report হল একটি বিশ্লেষণী রিপোর্ট যা মডেলের Precision, Recall, F1-Score, এবং Support এর মতো মেট্রিক্স প্রদান করে। এটি বিভিন্ন শ্রেণীর জন্য এই পরিসংখ্যানগুলি গণনা করে এবং একটি বিস্তারিত প্রতিবেদন তৈরি করে, যা মডেলের পারফরম্যান্স সম্পর্কে গভীর তথ্য প্রদান করে।

Classification Report এর মেট্রিক্স:

  1. Precision (প্রিসিশন):

    • Precision হলো সঠিকভাবে পজিটিভ পূর্বাভাসের অনুপাত।

    Precision=TPTP+FP\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}

    এটি বলে, পজিটিভ পূর্বাভাসের মধ্যে কতটি সঠিক ছিল।

  2. Recall (রিকল):

    • Recall হলো সঠিকভাবে শনাক্ত করা পজিটিভ ডেটার অনুপাত।

    Recall=TPTP+FN\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}

    এটি বলে, মোট পজিটিভ ডেটার মধ্যে কতটি সঠিকভাবে চিহ্নিত করা হয়েছে।

  3. F1-Score (এফ১ স্কোর):

    • F1-Score হলো Precision এবং Recall এর গাণিতিক গড়, যা তাদের মধ্যে ভারসাম্য তৈরি করে।

    F1-Score=2×Precision×RecallPrecision+Recall\text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}

    এটি Precision এবং Recall এর মধ্যে একটি ভারসাম্য তৈরি করে এবং তাদের মধ্যে সমতা থাকা নিশ্চিত করে।

  4. Support (সাপোর্ট):
    • Support হলো প্রতিটি শ্রেণীর জন্য প্রকৃত ডেটা পয়েন্টের সংখ্যা। এটি মডেলের প্রতি শ্রেণীর মধ্যে কতটা সঠিক পূর্বাভাস দিয়েছে তা বোঝাতে সাহায্য করে।

Classification Report উদাহরণ:

একটি ক্লাসিফিকেশন রিপোর্ট দেখতে কিছুটা এইরকম হতে পারে:

ClassPrecisionRecallF1-ScoreSupport
Positive0.910.830.8760
Negative0.780.880.8240
Accuracy 0.85100
Macro Avg0.850.860.84
Weighted Avg0.860.850.85

এখানে:

  • Precision: Positive ক্লাসের জন্য 0.91 এবং Negative ক্লাসের জন্য 0.78।
  • Recall: Positive ক্লাসের জন্য 0.83 এবং Negative ক্লাসের জন্য 0.88।
  • F1-Score: Positive ক্লাসের জন্য 0.87 এবং Negative ক্লাসের জন্য 0.82।
  • Support: Positive ক্লাসে 60টি এবং Negative ক্লাসে 40টি ডেটা পয়েন্ট।

Confusion Matrix এবং Classification Report এর পার্থক্য

বৈশিষ্ট্যConfusion MatrixClassification Report
বর্ণনামডেলের সঠিক এবং ভুল পূর্বাভাসের সংখ্যা দেখায়মডেলের Precision, Recall, F1-Score, Support দেখায়
ফোকাসশ্রেণি বিভাজন এবং মডেলের সঠিকতা/ভুলতাবিভিন্ন শ্রেণীর মেট্রিক্স (Precision, Recall, F1)
আবশ্যকতামডেলের পারফরম্যান্স বিশ্লেষণে ব্যবহৃত হয়শ্রেণীভিত্তিক বিস্তারিত বিশ্লেষণে ব্যবহৃত হয়

সারাংশ

  • Confusion Matrix হলো একটি সারণী যা সঠিক এবং ভুল শ্রেণীভিত্তিক পূর্বাভাসের সংখ্যা দেখায় এবং মডেলের পারফরম্যান্স বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।
  • Classification Report মডেলের Precision, Recall, F1-Score, এবং Support এর মাধ্যমে শ্রেণীভিত্তিক বিশদ তথ্য প্রদান করে, যা মডেলের পারফরম্যান্স আরও বিস্তারিতভাবে বুঝতে সাহায্য করে।
Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...