Decision Boundary এবং Probabilistic Prediction

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Logistic Regression

193

Decision Boundary এবং Probabilistic Prediction মেশিন লার্নিংয়ে ক্লাসিফিকেশন মডেলগুলোতে ব্যবহৃত দুটি গুরুত্বপূর্ণ ধারণা, যা মডেলগুলির আউটপুট বোঝাতে এবং তাদের প্রেডিকশন ক্ষমতা বিশ্লেষণ করতে সাহায্য করে। এই দুটি ধারণার ভূমিকা এবং কার্যকারিতা বিশদভাবে নিচে ব্যাখ্যা করা হলো।

1. Decision Boundary (ডিসিশন বাউন্ডারি)

Decision Boundary হলো সেই রেখা (বা হাইপারপ্লেন) যা ক্লাসিফিকেশন মডেল দুটি বা তার বেশি শ্রেণীর মধ্যে পার্থক্য তৈরি করে। এটি মডেলের দ্বারা তৈরি করা একটি সীমানা যা ইনপুট স্পেসে নির্ধারণ করে যে কোন ইনপুট কোন শ্রেণীতে পড়বে।

ব্যাখ্যা:

ডিসিশন বাউন্ডারি দুটি শ্রেণী (যেমন, "স্প্যাম" এবং "নন-স্প্যাম") বা আরও বেশি শ্রেণীকে পৃথক করে। এই বাউন্ডারি নির্ধারণ করে, যদি কোন ইনপুট পয়েন্ট একটি নির্দিষ্ট শ্রেণীতে পড়বে, তাহলে সেটি Decision Boundary এর এক পাশে থাকবে, এবং অন্য শ্রেণীতে পড়বে, তাহলে সেটি অন্য পাশে থাকবে।
বাউন্ডারি নির্ধারণ:
ক্লাসিফিকেশন মডেলগুলি (যেমন লজিস্টিক রিগ্রেশন, SVM, KNN) প্রেডিকশন করার সময়, একটি ডেটা পয়েন্ট কোন শ্রেণীতে পড়বে তা চিহ্নিত করতে Decision Boundary ব্যবহার করে। এই বাউন্ডারিটি সাধারণত ইনপুট ফিচারের উপর নির্ভর করে এবং এটি হাইপারপ্লেন হিসেবে দেখানো হয়।

উদাহরণ:

ধরা যাক, একটি ক্লাসিফিকেশন মডেল দুটি শ্রেণী "অ্যাপল" এবং "কমলা" চিহ্নিত করতে চেষ্টা করছে। যদি ফিচার 1 (যেমন, আয়তন) এবং ফিচার 2 (যেমন, রঙ) এর উপর ভিত্তি করে মডেলটি সিদ্ধান্ত নেয়, তবে একটি Decision Boundary হবে যে এটি ফিচারগুলির একটি নির্দিষ্ট সীমাতে অ্যাপল এবং কমলা আলাদা করবে।

যদি আমরা একটি 2D প্লটে ফলাফল দেখাই, যেখানে এক্স-অক্ষের উপর "আয়তন" এবং ওয়াই-অক্ষের উপর "রঙ" থাকে, তাহলে Decision Boundary একটি রেখা বা আয়তন-পৃষ্ঠ হিসেবে দেখা যাবে, যেখানে একপাশে "অ্যাপল" এবং অন্যপাশে "কমলা" থাকবে।

Decision Boundary উদাহরণ:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression

# ডেটাসেট তৈরি
X, y = datasets.make_classification(n_samples=100, n_features=2, random_state=42)

# মডেল ট্রেনিং
model = LogisticRegression()
model.fit(X, y)

# Decision Boundary প্লট
xx, yy = np.meshgrid(np.arange(X[:, 0].min(), X[:, 0].max(), 0.1),
                     np.arange(X[:, 1].min(), X[:, 1].max(), 0.1))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
plt.show()

এই কোডে, Decision Boundary এর মাধ্যমে ডেটার মধ্যে স্পষ্ট সীমানা তৈরি করা হয় যেখানে দুটি শ্রেণী আলাদা হয়।

2. Probabilistic Prediction (প্রোবাবিলিস্টিক প্রেডিকশন)

Probabilistic Prediction হল একটি মডেল যা কেবল একটি শ্রেণী নির্ধারণ না করে, বরং প্রতিটি শ্রেণী হওয়ার সম্ভাবনা (probability) প্রদান করে। এর মাধ্যমে মডেলটি একটি নির্দিষ্ট ইনপুট পয়েন্টের জন্য যে শ্রেণীটি সবচেয়ে সম্ভাব্য, তা নয় বরং সম্ভাব্য সকল শ্রেণীর জন্য প্রেডিকশন দেয়।

ব্যাখ্যা:

লজিস্টিক রিগ্রেশন এবং Naive Bayes এর মতো মডেলগুলি প্রোবাবিলিস্টিক ক্লাসিফিকেশন প্রদান করে। এই মডেলগুলির মাধ্যমে, আপনি জানতে পারবেন একটি ডেটা পয়েন্টের কোন শ্রেণী হওয়ার সম্ভাবনা কত শতাংশ।
মডেল আউটপুট হিসেবে 0 থেকে 1 এর মধ্যে একটি সংখ্যা প্রদান করে, যা সেই শ্রেণীর হওয়ার সম্ভাবনা নির্দেশ করে।

উদাহরণ:

ধরা যাক, একটি মডেল একটি ইমেইল ক্লাসিফাই করতে চায় এবং ইমেইলটি স্প্যাম হতে পারে অথবা নন-স্প্যাম হতে পারে। মডেলটি বলে দিতে পারে:

Prob(স্প্যাম) = 0.85 (যেমন, 85% সম্ভাবনা স্প্যাম)
Prob(নন-স্প্যাম) = 0.15 (যেমন, 15% সম্ভাবনা নন-স্প্যাম)

এই আউটপুটের মাধ্যমে মডেলটি শুধু "স্প্যাম" বা "নন-স্প্যাম" সিদ্ধান্ত না নিয়ে, প্রতিটি শ্রেণীর সম্ভাবনা সম্পর্কে তথ্য দেয়।

Probabilistic Prediction উদাহরণ:

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# ডেটাসেট তৈরি
X, y = make_classification(n_samples=100, n_features=2, random_state=42)

# মডেল ট্রেনিং
model = LogisticRegression()
model.fit(X, y)

# প্রোবাবিলিস্টিক প্রেডিকশন
probabilities = model.predict_proba(X[:5])
print(probabilities)

এই কোডে, predict_proba() ফাংশনটি ইনপুট ডেটার জন্য প্রোবাবিলিস্টিক প্রেডিকশন প্রদান করে, যা প্রতিটি শ্রেণীর সম্ভাবনা বলে।