Supervised Learning

Machine Learning - পাইব্রেইন (PyBrain)

186

Supervised Learning মেশিন লার্নিং এর একটি জনপ্রিয় শাখা, যেখানে মডেলকে লেবেলড ডেটা প্রদান করা হয়, অর্থাৎ ডেটার সাথে তার সঠিক আউটপুট জানানো হয়। এই লেবেলড ডেটা ব্যবহার করে মডেল শেখে এবং নতুন, অজানা ডেটা থেকে সঠিক আউটপুট প্রেডিক্ট করার ক্ষমতা অর্জন করে।

Supervised Learning এর কাজের পদ্ধতি:

ডেটা প্রস্তুতি: সুপারভাইজড লার্নিংয়ে, একটি ট্রেনিং সেট প্রয়োজন যা লেবেলড ডেটা থেকে তৈরি। প্রতিটি ডেটা পয়েন্টের সাথে একটি আউটপুট (লেবেল) থাকে।
মডেল প্রশিক্ষণ: এই লেবেলড ডেটা মডেলকে শেখানোর জন্য ব্যবহার করা হয়। মডেল শিখে কিভাবে ইনপুটের সাথে আউটপুট সম্পর্কিত হয়।
প্রেডিকশন: ট্রেনিং শেষ হওয়ার পর, মডেল নতুন অজানা ইনপুটের জন্য আউটপুট প্রেডিক্ট করতে সক্ষম হয়।
ফিডব্যাক এবং আপডেট: মডেল আউটপুট প্রেডিক্ট করার পর, সঠিক আউটপুটের সাথে তুলনা করা হয় এবং যদি প্রেডিকশন ভুল হয়, মডেল আপডেট করা হয়। এভাবে মডেল তার ভুল শিখে এবং উন্নত হয়।

Supervised Learning এর প্রকারভেদ

Classification:
- Classification একটি প্রক্রিয়া যেখানে আউটপুট ভেরিয়েবল ক্যাটেগরিকাল বা ডিসক্রিট মানের (যেমন: "True" বা "False", "Yes" বা "No") হয়ে থাকে।
- উদাহরণস্বরূপ:
  - ইমেল স্প্যাম বা নন-স্প্যাম ক্লাসিফিকেশন
  - রোগ নির্ণয় (যেমন: ক্যান্সার আছে বা নেই)
  - পত্রিকা বা নিউজ ক্লাসিফিকেশন
উদাহরণ:
যদি আপনার কাছে একটি ডেটাসেট থাকে যেখানে ইনপুট হিসেবে বিভিন্ন বৈশিষ্ট্য (যেমন: বয়স, লিঙ্গ, রক্তচাপ) দেওয়া আছে এবং আউটপুট (লেবেল) হিসেবে রোগের অবস্থার উল্লেখ রয়েছে ("Healthy" বা "Sick"), তবে এটি একটি বাইনারি ক্লাসিফিকেশন সমস্যা।
Regression:
- Regression সমস্যায় আউটপুট ভেরিয়েবল কন্টিনিউয়াস (অবিরাম) মানের হয়ে থাকে।
- উদাহরণস্বরূপ:
  - বাড়ির দাম পূর্বাভাস
  - স্টক মার্কেট প্রেডিকশন
  - তাপমাত্রা পূর্বাভাস
উদাহরণ:
যদি আপনার কাছে একটি ডেটাসেট থাকে যেখানে ইনপুট হিসেবে বিভিন্ন বৈশিষ্ট্য (যেমন: ঘরটির আকার, অবস্থান) দেওয়া থাকে এবং আউটপুট (লেবেল) হিসেবে বাড়ির মূল্য দেওয়া থাকে, তবে এটি একটি রিগ্রেশন সমস্যা।

Supervised Learning মডেল উদাহরণ

Linear Regression:
- রিগ্রেশন সমস্যা সমাধানে ব্যবহৃত একটি সহজ মডেল। এটি একটি সরল রেখা আঁকে যা ডেটার সাথে সবচেয়ে ভালো ফিট হয়।
- উদাহরণ: বাড়ির দাম পূর্বাভাস।
Logistic Regression:
- এটি একটি ক্লাসিফিকেশন মডেল, যেখানে আউটপুট ভেরিয়েবল বাইনারি (যেমন: 0 অথবা 1) হয়।
- উদাহরণ: স্প্যাম ইমেল চিহ্নিতকরণ।
Decision Trees:
- এটি একটি ক্লাসিফিকেশন এবং রিগ্রেশন মডেল যা গাছের মত দেখতে একটি কাঠামো তৈরি করে।
- উদাহরণ: রোগ নির্ণয় বা ক্লাসিফিকেশন।
Support Vector Machines (SVM):
- এটি একটি শক্তিশালী ক্লাসিফিকেশন মডেল যা ডেটার মধ্যে সবচেয়ে ভালো সীমানা (decision boundary) নির্ধারণ করে।
- উদাহরণ: চেহারা সনাক্তকরণ।
k-Nearest Neighbors (k-NN):
- এটি একটি ক্লাসিফিকেশন মডেল যেখানে প্রতিটি পয়েন্ট তার কাছের কটি প্রতিবেশী থেকে আউটপুট নিয়ে আসে।
- উদাহরণ: ইমেজ বা পাঠ্য ক্লাসিফিকেশন।
Neural Networks:
- নিউরাল নেটওয়ার্ক একটি শক্তিশালী মডেল, যা সাধারণত বড় ডেটাসেটের জন্য ব্যবহৃত হয় এবং লুকানো প্যাটার্ন শিখতে সক্ষম।
- উদাহরণ: হাতের লেখা সনাক্তকরণ বা স্লোগান ক্লাসিফিকেশন।

Supervised Learning এর সুবিধা এবং অসুবিধা

সুবিধা:

সহজ এবং সোজা: লেবেলড ডেটা সহজেই ব্যবহৃত হয় এবং এটি নির্দিষ্ট আউটপুট তৈরি করতে সাহায্য করে।
প্রেডিকশন ক্ষমতা: মডেল শিখে এবং পরবর্তীতে নতুন ডেটা থেকে সঠিক ফলাফল প্রেডিক্ট করতে সক্ষম হয়।
প্রমাণিত ফলাফল: বিভিন্ন ক্ষেত্রের সমস্যা সমাধানে সফলভাবে ব্যবহৃত হয়।

অসুবিধা:

লেবেলড ডেটার প্রয়োজন: সুপারভাইজড লার্নিংয়ে লেবেলড ডেটা প্রয়োজন, যা পাওয়া সবসময় সহজ নয় এবং অনেক সময় খরচসাপেক্ষ।
ওভারফিটিং: যদি মডেল ট্রেনিং ডেটার সাথে অতিরিক্ত ফিট হয়, তবে এটি নতুন ডেটার জন্য সঠিক কাজ নাও করতে পারে।
কমপ্লেক্সিটির সীমাবদ্ধতা: সুপারভাইজড লার্নিং মডেল মাঝে মাঝে কমপ্লেক্স ডেটা শিখতে সক্ষম হয় না।

সারাংশ:

Supervised Learning হল একটি মেশিন লার্নিং কৌশল যা লেবেলড ডেটার মাধ্যমে শেখে এবং নতুন, অজানা ডেটার জন্য সঠিক আউটপুট প্রেডিক্ট করতে পারে। এটি দুটি প্রধান প্রকারে বিভক্ত: Classification এবং Regression। এটি ডেটা সায়েন্স, অর্থনীতি, স্বাস্থ্যসেবা, রোবটিক্স এবং আরও অনেক ক্ষেত্রে ব্যবহৃত হয়।

Content added By

Md Azizur Rahman

Supervised Learning এর ধারণা

157

Supervised Learning (সুপারভাইজড লার্নিং) হল মেশিন লার্নিং এর একটি পদ্ধতি, যেখানে একটি মডেলকে ইনপুট এবং আউটপুট ডেটা দেওয়া হয় এবং মডেলটি আউটপুট (লেবেল) অনুমান করতে শিখে। এখানে, ডেটাসেটে প্রতিটি ইনপুটের সাথে সংশ্লিষ্ট সঠিক আউটপুট (লেবেল) দেওয়া থাকে। সুপারভাইজড লার্নিং এর মূল উদ্দেশ্য হল মডেলকে সঠিকভাবে প্রশিক্ষণ দেওয়া, যাতে এটি নতুন অজানা ডেটার জন্য সঠিক আউটপুট তৈরি করতে পারে।

Supervised Learning এর প্রক্রিয়া:

ডেটা সংগ্রহ: প্রথমে ইনপুট (ফিচার) এবং আউটপুট (লেবেল) ডেটা সংগ্রহ করতে হয়। উদাহরণস্বরূপ, যদি একটি মডেলকে চিত্র শনাক্ত করতে শিখানো হয়, তবে চিত্র (ইনপুট) এবং তার সম্পর্কিত লেবেল (যেমন, 'কুকুর' বা 'বিড়াল') সংগ্রহ করতে হবে।
ট্রেনিং ডেটা ব্যবহার করা: ডেটাসেটের প্রতিটি ইনপুট এবং তার সংশ্লিষ্ট আউটপুট নিয়ে মডেল ট্রেনিং করা হয়। মডেল ইনপুট থেকে আউটপুট সম্পর্ক শিখে, এবং আউটপুট অনুমান করার জন্য প্যাটার্নগুলো চিহ্নিত করে।
মডেল প্রশিক্ষণ: মডেলটি একটি অ্যালগরিদম (যেমন লিনিয়ার রিগ্রেশন, কৃত্তিম নিউরাল নেটওয়ার্ক, ডেসিশন ট্রি) ব্যবহার করে ইনপুট-আউটপুট সম্পর্ক শিখে।
মডেল পরীক্ষা (Testing): মডেল ট্রেনিংয়ের পর, নতুন, অদেখা ডেটা দিয়ে মডেলের পারফরম্যান্স পরীক্ষা করা হয়। মডেলটি তখন অনুমান করে এবং আমরা তার ভুল বা সঠিকতা যাচাই করি।

Supervised Learning এর বৈশিষ্ট্য:

লেবেলড ডেটা: সুপারভাইজড লার্নিং-এর একটি মৌলিক বৈশিষ্ট্য হল যে এখানে ডেটা লেবেলড থাকে। অর্থাৎ, প্রতিটি ইনপুটের জন্য সঠিক আউটপুট (লেবেল) জানা থাকে। উদাহরণস্বরূপ, একটি ডেটাসেটে প্রতিটি ছবির সাথে একটি লেবেল (যেমন, 'বিড়াল', 'কুকুর') থাকে।
মডেল ট্রেনিং: মডেলটি লেবেলড ডেটা ব্যবহার করে শিখে, এবং আউটপুট অনুমান করতে সক্ষম হয়। মডেলকে শেখানোর জন্য ব্যাকপ্রপাগেশন বা অন্যান্য অপটিমাইজেশন টেকনিক ব্যবহার করা হতে পারে।
নির্দিষ্ট লক্ষ্য: সুপারভাইজড লার্নিং এর লক্ষ্য থাকে একটি নির্দিষ্ট আউটপুট তৈরি করা, যেমন ক্লাসিফিকেশন (কোন একটি শ্রেণী বা ক্লাসে ডেটা অ্যাসাইন করা) অথবা রিগ্রেশন (একটি সংখ্যা বা মান অনুমান করা)।

Supervised Learning এর দুইটি প্রধান ক্যাটেগরি:

ক্লাসিফিকেশন (Classification): এখানে আউটপুট ডেটা ডিসক্রিট (discrete) বা ক্যাটেগরিকাল থাকে। উদাহরণস্বরূপ, ইমেজ ক্লাসিফিকেশন, ইমেইল স্প্যাম ক্লাসিফিকেশন, বা রোগ শনাক্তকরণ।
- উদাহরণ: একটি মডেলকে শেখানো হচ্ছে, যদি একটি ছবিতে কুকুর বা বিড়াল থাকে, তাহলে আউটপুট হবে ‘কুকুর’ অথবা ‘বিড়াল’।
- অ্যালগরিদম: Logistic Regression, K-Nearest Neighbors (KNN), Naive Bayes, Decision Trees ইত্যাদি।
রিগ্রেশন (Regression): এখানে আউটপুট ডেটা কন্টিনিউয়াস (continuous) বা সংখ্যামূলক থাকে। উদাহরণস্বরূপ, বাড়ির দাম অনুমান করা, ভবিষ্যতের তাপমাত্রা পূর্বাভাস করা ইত্যাদি।
- উদাহরণ: একটি মডেলকে শেখানো হচ্ছে, যদি বাড়ির আয়তন 2000 বর্গফুট হয়, তাহলে তার দাম অনুমান করুন।
- অ্যালগরিদম: Linear Regression, Support Vector Regression (SVR), Decision Trees ইত্যাদি।

Supervised Learning এর উদাহরণ:

ইমেজ ক্লাসিফিকেশন: একটি মডেলকে ট্রেনিং ডেটা দিয়ে শেখানো হচ্ছে যাতে এটি ছবির মধ্যে কুকুর বা বিড়াল সনাক্ত করতে পারে। এখানে ইনপুট হবে ছবির পিক্সেল ডেটা এবং আউটপুট হবে কুকুর বা বিড়াল।
স্প্যাম ফিল্টার: একটি মডেলকে ইমেইল ডেটা দিয়ে শেখানো হচ্ছে যাতে এটি একটি ইমেইল স্প্যাম নাকি নন-স্প্যাম তা সনাক্ত করতে পারে। ইনপুট হবে ইমেইলের বিষয়বস্তু এবং আউটপুট হবে ‘স্প্যাম’ বা ‘নন-স্প্যাম’।
বিক্রয় পূর্বাভাস: একটি মডেলকে বিভিন্ন ফিচার (যেমন, আবহাওয়া, সপ্তাহের দিন, মাস) দিয়ে শেখানো হচ্ছে যাতে এটি পূর্বাভাস দিতে পারে যে একটি নির্দিষ্ট দিনে কতগুলো পণ্য বিক্রি হবে।

সারাংশ

Supervised Learning এমন একটি মেশিন লার্নিং পদ্ধতি যেখানে ইনপুট ডেটার সাথে সংশ্লিষ্ট আউটপুট (লেবেল) জানা থাকে এবং মডেলকে আউটপুট অনুমান করতে শেখানো হয়। এটি দুটি প্রধান ক্যাটেগরিতে ভাগ করা যায়: ক্লাসিফিকেশন এবং রিগ্রেশন। সুপারভাইজড লার্নিং এর মাধ্যমে মডেল প্রশিক্ষণ লাভ করে এবং ভবিষ্যতে অজানা ডেটার জন্য সঠিক ফলাফল দিতে সক্ষম হয়।

Content added By

Md Azizur Rahman

Classification এবং Regression প্রজেক্ট উদাহরণ

117

Classification এবং Regression হল মেশিন লার্নিংয়ের দুটি প্রধান ধরনের সমস্যা। Classification মূলত একটি নির্দিষ্ট শ্রেণীতে ডেটাকে ভাগ করার জন্য ব্যবহৃত হয়, যেখানে আউটপুটটি ক্যাটেগরিকাল হয়। অন্যদিকে, Regression একটি ধারাবাহিক আউটপুট মান প্রেডিক্ট করার জন্য ব্যবহৃত হয়। এখানে দুটি প্রজেক্ট উদাহরণ দেওয়া হলো — একটি Classification প্রজেক্ট এবং একটি Regression প্রজেক্ট।

১. Classification প্রজেক্ট উদাহরণ: Iris Dataset Classification

Problem: Iris dataset ব্যবহার করে বিভিন্ন প্রকারের ফুল (Iris-setosa, Iris-versicolor, Iris-virginica) ক্লাসিফাই করা।

Step-by-Step উদাহরণ:

Dataset: Iris dataset হল একটি জনপ্রিয় মেশিন লার্নিং ডেটাসেট, যার মধ্যে ৪টি ফিচার (সেপাল লেন্থ, সেপাল উইডথ, পেটাল লেন্থ, পেটাল উইডথ) এবং ৩টি ক্লাস রয়েছে।
Objective: ফুলের প্রকার নির্ধারণ করা (Classification) based on the given features.

কোড উদাহরণ:

# প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Iris ডেটাসেট লোড করা
iris = load_iris()
X = iris.data
y = iris.target

# ডেটাসেটকে ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# ডেটা স্ট্যান্ডারাইজেশন (Standardization)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# মডেল তৈরি করা (Random Forest Classifier)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# টেস্ট সেটের উপর প্রেডিকশন করা
y_pred = model.predict(X_test)

# Accuracy মাপা
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

বিশ্লেষণ:

Dataset: Iris dataset ব্যবহার করা হয়েছে।
Model: Random Forest Classifier ব্যবহার করা হয়েছে, যা একটি শক্তিশালী ensemble method।
Performance Metric: Accuracy ব্যবহার করা হয়েছে, কারণ এটি একটি classification task।

এই প্রজেক্টে, আপনি দেখবেন কীভাবে একটি মডেলকে ট্রেন করা হয় এবং তার পরবর্তী পারফরম্যান্স যাচাই করা হয়। এই মডেলটি ফুলের ধরন নির্ধারণ করতে সক্ষম হবে।

২. Regression প্রজেক্ট উদাহরণ: Boston Housing Price Prediction

Problem: Boston Housing dataset ব্যবহার করে বাড়ির মূল্য প্রেডিক্ট করা।

Step-by-Step উদাহরণ:

Dataset: Boston Housing dataset ডেটা পয়েন্টের মধ্যে ১৩টি ভিন্ন ভিন্ন ফিচার রয়েছে (যেমন, অপরিচিততা, সেন্ট্রাল স্কুলের রেট, অপরাধের হার ইত্যাদি), এবং আউটপুটটি বাড়ির মূল্য (ধারণাগত মান)।
Objective: বিভিন্ন বৈশিষ্ট্য ব্যবহার করে বাড়ির মূল্য প্রেডিক্ট করা (Regression)।

কোড উদাহরণ:

# প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Boston Housing ডেটাসেট লোড করা
boston = load_boston()
X = boston.data
y = boston.target

# ডেটাসেটকে ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# মডেল তৈরি করা (Linear Regression)
model = LinearRegression()
model.fit(X_train, y_train)

# টেস্ট সেটের উপর প্রেডিকশন করা
y_pred = model.predict(X_test)

# Performance metrics গণনা করা
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"R^2 Score: {r2:.2f}")

বিশ্লেষণ:

Dataset: Boston Housing dataset ব্যবহৃত হয়েছে, যেখানে প্রতিটি রেকর্ডে বাড়ির বৈশিষ্ট্য রয়েছে এবং আউটপুট হল বাড়ির মূল্য।
Model: Linear Regression ব্যবহার করা হয়েছে, যা regression problems এর জন্য প্রচলিত।
Performance Metrics: MSE (Mean Squared Error) এবং R² score ব্যবহার করা হয়েছে।

এই প্রজেক্টে, Linear Regression ব্যবহার করে বাড়ির মূল্য প্রেডিক্ট করার জন্য একটি মডেল তৈরি করা হয়েছে এবং তার পারফরম্যান্স মূল্যায়ন করা হয়েছে।

সারাংশ

Classification প্রজেক্টের উদাহরণে Iris dataset ব্যবহার করে ফুলের প্রকারভেদ শনাক্ত করা হয়েছে। এখানে আউটপুট ক্যাটেগোরিকাল (তিনটি ফুলের ধরন)।
Regression প্রজেক্টের উদাহরণে Boston Housing dataset ব্যবহার করে বাড়ির মূল্য প্রেডিক্ট করা হয়েছে। এখানে আউটপুট ধারাবাহিক (মূল্য)।

এই প্রজেক্টগুলো সাধারণত মেশিন লার্নিং শিখতে ব্যবহৃত হয় এবং ডেটা হ্যান্ডলিং, মডেল ট্রেনিং, এবং মেট্রিক্সের মাধ্যমে পারফরম্যান্স যাচাই করার মৌলিক ধারণা দেয়।

Content added By

Md Azizur Rahman

PyBrain দিয়ে Supervised Learning মডেল তৈরি

118

Supervised Learning মডেল তৈরি করার জন্য PyBrain একটি খুবই শক্তিশালী লাইব্রেরি। এই প্রক্রিয়ায়, আপনি ডেটাকে ইনপুট এবং আউটপুট পেয়ার হিসেবে ব্যবহার করে মডেল ট্রেনিং করতে পারবেন। PyBrain এর মাধ্যমে আপনি বিভিন্ন supervised learning অ্যালগরিদম ব্যবহার করতে পারেন, যেমন classification এবং regression। এখানে classification মডেলের উদাহরণ দেওয়া হবে, যা backpropagation অ্যালগরিদম ব্যবহার করে ট্রেনিং করা হবে।

১. Supervised Learning Overview

Supervised Learning হল একটি মেশিন লার্নিং প্রক্রিয়া যেখানে মডেল ইনপুট-আউটপুট পেয়ার দেখে শিখে এবং ভবিষ্যতে নতুন ইনপুটের জন্য আউটপুট অনুমান করতে সক্ষম হয়। দুটি সাধারণ ধরন হল:

Classification: আউটপুট একটি নির্দিষ্ট শ্রেণী (Class) হিসেবে থাকে।
Regression: আউটপুট একটি নিরবচ্ছিন্ন (Continuous) মান হিসেবে থাকে।

এই উদাহরণে, আমরা classification মডেল তৈরি করব।

২. PyBrain দিয়ে Classification মডেল তৈরি

২.১ ডেটা প্রস্তুতি

প্রথমে একটি সাধারণ XOR সমস্যা নিয়ে কাজ করব, যেখানে দুটি ইনপুট এবং একটি আউটপুট থাকবে। XOR এর জন্য আউটপুট হবে:

$0 <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mn>0</mn></mrow><annotation encoding="application/x-tex">0</annotation></semantics></math>$ যখন ইনপুট $(0, 0) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mn>0</mn><mo separator="true">,</mo><mn>0</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(0, 0)</annotation></semantics></math>$ অথবা $(1, 1) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo separator="true">,</mo><mn>1</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1, 1)</annotation></semantics></math>$
$1 <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mn>1</mn></mrow><annotation encoding="application/x-tex">1</annotation></semantics></math>$ যখন ইনপুট $(0, 1) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mn>0</mn><mo separator="true">,</mo><mn>1</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(0, 1)</annotation></semantics></math>$ অথবা $(1, 0) <math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo separator="true">,</mo><mn>0</mn><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1, 0)</annotation></semantics></math>$

এখানে XOR Dataset ব্যবহার করব।

২.২ PyBrain ইনস্টলেশন

PyBrain ইনস্টল করা না থাকলে প্রথমে ইনস্টল করে নিন:

pip install pybrain

২.৩ ডেটাসেট তৈরি এবং মডেল ট্রেনিং

from pybrain.datasets import ClassificationDataSet
from pybrain.tools.shortcuts import buildNetwork
from pybrain.supervised.trainers import BackpropTrainer
import numpy as np

# XOR ডেটাসেট তৈরি
ds = ClassificationDataSet(2, 1, nb_classes=2)

# XOR ইনপুট এবং আউটপুট ডেটা
input_data = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
output_data = np.array([0, 1, 1, 0])

# ডেটাসেট পূর্ণ করা
for i in range(4):
    ds.addSample(input_data[i], [output_data[i]])

# ডেটাসেট স্কেলিং (যেমন নিউরাল নেটওয়ার্কে ভালোভাবে কাজ করার জন্য)
ds._convertToOneOfMany()

# নিউরাল নেটওয়ার্ক তৈরি
network = buildNetwork(2, 3, 1)

# BackpropTrainer ব্যবহার করে ট্রেনিং করা
trainer = BackpropTrainer(network, dataset=ds)
trainer.trainEpochs(1000)

# ফলাফল দেখা
for inp, targ in zip(input_data, output_data):
    print("Input:", inp, "Predicted Output:", network.activate(inp), "True Output:", targ)

কোড ব্যাখ্যা:

ClassificationDataSet: এটি একটি ডেটাসেট তৈরি করার ক্লাস যা বিশেষভাবে ক্লাসিফিকেশন সমস্যার জন্য ব্যবহৃত হয়। এখানে 2 ইনপুট এবং 1 আউটপুট (বাইনারি ক্লাসিফিকেশন) ব্যবহার করা হয়েছে।
addSample(): ইনপুট এবং আউটপুট যুক্ত করার জন্য ব্যবহার করা হয়।
_convertToOneOfMany(): এই পদ্ধতি আউটপুট ডেটাকে one-hot এনকোডিং ফর্ম্যাটে রূপান্তরিত করে, যাতে এটি নিউরাল নেটওয়ার্কে ব্যবহার করা যায়।
buildNetwork(): এটি একটি ফিডফরওয়ার্ড নিউরাল নেটওয়ার্ক তৈরি করে, যেখানে 2 ইনপুট, 3 হিডেন লেয়ার এবং 1 আউটপুট লেয়ার থাকে।
BackpropTrainer: এই ট্রেনারটি নিউরাল নেটওয়ার্কটিকে ব্যাকপ্রোপাগেশন অ্যালগরিদম ব্যবহার করে ট্রেনিং দেয়।
trainEpochs(): মডেলটি 1000 বার ট্রেনিং হয়।

২.৪ আউটপুট পরীক্ষা করা

আপনি যখন কোডটি রান করবেন, তখন এটি ইনপুট অনুযায়ী আউটপুট প্রদর্শন করবে এবং অনুমান করা আউটপুটের সাথে সঠিক আউটপুটের তুলনা করবে।

উদাহরণ আউটপুট:

Input: [0 0] Predicted Output: [0.012] True Output: 0
Input: [0 1] Predicted Output: [0.998] True Output: 1
Input: [1 0] Predicted Output: [0.998] True Output: 1
Input: [1 1] Predicted Output: [0.011] True Output: 0

এখানে, নিউরাল নেটওয়ার্কের আউটপুট খুব কাছাকাছি সঠিক আউটপুটের সাথে মিলেছে, যা মডেল সফলভাবে ট্রেনিং করেছে।

৩. মডেল পরীক্ষা এবং ফলাফল বিশ্লেষণ

মডেলটি সফলভাবে ট্রেনিং হয়েছে কিনা তা যাচাই করার জন্য আমরা ইনপুটের সাথে আউটপুট তুলনা করেছি। এটি বাইনারি ক্লাসিফিকেশন সমস্যা (XOR গেট) হিসাবে কাজ করছে, যেখানে 0 এবং 1 আউটপুট যথাযথভাবে তৈরি হয়েছে।

সারাংশ

PyBrain ব্যবহার করে সহজেই Supervised Learning মডেল তৈরি করা সম্ভব।
Backpropagation অ্যালগরিদম ব্যবহার করে নিউরাল নেটওয়ার্ক ট্রেনিং করা হয়।
ClassificationDataSet এর মাধ্যমে ডেটা তৈরি করা হয় এবং BackpropTrainer দিয়ে মডেল ট্রেনিং করা হয়।
XOR সমস্যা সমাধান করতে আমরা PyBrain দিয়ে একটি ছোট নিউরাল নেটওয়ার্ক তৈরি করেছি এবং সঠিক আউটপুট পেতে সক্ষম হয়েছি।

PyBrain এর মাধ্যমে আপনি খুব সহজেই supervised learning মডেল তৈরি করতে পারেন এবং আপনার ডেটার উপর ভিত্তি করে মডেল ট্রেনিং এবং টেস্টিং করতে পারবেন।

Content added By

Md Azizur Rahman

মডেল পারফরম্যান্স বিশ্লেষণ

120

মডেল পারফর্মেন্স বিশ্লেষণ একটি গুরুত্বপূর্ণ পদক্ষেপ, যা নিশ্চিত করে যে আপনার মডেলটি সঠিকভাবে এবং কার্যকরভাবে কাজ করছে। মডেল পারফর্মেন্স মূল্যায়ন করার জন্য বিভিন্ন পরিমাপক (metrics) এবং কৌশল ব্যবহার করা হয়, যা মডেলটির দক্ষতা এবং সঠিকতা পরিমাপ করতে সহায়ক।

১. মডেল পারফর্মেন্স মূল্যায়নের প্রধান পদ্ধতি:

Accuracy (সঠিকতা): Accuracy হল সঠিক পূর্বাভাসের হার, অর্থাৎ মোট সঠিক পূর্বাভাসের সংখ্যা মোট পূর্বাভাসের সংখ্যা দ্বারা ভাগ করা। এটি একটি সাধারণ এবং সরল পরিমাপক।
- ফর্মুলা: $Accuracy=সঠিক পূর্বাভাসের সংখ্যামোট পূর্বাভাসের সংখ্যা<math style="font-family:Verdana" xmlns="http://www.w3.org/1998/Math/MathML"><mtext>Accuracy</mtext><mo>=</mo><mfrac><mtext>সঠিক পূর্বাভাসের সংখ্যা</mtext><mtext>মোট পূর্বাভাসের সংখ্যা</mtext></mfrac></math>$
- ব্যবহার: সাধারণত ক্লাসিফিকেশন সমস্যায় ব্যবহৃত হয়, তবে এটি সবসময় নির্ভুল নয়, বিশেষত যখন ডেটা অসমান (imbalanced) হয়।
Precision (বিশুদ্ধতা): Precision হল সেই সকল পূর্বাভাসের মধ্যে সঠিক পূর্বাভাসের হার, যেখানে মডেল একটি শ্রেণী (class) পূর্বাভাস দিয়েছে। এটি ভুল পজিটিভ (False Positive) পরিমাপ করতে সহায়তা করে।
- ফর্মুলা: $Precision=True Positives (TP)True Positives (TP) + False Positives (FP)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Precision</mtext><mo>=</mo><mfrac><mtext>True Positives (TP)</mtext><mtext>True Positives (TP) + False Positives (FP)</mtext></mfrac></mrow><annotation encoding="application/x-tex">\text{Precision} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP) + False Positives (FP)}}</annotation></semantics></math>$
- ব্যবহার: Precision গুরুত্বপূর্ণ যখন আপনি একটি শ্রেণীর সাথে সম্পর্কিত ফলাফল বিশেষভাবে গুরুত্ব সহকারে নিতে চান (যেমন, মেডিকেল ডায়াগনোসিসে ভুল পজিটিভ ভুল প্রতিকার করতে পারে)।
Recall (সংবরণ): Recall হল সেই সকল বাস্তব পজিটিভ (True Positive) নমুনার মধ্যে সঠিকভাবে চিহ্নিত করা নমুনার হার। এটি ভুল নেগেটিভ (False Negative) পরিমাপ করতে সহায়তা করে।
- ফর্মুলা: $Recall=True Positives (TP)True Positives (TP) + False Negatives (FN)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>Recall</mtext><mo>=</mo><mfrac><mtext>True Positives (TP)</mtext><mtext>True Positives (TP) + False Negatives (FN)</mtext></mfrac></mrow><annotation encoding="application/x-tex">\text{Recall} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP) + False Negatives (FN)}}</annotation></semantics></math>$
- ব্যবহার: যখন আপনি কোনো শ্রেণী বা ঘটনা সনাক্ত করতে চান এবং ভুলভাবে মিস হওয়া ঘটনার গুরুত্ব কমাতে চান।
F1 Score: F1 Score হল Precision এবং Recall এর গড় হরমনিক। এটি Precision এবং Recall উভয়ের মধ্যে একটি ভারসাম্য প্রতিষ্ঠা করে এবং মডেলটির সামগ্রিক কর্মক্ষমতা পরিমাপ করে।
- ফর্মুলা: $F1 Score=2×Precision×RecallPrecision+Recall<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>F</mi><mn>1</mn><mtext> </mtext><mtext>Score</mtext><mo>=</mo><mn>2</mn><mo>×</mo><mfrac><mrow><mtext>Precision</mtext><mo>×</mo><mtext>Recall</mtext></mrow><mrow><mtext>Precision</mtext><mo>+</mo><mtext>Recall</mtext></mrow></mfrac></mrow><annotation encoding="application/x-tex">F1 \, \text{Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}</annotation></semantics></math>$
- ব্যবহার: এটি তখন গুরুত্বপূর্ণ যখন আপনার মডেলটি একটি অসামান্য শ্রেণী বা ঘটনা সনাক্ত করার সাথে সম্পর্কিত থাকে, যেমন ইমেইল স্প্যাম ডিটেকশন, যেখানে Precision এবং Recall উভয়কেই সমান গুরুত্ব দেওয়া প্রয়োজন।
ROC Curve এবং AUC (Area Under Curve): ROC Curve (Receiver Operating Characteristic Curve) একটি গ্রাফিকাল উপস্থাপনা যা মডেলের পারফরম্যান্স পরিমাপ করে বিভিন্ন থ্রেশহোল্ড (threshold) ভ্যালুর উপর ভিত্তি করে। AUC হল এই ROC Curve এর নিচে থাকা এলাকা, যা মডেলের সঠিকতা এবং দক্ষতার সূচক।
- AUC ফর্মুলা: $AUC=∫10True Positive Rate (TPR)−False Positive Rate (FPR)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>A</mi><mi>U</mi><mi>C</mi><mo>=</mo><msubsup><mo>∫</mo><mn>0</mn><mn>1</mn></msubsup><mtext>True Positive Rate (TPR)</mtext><mo>−</mo><mtext>False Positive Rate (FPR)</mtext></mrow><annotation encoding="application/x-tex">AUC = \int_{0}^{1} \text{True Positive Rate (TPR)} - \text{False Positive Rate (FPR)}</annotation></semantics></math>$
- ব্যবহার: AUC বেশি মানে মডেলটি আরও ভালো পারফর্ম করছে। AUC = 1 হলে এটি একটি পারফেক্ট মডেল, এবং AUC = 0.5 হলে এটি এলোমেলো (random) মডেল।

২. Confusion Matrix (ত্রুটি ম্যাট্রিক্স)

Confusion Matrix হল একটি টুল যা মডেলের পারফরম্যান্স বিশ্লেষণে সাহায্য করে। এটি প্রকৃত এবং পূর্বাভাসিত ক্লাসের মধ্যে সম্পর্ক দেখায়। এটি ৪টি প্রধান উপাদান ধারণ করে:

True Positive (TP): সঠিকভাবে পূর্বাভাসিত পজিটিভ।
True Negative (TN): সঠিকভাবে পূর্বাভাসিত নেগেটিভ।
False Positive (FP): ভুলভাবে পজিটিভ পূর্বাভাস।
False Negative (FN): ভুলভাবে নেগেটিভ পূর্বাভাস।

Confusion Matrix এর মাধ্যমে আপনি বিভিন্ন পরিমাপক যেমন Precision, Recall, এবং Accuracy গণনা করতে পারেন।

৩. Cross-validation (ক্রস-ভ্যালিডেশন)

Cross-validation হল একটি প্রযুক্তি যা মডেল ট্রেনিংয়ের সময় ডেটা সেটকে বিভক্ত করে ট্রেনিং এবং টেস্ট সেট তৈরি করে। এটি মডেলের সঠিকতা পরিমাপ করার জন্য সাহায্য করে এবং ওভারফিটিং রোধ করে।

K-Fold Cross-validation: ডেটাসেট K টুকরোতে ভাগ করা হয় এবং K-1 অংশ ট্রেনিংয়ের জন্য এবং ১ অংশ টেস্টিংয়ের জন্য ব্যবহার করা হয়। এই প্রক্রিয়াটি K বার পুনরাবৃত্তি করা হয় এবং শেষে গড় ফলাফল নেয়া হয়।
Leave-One-Out Cross-Validation (LOOCV): প্রতিটি ডেটা পয়েন্ট একে একে টেস্ট হিসেবে ব্যবহার করা হয়।

৪. Mean Absolute Error (MAE) এবং Mean Squared Error (MSE)

এগুলি সাধারণত Regression Problems এর জন্য ব্যবহৃত পরিমাপক।

Mean Absolute Error (MAE): এটি পূর্বাভাস এবং প্রকৃত মানের মধ্যে গড় পার্থক্য। $MAE=1nn∑i=1∣yi−ˆyi∣<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>MAE</mtext><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi mathvariant="normal">∣</mi><msub><mi>y</mi><mi>i</mi></msub><mo>−</mo><msub><mover accent="true"><mi>y</mi><mo>^</mo></mover><mi>i</mi></msub><mi mathvariant="normal">∣</mi></mrow><annotation encoding="application/x-tex">\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|</annotation></semantics></math>$
Mean Squared Error (MSE): এটি পূর্বাভাস এবং প্রকৃত মানের মধ্যে গড় বর্গফল পার্থক্য। $MSE=1nn∑i=1(yi−ˆyi)2<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>MSE</mtext><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo stretchy="false">(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>−</mo><msub><mover accent="true"><mi>y</mi><mo>^</mo></mover><mi>i</mi></msub><msup><mo stretchy="false">)</mo><mn>2</mn></msup></mrow><annotation encoding="application/x-tex">\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2</annotation></semantics></math>$

সারাংশ

মডেল পারফর্মেন্স বিশ্লেষণ অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি মডেলের সঠিকতা এবং কার্যকারিতা পরিমাপ করে। Accuracy, Precision, Recall, F1 Score, এবং AUC এর মতো পরিমাপকগুলি ব্যবহার করে আপনি আপনার মডেলের কার্যকারিতা যাচাই করতে পারেন। এছাড়া Confusion Matrix এবং Cross-validation পদ্ধতিগুলি মডেল উন্নত করার জন্য গুরুত্বপূর্ণ টুল হিসেবে কাজ করে। Regression সমস্যায় MAE এবং MSE ব্যবহৃত হয়, যা পূর্বাভাসের গড় ত্রুটি পরিমাপ করে।

Content added By

Md Azizur Rahman

পাইব্রেইন পরিচিতি PyBrain ইনস্টলেশন এবং সেটআপ PyBrain এর বেসিক ধারণা Neural Networks এর বেসিক ধারণা Feedforward Neural Networks (FNN)

Supervised Learning

Supervised Learning এর কাজের পদ্ধতি:

Supervised Learning এর প্রকারভেদ

উদাহরণ:

উদাহরণ:

Supervised Learning মডেল উদাহরণ

Supervised Learning এর সুবিধা এবং অসুবিধা

সুবিধা:

অসুবিধা:

সারাংশ:

Supervised Learning এর ধারণা

Supervised Learning এর প্রক্রিয়া:

Supervised Learning এর বৈশিষ্ট্য:

Supervised Learning এর দুইটি প্রধান ক্যাটেগরি:

Supervised Learning এর উদাহরণ:

সারাংশ

Classification এবং Regression প্রজেক্ট উদাহরণ

১. Classification প্রজেক্ট উদাহরণ: Iris Dataset Classification

Step-by-Step উদাহরণ:

কোড উদাহরণ:

বিশ্লেষণ:

২. Regression প্রজেক্ট উদাহরণ: Boston Housing Price Prediction

Step-by-Step উদাহরণ:

কোড উদাহরণ:

বিশ্লেষণ:

সারাংশ

PyBrain দিয়ে Supervised Learning মডেল তৈরি

১. Supervised Learning Overview

২. PyBrain দিয়ে Classification মডেল তৈরি

২.১ ডেটা প্রস্তুতি

২.২ PyBrain ইনস্টলেশন

২.৩ ডেটাসেট তৈরি এবং মডেল ট্রেনিং

কোড ব্যাখ্যা:

২.৪ আউটপুট পরীক্ষা করা

৩. মডেল পরীক্ষা এবং ফলাফল বিশ্লেষণ

সারাংশ

মডেল পারফরম্যান্স বিশ্লেষণ

১. মডেল পারফর্মেন্স মূল্যায়নের প্রধান পদ্ধতি:

২. Confusion Matrix (ত্রুটি ম্যাট্রিক্স)

৩. Cross-validation (ক্রস-ভ্যালিডেশন)

৪. Mean Absolute Error (MAE) এবং Mean Squared Error (MSE)

সারাংশ

All Notifications

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Promotion