Classification এবং Clustering Techniques (ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস)

আর প্রোগ্রামিং (R Programming) - Computer Programming

313

ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস (Classification and Clustering Techniques in R)

ক্লাসিফিকেশন (Classification) এবং ক্লাস্টারিং (Clustering) হলো ডেটা সায়েন্সের দুটি গুরুত্বপূর্ণ কৌশল, যা ডেটা বিশ্লেষণ এবং মেশিন লার্নিংয়ে ব্যবহৃত হয়। R প্রোগ্রামিং ভাষায় বিভিন্ন ধরনের ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিক রয়েছে, যেগুলি ডেটাকে শ্রেণীবিভাজন বা গ্রুপিং করতে সাহায্য করে।

ক্লাসিফিকেশন (Classification)

ক্লাসিফিকেশন একটি পর্যবেক্ষণকে পূর্বনির্ধারিত শ্রেণীতে ফেলার প্রক্রিয়া। এটি সাধারণত সুপারভাইজড লার্নিং-এর অংশ এবং দ্বি-মূল্যবোধক (binary) বা বহু-মূল্যবোধক (multi-class) হতে পারে। R এ ক্লাসিফিকেশন করার জন্য বিভিন্ন অ্যালগরিদম রয়েছে যেমন K-Nearest Neighbors (KNN), Decision Trees, এবং Random Forest।

১. K-Nearest Neighbors (KNN)

KNN একটি সহজ এবং জনপ্রিয় ক্লাসিফিকেশন অ্যালগরিদম, যেখানে নির্দিষ্ট দূরত্বের ভিত্তিতে (প্রায়শই ইকলিডিয়ান) কাছের K-টি প্রতিবেশী পর্যবেক্ষণের উপর ভিত্তি করে শ্রেণী নির্ধারণ করা হয়।

# class প্যাকেজ লোড
install.packages("class")
library(class)

# ডেটা তৈরি
train_data <- data.frame(height = c(5.1, 5.5, 6.0, 5.8), weight = c(60, 70, 80, 75), label = c("A", "A", "B", "B"))
test_data <- data.frame(height = 5.7, weight = 72)

# ফিচার এবং লেবেল পৃথক করা
train_features <- train_data[, c("height", "weight")]
train_labels <- train_data$label

# KNN মডেল
knn_result <- knn(train = train_features, test = test_data, cl = train_labels, k = 3)
print(knn_result)  # ক্লাস "A" অথবা "B" হিসাবে শ্রেণীবদ্ধ করবে

২. Decision Tree (ডিসিশন ট্রি)

ডিসিশন ট্রি হল একটি শ্রেণিবদ্ধকরণ এবং পূর্বাভাস মডেল, যেখানে শর্তাবলী দ্বারা বিভাজিত করা হয়। এটি বিভিন্ন প্রশ্ন বা শর্তের মাধ্যমে শ্রেণী নির্ধারণ করে।

# rpart প্যাকেজ লোড
install.packages("rpart")
library(rpart)

# ডেটা তৈরি
data <- data.frame(age = c(25, 45, 35, 50), income = c("Low", "High", "Medium", "High"), buys = c("No", "Yes", "Yes", "No"))

# ডিসিশন ট্রি মডেল
model <- rpart(buys ~ age + income, data = data, method = "class")
print(model)

# ট্রি প্লট
plot(model)
text(model)

৩. Random Forest (র‍্যান্ডম ফরেস্ট)

Random Forest হলো অনেক ডিসিশন ট্রি-এর একটি গুচ্ছ যা সমন্বিতভাবে কাজ করে শ্রেণীবিভাজন করে। এটি সাধারণত বেশি নির্ভুল এবং overfitting এর সম্ভাবনা কম থাকে।

# randomForest প্যাকেজ লোড
install.packages("randomForest")
library(randomForest)

# ডেটা তৈরি
data <- data.frame(age = c(25, 45, 35, 50), income = c("Low", "High", "Medium", "High"), buys = c("No", "Yes", "Yes", "No"))

# Random Forest মডেল
model <- randomForest(buys ~ age + income, data = data, ntree = 100)
print(model)

ক্লাস্টারিং (Clustering)

ক্লাস্টারিং হল আনসুপারভাইজড লার্নিং কৌশল, যা পর্যবেক্ষণগুলোকে এমন গোষ্ঠীতে বিভক্ত করে, যাতে একই ক্লাস্টারের সদস্যরা একে অপরের থেকে নিকটবর্তী থাকে। R এ জনপ্রিয় ক্লাস্টারিং পদ্ধতি হলো K-means Clustering এবং Hierarchical Clustering।

১. K-means Clustering

K-means একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম, যেখানে ডেটাকে Kটি গোষ্ঠীতে ভাগ করা হয়। প্রতিটি গোষ্ঠীর জন্য একটি কেন্দ্র বিন্দু (centroid) নির্ধারণ করা হয় এবং ডেটা পয়েন্টগুলোকে তাদের নিকটস্থ কেন্দ্রে অ্যাসাইন করা হয়।

# ডেটা তৈরি
data <- data.frame(x = c(1, 2, 3, 6, 7, 8), y = c(1, 2, 3, 6, 7, 8))

# K-means Clustering
set.seed(123)
kmeans_result <- kmeans(data, centers = 2)
print(kmeans_result)

# ক্লাস্টার প্লট
plot(data, col = kmeans_result$cluster)
points(kmeans_result$centers, col = 1:2, pch = 8, cex = 2)

২. Hierarchical Clustering

Hierarchical Clustering একটি ক্রমবর্ধমান বা বিভাজনমূলক পদ্ধতি যেখানে প্রতিটি ডেটা পয়েন্ট প্রথমে আলাদা ক্লাস্টার হিসেবে শুরু করে এবং তারপরে একত্রিত হয়ে বড় গোষ্ঠীতে রূপান্তরিত হয়।

# ডেটা তৈরি
data <- data.frame(x = c(1, 2, 3, 6, 7, 8), y = c(1, 2, 3, 6, 7, 8))

# দূরত্ব ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# Hierarchical Clustering
hclust_result <- hclust(dist_matrix, method = "complete")
print(hclust_result)

# Dendrogram প্লট
plot(hclust_result, main = "Dendrogram", xlab = "Data Points", ylab = "Height")

ক্লাসিফিকেশন এবং ক্লাস্টারিং এর মধ্যে পার্থক্য

বৈশিষ্ট্য	ক্লাসিফিকেশন (Classification)	ক্লাস্টারিং (Clustering)
শিক্ষণ ধরণ	সুপারভাইজড লার্নিং	আনসুপারভাইজড লার্নিং
আউটপুট	পূর্বনির্ধারিত শ্রেণী	প্রাকৃতিক গোষ্ঠী বা ক্লাস্টার
উদাহরণ	Decision Tree, KNN, Random Forest	K-means, Hierarchical Clustering
ব্যবহার	শ্রেণিবিভাগ (যেমন মেইল স্প্যাম বা নন-স্প্যাম)	গোষ্ঠী তৈরি (যেমন কাস্টমার সেগমেন্টেশন)

সারসংক্ষেপ

R-এ ক্লাসিফিকেশন এবং ক্লাস্টারিং পদ্ধতি ডেটা বিশ্লেষণে অত্যন্ত কার্যকরী:

ক্লাসিফিকেশন: সুপারভাইজড লার্নিং পদ্ধতি যা বিভিন্ন শ্রেণীতে ডেটা ভাগ করে। R এ Decision Tree, KNN, এবং Random Forest ব্যবহার করা হয়।
ক্লাস্টারিং: আনসুপারভাইজড লার্নিং পদ্ধতি যা ডেটাকে প্রাকৃতিক গোষ্ঠীতে বিভক্ত করে। R এ K-means এবং Hierarchical Clustering জনপ্রিয়।

এই পদ্ধতিগুলি ডেটা বিশ্লেষণ, মেশিন লার্নিং এবং ডেটা সায়েন্স প্রজেক্টে বিভিন্ন প্রয়োগে ব্যবহৃত হয়।

Content added By

Azizar Rahman Aziz

Decision Trees এবং Random Forests

288

Decision Trees এবং Random Forests

Decision Trees এবং Random Forests হল জনপ্রিয় মেশিন লার্নিং অ্যালগরিদম যা শ্রেণিবিন্যাস (classification) এবং প্রক্ষেপণ (regression) উভয় কাজেই ব্যবহৃত হয়। Decision Trees ডেটাকে গাছের মতো বিভিন্ন শাখায় বিভক্ত করে সিদ্ধান্ত নেয়, যেখানে Random Forests অনেকগুলো Decision Tree একত্রে ব্যবহার করে একটি শক্তিশালী মডেল তৈরি করে।

Decision Trees

Decision Tree একটি গাছের মতো কাঠামো, যা বিভিন্ন শর্ত (conditions) ব্যবহার করে ডেটাকে একাধিক শাখায় বিভক্ত করে। প্রতিটি শাখা একটি শর্তকে প্রতিনিধিত্ব করে এবং শেষের পাতাগুলি (leaves) সিদ্ধান্ত বা আউটপুট হিসেবে কাজ করে।

Decision Tree এর মূল উপাদান:

Root Node: Decision Tree-এর প্রথম বা শুরুর নোড, যা ডেটার প্রথম বিভাজন নির্ধারণ করে।
Decision Nodes: এর পরবর্তী নোডগুলি, যেখানে বিভিন্ন শর্ত অনুযায়ী ডেটা বিভক্ত হয়।
Leaf Nodes: Decision Tree-এর শেষের নোড, যেখানে সিদ্ধান্ত বা আউটপুট প্রদান করা হয়।

R-এ Decision Tree তৈরি করা

R-এ Decision Tree তৈরি করার জন্য rpart প্যাকেজ ব্যবহার করা হয়।

# rpart প্যাকেজ ইন্সটল এবং লোড করা
install.packages("rpart")
library(rpart)

# উদাহরণ ডেটাসেট ব্যবহার করা
data(iris)

# Decision Tree মডেল তৈরি করা
tree_model <- rpart(Species ~ ., data = iris, method = "class")

# Decision Tree প্লট করা
plot(tree_model)
text(tree_model, use.n = TRUE)

এখানে rpart() ফাংশনের মাধ্যমে Decision Tree মডেল তৈরি করা হয়েছে। plot() এবং text() ফাংশন দিয়ে Decision Tree প্লট এবং লেবেল করা হয়েছে।

Random Forests

Random Forest হল Decision Trees-এর একটি ensemble মডেল, যেখানে একাধিক Decision Tree তৈরি করা হয় এবং তাদের সম্মিলিত ভবিষ্যদ্বাণী (prediction) গ্রহণ করা হয়। এটি সাধারণত Decision Trees থেকে আরও নির্ভুল এবং কার্যকরী ফলাফল প্রদান করে কারণ এটি Overfitting কমায়।

Random Forest এর মূল বৈশিষ্ট্য:

Bagging (Bootstrap Aggregating): বিভিন্ন Decision Tree তৈরি করার জন্য ডেটার random subsets নির্বাচন করা হয়।
Random Feature Selection: প্রতিটি Decision Tree-তে random feature নির্বাচন করা হয়, যা আরও বৈচিত্র্য তৈরি করে।
Ensemble Prediction: প্রতিটি Decision Tree-র সম্মিলিত ভোট বা গড় নেওয়া হয়।

R-এ Random Forest তৈরি করা

R-এ Random Forest তৈরি করার জন্য randomForest প্যাকেজ ব্যবহার করা হয়।

# randomForest প্যাকেজ ইন্সটল এবং লোড করা
install.packages("randomForest")
library(randomForest)

# উদাহরণ ডেটাসেট ব্যবহার করা
data(iris)

# Random Forest মডেল তৈরি করা
rf_model <- randomForest(Species ~ ., data = iris, ntree = 100)

# মডেল সারাংশ দেখা
print(rf_model)

এখানে randomForest() ফাংশনের মাধ্যমে Random Forest মডেল তৈরি করা হয়েছে। ntree প্যারামিটারটি কতগুলো Decision Tree তৈরি করা হবে তা নির্ধারণ করে।

Decision Tree এবং Random Forest এর মূল্যায়ন

Decision Tree এবং Random Forest মডেলের কার্যকারিতা মূল্যায়নের জন্য confusion matrix এবং accuracy ব্যবহার করা হয়।

উদাহরণ:

# Decision Tree এর প্রেডিকশন
tree_pred <- predict(tree_model, iris, type = "class")
tree_cm <- table(tree_pred, iris$Species)

# Random Forest এর প্রেডিকশন
rf_pred <- predict(rf_model, iris)
rf_cm <- table(rf_pred, iris$Species)

# Confusion Matrix প্রিন্ট করা
print("Decision Tree Confusion Matrix")
print(tree_cm)
print("Random Forest Confusion Matrix")
print(rf_cm)

# Accuracy নির্ধারণ করা
tree_accuracy <- sum(diag(tree_cm)) / sum(tree_cm)
rf_accuracy <- sum(diag(rf_cm)) / sum(rf_cm)

print(paste("Decision Tree Accuracy:", tree_accuracy))
print(paste("Random Forest Accuracy:", rf_accuracy))

এখানে Decision Tree এবং Random Forest উভয়ের জন্য confusion matrix এবং accuracy বের করা হয়েছে, যা মডেলের কার্যকারিতা মূল্যায়নে সহায়ক।

Decision Trees এবং Random Forests এর তুলনা

বৈশিষ্ট্য	Decision Tree	Random Forest
মূল কাঠামো	একটি গাছ ভিত্তিক কাঠামো	একাধিক Decision Tree-র সম্মিলিত কাঠামো
ডেটা বিভাজন পদ্ধতি	একক শর্ত অনুসারে বিভাজন	Bootstrap এবং Random Feature Selection
Overfitting এর সমস্যা	উচ্চ প্রবণতা	কম প্রবণতা
গণনা ও জটিলতা	কম জটিল, দ্রুত	উচ্চ জটিল, বেশি গণনা প্রয়োজন
উৎপাদিত ফলাফল	একক Decision, সহজ ব্যাখ্যা	সম্মিলিত ফলাফল, বেশি নির্ভুলতা

সারসংক্ষেপ

Decision Trees: একটি সহজ এবং স্বচ্ছ কাঠামো যা শ্রেণীবিন্যাস এবং প্রক্ষেপণের জন্য ব্যবহৃত হয়। তবে এটি Overfitting এর জন্য ঝুঁকিপূর্ণ।
Random Forests: Decision Trees এর একটি ensemble পদ্ধতি যা অনেক Decision Tree একত্রে ব্যবহার করে মডেলের নির্ভুলতা এবং স্থায়ীত্ব বাড়ায়। এটি Decision Trees থেকে উন্নত ও নির্ভুল ফলাফল প্রদান করে।

এই পদ্ধতিগুলি R প্রোগ্রামিং ব্যবহার করে ডেটার শ্রেণীবিন্যাস এবং প্রক্ষেপণে কার্যকরী ভূমিকা পালন করে এবং Decision Trees ও Random Forests মডেলের মাধ্যমে আরও নির্ভুল ও স্থায়ী ফলাফল প্রদান করা সম্ভব।

Content added By

Azizar Rahman Aziz

K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM)

235

K-Nearest Neighbors (KNN) and Support Vector Machines (SVM) in R

K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM) হল জনপ্রিয় মেশিন লার্নিং অ্যালগরিদম যা ক্লাসিফিকেশন এবং রিগ্রেশন টাস্কে ব্যবহৃত হয়। এগুলি বিশেষভাবে কেটেগোরিকাল ডেটার জন্য কার্যকরী, যেখানে আপনাকে শ্রেণীভুক্ত বা ক্যাটেগরি ডেটা প্রেডিক্ট করতে হয়।

এখানে আমরা KNN এবং SVM সম্পর্কে বিস্তারিত আলোচনা করব, এবং কিভাবে R এ এগুলোর ব্যবহার করা হয় তা দেখাবো।

1. K-Nearest Neighbors (KNN)

K-Nearest Neighbors (KNN) একটি সহজ এবং জনপ্রিয় ক্লাসিফিকেশন অ্যালগরিদম, যেখানে একটি পয়েন্টের শ্রেণী তার আশপাশের K নিকটতম পয়েন্টের শ্রেণী দ্বারা নির্ধারিত হয়। এটি একটি instance-based learning অ্যালগরিদম, যেখানে মডেলটি পূর্বে ট্রেনিং ডেটা সংরক্ষণ করে এবং ভবিষ্যত ইনপুট ডেটা ক্লাসিফাই করার জন্য সেই ডেটা থেকে নিকটতম প্রতিবেশী ব্যবহার করে।

KNN-এর মূল ধারণা:

K হল নিকটতম প্রতিবেশীর সংখ্যা।
নতুন ডেটা পয়েন্টটি শ্রেণীভুক্ত করতে, K নিকটতম পয়েন্টের শ্রেণীগুলোর মধ্যে সবচেয়ে বেশি হওয়া শ্রেণীটি নির্বাচন করা হয়।

KNN Implementation in R:

# KNN জন্য যে প্যাকেজ ব্যবহার হবে তা ইনস্টল ও লোড করা
install.packages("class")
library(class)

# ডেটাসেট তৈরি
data(iris)
head(iris)

# ডেটাসেট থেকে আউটপুট এবং ইনপুট ভেরিয়েবল তৈরি করা
X <- iris[, 1:4]  # প্রথম ৪টি কলাম (সাধারণভাবে বৈশিষ্ট্য)
y <- iris$Species  # আউটপুট ভেরিয়েবল (লেবেল)

# ডেটাসেট বিভক্ত করা (Training and Test)
set.seed(123)  # পুনরাবৃত্তির জন্য
train_index <- sample(1:nrow(iris), 0.7*nrow(iris))  # ৭০% ডেটা ট্রেনিংয়ের জন্য
train_X <- X[train_index, ]
train_y <- y[train_index]
test_X <- X[-train_index, ]
test_y <- y[-train_index]

# KNN মডেল তৈরি এবং প্রেডিকশন করা
knn_model <- knn(train_X, test_X, train_y, k = 3)

# Accuracy দেখা
table(Predicted = knn_model, Actual = test_y)

এখানে, k = 3 নির্দেশ করে যে প্রতিটি নতুন পয়েন্ট শ্রেণীভুক্ত করতে তিনটি নিকটতম প্রতিবেশীর পরামর্শ নেওয়া হবে। knn() ফাংশনটি ডেটা থেকে শ্রেণীভুক্ত ফলাফল প্রদান করবে, এবং তার ভিত্তিতে accuracy দেখা হবে।

KNN-এর সুবিধা ও অসুবিধা:

সুবিধা: সহজ এবং দ্রুত ইমপ্লিমেন্টেশন, কোনো প্যারামিটার ট্রেনিংয়ের প্রয়োজন হয় না।
অসুবিধা: বড় ডেটাসেটের জন্য Computationally expensive, এবং K নির্বাচন একটি চ্যালেঞ্জ হতে পারে।

2. Support Vector Machines (SVM)

Support Vector Machine (SVM) একটি শক্তিশালী ক্লাসিফিকেশন অ্যালগরিদম যা ডেটার মধ্যে শ্রেণীভেদ করার জন্য একটি সুপার প্লেন (hyperplane) ব্যবহার করে। এটি ডেটার শ্রেণীগুলোর মধ্যে সর্বাধিক মার্জিন (margin) তৈরি করার চেষ্টা করে, যাতে শ্রেণীগুলোর বিভাজন স্পষ্ট হয়। SVM এমন একটি পদ্ধতি ব্যবহার করে যা ডেটার উপর ভিত্তি করে শ্রেণীভেদ করতে সাহায্য করে, বিশেষত উচ্চ মাত্রা (high-dimensional) ডেটা ব্যবহারে।

SVM এর মূল ধারণা:

SVM একটি হাইপারপ্লেন তৈরি করে যা ডেটাকে দুটি শ্রেণিতে বিভক্ত করে।
Kernel trick ব্যবহার করে, SVM নন-লাইনারি ডেটা সেগমেন্টেশনও করতে পারে।
SVM মূলত binary classification এর জন্য ব্যবহৃত হয়, তবে এটি মাল্টি-ক্লাস ক্লাসিফিকেশনেও ব্যবহৃত হতে পারে।

SVM Implementation in R:

# SVM প্যাকেজ ইনস্টল ও লোড করা
install.packages("e1071")
library(e1071)

# ডেটাসেট তৈরি (Iris dataset)
data(iris)

# SVM মডেল তৈরি
svm_model <- svm(Species ~ ., data = iris, kernel = "linear")

# প্রেডিকশন করা
svm_predictions <- predict(svm_model, iris)

# Accuracy দেখা
table(Predicted = svm_predictions, Actual = iris$Species)

এখানে, svm() ফাংশন ব্যবহার করে Species ভেরিয়েবলকে প্রিডিক্ট করার জন্য একটি সাপোর্ট ভেক্টর মেশিন মডেল তৈরি করা হয়েছে। kernel = "linear" অপশন দিয়ে আমরা একটি লিনিয়ার কর্ণেল ব্যবহার করেছি। বিভিন্ন ধরনের কর্ণেল ব্যবহার করে নন-লাইনারি ডেটাও ক্লাসিফাই করা সম্ভব।

SVM-এর সুবিধা ও অসুবিধা:

সুবিধা: উচ্চ মাত্রার (high-dimensional) ডেটার জন্য কার্যকর, ভালো জেনারালাইজেশন ক্ষমতা।
অসুবিধা: বড় ডেটাসেটে SVM মডেল ট্রেনিং কম্পিউটেশনালভাবে ব্যয়বহুল হতে পারে, এবং কর্ণেল সিলেকশন একটি চ্যালেঞ্জ হতে পারে।

KNN এবং SVM এর তুলনা

Feature	KNN	SVM
Method	Instance-based learning (lazy learner)	Model-based learning (eager learner)
Complexity	Computationally expensive for large datasets	More efficient for large datasets
Performance	Works well with small datasets and less complex data	Excellent for high-dimensional data
Training Time	No training phase (no model to train)	Requires training phase (building the model)
Best for	Simple problems and small datasets	Complex problems, especially in higher dimensions
Kernel Trick	Does not use kernels	Uses kernel trick for non-linear problems

Conclusion

K-Nearest Neighbors (KNN): একটি সহজ, ইন্সট্যান্স-বেসড ক্লাসিফিকেশন অ্যালগরিদম যা নতুন ইনপুট পয়েন্টের ক্লাস নির্ধারণ করতে আশপাশের K নিকটতম পয়েন্ট ব্যবহার করে।
Support Vector Machines (SVM): একটি শক্তিশালী ক্লাসিফিকেশন অ্যালগরিদম যা ডেটার মধ্যে শ্রেণীভেদ করার জন্য সুপার প্লেন তৈরি করে এবং উচ্চ মাত্রার ডেটা বা নন-লাইনারি ক্লাসিফিকেশনের জন্য কার্যকরী।

এখানে, KNN এবং SVM উভয় অ্যালগরিদমই ক্লাসিফিকেশন সমস্যার জন্য ব্যবহৃত হয়, তবে প্রতিটির নিজস্ব শক্তি এবং সীমাবদ্ধতা রয়েছে। SVM উচ্চ মাত্রার ডেটাতে ভালো ফলাফল দেয়, যখন KNN ছোট ডেটাসেটের জন্য দ্রুত কার্যকর।

Content added By

Azizar Rahman Aziz

K-means Clustering এবং Hierarchical Clustering

371

R-এ K-means Clustering এবং Hierarchical Clustering

Clustering একটি অপ্রত্যক্ষ (unsupervised) মেশিন লার্নিং টেকনিক, যেখানে ডেটাকে গ্রুপ বা ক্লাস্টারে ভাগ করা হয় এমনভাবে যে প্রতিটি গ্রুপের ভিতরে সদস্যরা আরও বেশি সাদৃশ্যপূর্ণ থাকে, এবং গ্রুপগুলির মধ্যে পার্থক্য অনেক বেশি হয়। দুটি জনপ্রিয় ক্লাস্টারিং টেকনিক হল K-means clustering এবং Hierarchical clustering। R-এ এই দুটি ক্লাস্টারিং পদ্ধতি ব্যবহার করে ডেটাকে ক্লাস্টারে ভাগ করা যায়।

১. K-means Clustering

K-means clustering হল একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে K সংখ্যক ক্লাস্টারে ভাগ করে। এই পদ্ধতিতে আপনি আগে থেকেই ক্লাস্টারের সংখ্যা (K) নির্ধারণ করেন, এবং অ্যালগরিদমটি ক্লাস্টারের মধ্যে সাদৃশ্য অনুযায়ী ডেটা পয়েন্টগুলিকে ক্লাস্টারে ভাগ করে। এটি একটি partitioning-based ক্লাস্টারিং পদ্ধতি।

K-means Clustering এর পদ্ধতি:

প্রথমে, আপনি ক্লাস্টারের সংখ্যা (K) নির্ধারণ করবেন।
তারপর, এলোমেলোভাবে K সংখ্যক সেন্ট্রয়েড পয়েন্ট নির্বাচন করা হয়।
প্রতিটি ডেটা পয়েন্টকে তার কাছের সেন্ট্রয়েডের সাথে অ্যাসাইন করা হয়।
প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েড আবার আপডেট করা হয় (ক্লাস্টারের গড় পয়েন্ট হিসেবে)।
এই প্রক্রিয়া চলতে থাকে যতক্ষণ না সেন্ট্রয়েড আর পরিবর্তিত হয় না।

উদাহরণ: K-means Clustering

# ডেটা তৈরি
set.seed(123)  # রেজাল্ট রিক্রিয়েট করার জন্য
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (যেহেতু 'Species' কলাম বাদ)

# K-means ক্লাস্টারিং প্রক্রিয়া (k = 3)
kmeans_result <- kmeans(data, centers = 3, nstart = 25)

# রেজাল্ট দেখানো
print(kmeans_result)

# ক্লাস্টারগুলি প্লট করা
library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = as.factor(kmeans_result$cluster))) + 
  geom_point() + 
  labs(title = "K-means Clustering", color = "Cluster")

ব্যাখ্যা:

এখানে, iris ডেটাসেটের প্রথম চারটি ভেরিয়েবল নিয়ে K-means clustering করা হয়েছে, এবং ক্লাস্টার সংখ্যা ৩ নির্ধারণ করা হয়েছে।
nstart = 25 মানে অ্যালগরিদমটি ২৫ বার এলোমেলোভাবে শুরু করবে যাতে সর্বোত্তম ফলাফল পাওয়া যায়।
ক্লাস্টারের রেজাল্ট kmeans_result$cluster দিয়ে বের করা হয়েছে এবং ggplot2 ব্যবহার করে ক্লাস্টারগুলিকে ভিজ্যুয়ালাইজ করা হয়েছে।

২. Hierarchical Clustering

Hierarchical clustering একটি ডেটা পয়েন্টের মধ্যে সম্পর্কের উপর ভিত্তি করে ডেটাকে একটি ডেনডোগ্রাম (dendrogram) এর মাধ্যমে হায়ারার্কিক্যাল স্ট্রাকচারে সাজায়। এটি দুই ধরনের হতে পারে:

Agglomerative Hierarchical Clustering (Bottom-Up Approach): যেখানে শুরুতে প্রতিটি ডেটা পয়েন্ট একটি আলাদা ক্লাস্টার হিসেবে থাকে, এবং পরে ছোট ক্লাস্টারগুলোকে একত্রিত করা হয়।
Divisive Hierarchical Clustering (Top-Down Approach): এখানে পুরো ডেটাসেট একক ক্লাস্টার হিসেবে শুরু হয় এবং তারপর সেটি ছোট ছোট ক্লাস্টারে ভাগ করা হয়।

Agglomerative Hierarchical Clustering:

এটি সবচেয়ে সাধারণ এবং ব্যবহৃত পদ্ধতি, যেখানে সবগুলো ডেটা পয়েন্ট প্রথমে আলাদা আলাদা ক্লাস্টারে থাকে এবং তারপর এদের মধ্যে সাদৃশ্যের ভিত্তিতে ছোট ক্লাস্টারগুলো একত্রিত করা হয়।

উদাহরণ: Hierarchical Clustering

# ডেটা তৈরি
set.seed(123)
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (Species বাদ)

# ডিস্টেন্স ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# Hierarchical Clustering প্রয়োগ
hclust_result <- hclust(dist_matrix)

# ডেনডোগ্রাম প্লট করা
plot(hclust_result, main = "Hierarchical Clustering Dendrogram")

ব্যাখ্যা:

প্রথমে, dist() ফাংশন দিয়ে ডেটার মধ্যে Euclidean distance (অথবা অন্য কোনো ডিস্টেন্স মেট্রিক) বের করা হয়।
hclust() ফাংশন ব্যবহার করে Agglomerative hierarchical clustering প্রক্রিয়া প্রয়োগ করা হয়।
শেষমেশ, plot() ফাংশনের মাধ্যমে ডেনডোগ্রাম তৈরি করা হয়, যা ক্লাস্টারিংয়ের স্তরের মধ্যে সম্পর্ক প্রদর্শন করে।

ডেনডোগ্রাম:

ডেনডোগ্রামটি একটি গ্রাফিক্যাল উপস্থাপনা, যেখানে প্রতিটি ডেটা পয়েন্টের ক্লাস্টারিং সম্পর্ক প্রদর্শিত হয় এবং ডেটা পয়েন্টগুলির মধ্যে কিভাবে তারা একত্রিত হয়েছে তা দেখানো হয়। ডেনডোগ্রামের উপরের অংশে ছোট ক্লাস্টারগুলো একত্রিত হয়ে বড় ক্লাস্টারে পরিণত হয়।

K-means এবং Hierarchical Clustering-এর তুলনা

বৈশিষ্ট্য	K-means Clustering	Hierarchical Clustering
প্রকৃতি	Partitional (ক্লাস্টারের সংখ্যা K নির্ধারণ)	Hierarchical (ক্লাস্টার গঠন একটি কাঠামোতে)
ক্লাস্টার সংখ্যা	পূর্ব নির্ধারিত (K)	ডেটার সংখ্যা অনুযায়ী নির্ধারিত
অ্যালগরিদম	K সংখ্যক ক্লাস্টার গঠন করা হয়	ছোট ক্লাস্টারগুলো একত্রিত করা হয়
পদ্ধতি	Bottom-Up Approach	Top-Down Approach
অপেক্ষার সময়	সাধারণত দ্রুত, কারণ কেবল একটি নির্দিষ্ট সংখ্যা K পরবর্তী ইটারেশন করা হয়	অপেক্ষার সময় বেশি, কারণ ডেনডোগ্রাম গঠন করতে হয়
পছন্দের ক্ষেত্র	যখন আপনি জানেন কতটি ক্লাস্টার প্রয়োজন	যখন ক্লাস্টারের সংখ্যা অজানা এবং কাঠামোর মধ্যে সম্পর্ক দেখতে চান

সারসংক্ষেপ

K-means clustering একটি দ্রুত এবং দক্ষ পদ্ধতি যা নির্দিষ্ট সংখ্যক ক্লাস্টারে ডেটা ভাগ করে।
Hierarchical clustering একটি শক্তিশালী পদ্ধতি যা ডেটার সম্পর্কের ভিত্তিতে ডেনডোগ্রাম তৈরি করে এবং পরবর্তীতে ডেটাকে গ্রুপ করে। এটি অনেকটা পিরামিডাল স্ট্রাকচারের মতো কাজ করে।

উপরের পদ্ধতিগুলো ডেটা ক্লাস্টারিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং নির্দিষ্ট পরিস্থিতিতে কার্যকরী হতে পারে।

Content added By

Azizar Rahman Aziz

Classification এবং Clustering এর উদাহরণ

366

R প্রোগ্রামিং: Classification এবং Clustering এর উদাহরণ

Classification এবং Clustering হল ডেটা মাইনিং ও মেশিন লার্নিংয়ের গুরুত্বপূর্ণ টাস্ক। Classification ব্যবহার করে আমরা নির্দিষ্ট শ্রেণী বা লেবেল প্রেডিক্ট করি, যেখানে Clustering ব্যবহার করে আমরা ডেটাকে গ্রুপে বিভক্ত করি। নিচে এই দুটি কৌশলের উদাহরণ দেওয়া হয়েছে।

১. Classification (শ্রেণীবিভাগ)

Classification হল একটি supervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল (label) পূর্বে জানা থাকে এবং মডেলটি ডেটার ইনপুট ফিচারগুলো থেকে আউটপুট (লেবেল) প্রেডিক্ট করতে শেখে। Logistic Regression, Decision Trees, Random Forest, এবং Support Vector Machine (SVM) হল কিছু জনপ্রিয় classification মডেল।

১.১ Logistic Regression Example

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে যেখানে একজন ব্যক্তি age, income, এবং education এর উপর ভিত্তি করে loan approval (হ্যাঁ/না) শ্রেণী করা হবে। আমরা logistic regression ব্যবহার করব।

# ডেটাসেট তৈরি
data <- data.frame(
  age = c(25, 30, 35, 40, 45),
  income = c(30000, 40000, 50000, 60000, 70000),
  education = c("Bachelor", "Master", "Bachelor", "PhD", "Master"),
  loan_approval = c("No", "Yes", "Yes", "Yes", "No")
)

# ডেটাকে ফ্যাক্টরে রূপান্তর
data$loan_approval <- factor(data$loan_approval)

# Logistic Regression মডেল তৈরি
model <- glm(loan_approval ~ age + income + education, family = binomial(), data = data)

# মডেল এর সারাংশ
summary(model)

# প্রেডিকশন করা
new_data <- data.frame(age = 32, income = 45000, education = "Master")
prediction <- predict(model, new_data, type = "response")

# প্রেডিকশন আউটপুট
prediction

এখানে, glm() ফাংশন ব্যবহার করে logistic regression মডেল তৈরি করা হয়েছে এবং আমরা loan_approval লেবেলটি প্রেডিক্ট করেছি।

১.২ Random Forest Example

আরেকটি জনপ্রিয় classification মডেল হল Random Forest। এটি অনেকগুলো decision tree নিয়ে কাজ করে এবং প্রতিটি tree এর ফলাফল থেকে একটি চূড়ান্ত সিদ্ধান্ত নেয়।

# randomForest প্যাকেজ লোড করা
install.packages("randomForest")
library(randomForest)

# ডেটাসেট তৈরি
data <- data.frame(
  age = c(25, 30, 35, 40, 45),
  income = c(30000, 40000, 50000, 60000, 70000),
  education = c("Bachelor", "Master", "Bachelor", "PhD", "Master"),
  loan_approval = c("No", "Yes", "Yes", "Yes", "No")
)

# ফ্যাক্টর রূপান্তর
data$loan_approval <- factor(data$loan_approval)

# Random Forest মডেল তৈরি
model_rf <- randomForest(loan_approval ~ age + income + education, data = data)

# মডেল এর সারাংশ
print(model_rf)

# প্রেডিকশন করা
prediction_rf <- predict(model_rf, new_data)

# প্রেডিকশন আউটপুট
prediction_rf

এখানে, randomForest() ফাংশন ব্যবহার করে Random Forest মডেল তৈরি করা হয়েছে এবং প্রেডিকশন করা হয়েছে।

২. Clustering (ক্লাস্টারিং)

Clustering হল একটি unsupervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল না থাকার কারণে ডেটাকে গ্রুপে (cluster) বিভক্ত করা হয়, যাতে প্রতিটি গ্রুপের মধ্যে উপাদানগুলোর মধ্যে মিল থাকে। K-means clustering এবং Hierarchical clustering হল জনপ্রিয় clustering পদ্ধতি।

২.১ K-Means Clustering Example

K-means clustering হল একটি সাধারণ ক্লাস্টারিং পদ্ধতি, যেখানে ডেটাকে Kটি ক্লাস্টারে বিভক্ত করা হয়।

# K-means clustering পদ্ধতি ব্যবহার
set.seed(123)  # ফলাফল পুনরায় তৈরি করার জন্য

# একটি ডেটাসেট তৈরি
data <- data.frame(
  x = c(1, 2, 1.5, 8, 8.5, 9, 25, 30, 28, 26),
  y = c(1, 1.5, 1, 8, 9, 8.5, 30, 32, 29, 28)
)

# K-means clustering করা
kmeans_result <- kmeans(data, centers = 3)

# ক্লাস্টার অ্যাসাইনমেন্ট দেখানো
kmeans_result$cluster

# কাস্টম গ্রাফে ক্লাস্টার দেখানো
plot(data$x, data$y, col = kmeans_result$cluster, pch = 19, main = "K-Means Clustering")

এখানে, kmeans() ফাংশন ব্যবহার করে ডেটাকে ৩টি ক্লাস্টারে বিভক্ত করা হয়েছে এবং kmeans_result$cluster দিয়ে প্রতিটি পয়েন্টের ক্লাস্টার অ্যাসাইনমেন্ট দেখা হয়েছে।

২.২ Hierarchical Clustering Example

Hierarchical clustering হল এমন একটি পদ্ধতি যেখানে ডেটা গাছের আকারে (dendrogram) শ্রেণীবদ্ধ করা হয়।

# Hierarchical clustering পদ্ধতি ব্যবহার
data <- data.frame(
  x = c(1, 2, 1.5, 8, 8.5, 9, 25, 30, 28, 26),
  y = c(1, 1.5, 1, 8, 9, 8.5, 30, 32, 29, 28)
)

# ডিস্টেন্স ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# হায়ারার্কিকাল ক্লাস্টারিং করা
hclust_result <- hclust(dist_matrix)

# ডেনড্রোগ্রাম তৈরি করা
plot(hclust_result, main = "Hierarchical Clustering")

এখানে, hclust() ফাংশন দিয়ে ডেটার জন্য হায়ারার্কিকাল ক্লাস্টারিং করা হয়েছে এবং plot() ফাংশন দিয়ে ডেনড্রোগ্রাম তৈরি করা হয়েছে।

সারসংক্ষেপ

Classification: এটি একটি supervised learning পদ্ধতি, যেখানে একটি আউটপুট লেবেল পূর্বে জানা থাকে এবং ডেটার ইনপুট ফিচারগুলো থেকে লেবেল প্রেডিক্ট করা হয়। উদাহরণস্বরূপ, Logistic Regression এবং Random Forest।
Clustering: এটি একটি unsupervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল না থাকার কারণে ডেটাকে গ্রুপে বিভক্ত করা হয়। উদাহরণস্বরূপ, K-means clustering এবং Hierarchical clustering।

এই পদ্ধতিগুলোর মাধ্যমে আপনি ডেটার শ্রেণীবিভাগ এবং গ্রুপিং করতে পারেন, যা মেশিন লার্নিং মডেল তৈরির জন্য খুবই কার্যকরী।

Content added By

Azizar Rahman Aziz

R এর ভূমিকা (Introduction to R) R এর বেসিক সিনট্যাক্স (Basic Syntax of R) Vectors, Lists, এবং Matrices (ভেক্টরস, লিস্টস, এবং ম্যাট্রিক্সেস) Factors এবং Data Frames (ফ্যাক্টরস এবং ডেটা ফ্রেমস) Control Flow Statements (নিয়ন্ত্রণ প্রবাহ স্টেটমেন্টস)

Classification এবং Clustering Techniques (ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস)

ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস (Classification and Clustering Techniques in R)

ক্লাসিফিকেশন (Classification)

১. K-Nearest Neighbors (KNN)

২. Decision Tree (ডিসিশন ট্রি)

৩. Random Forest (র‍্যান্ডম ফরেস্ট)

ক্লাস্টারিং (Clustering)

১. K-means Clustering

২. Hierarchical Clustering

ক্লাসিফিকেশন এবং ক্লাস্টারিং এর মধ্যে পার্থক্য

সারসংক্ষেপ

Decision Trees এবং Random Forests

Decision Trees এবং Random Forests

Decision Trees

Decision Tree এর মূল উপাদান:

R-এ Decision Tree তৈরি করা

Random Forests

Random Forest এর মূল বৈশিষ্ট্য:

R-এ Random Forest তৈরি করা

Decision Tree এবং Random Forest এর মূল্যায়ন

উদাহরণ:

Decision Trees এবং Random Forests এর তুলনা

সারসংক্ষেপ

K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM)

K-Nearest Neighbors (KNN) and Support Vector Machines (SVM) in R

1. K-Nearest Neighbors (KNN)

KNN-এর মূল ধারণা:

KNN Implementation in R:

KNN-এর সুবিধা ও অসুবিধা:

2. Support Vector Machines (SVM)

SVM এর মূল ধারণা:

SVM Implementation in R:

SVM-এর সুবিধা ও অসুবিধা:

KNN এবং SVM এর তুলনা

Conclusion

K-means Clustering এবং Hierarchical Clustering

R-এ K-means Clustering এবং Hierarchical Clustering

১. K-means Clustering

K-means Clustering এর পদ্ধতি:

উদাহরণ: K-means Clustering

২. Hierarchical Clustering

Agglomerative Hierarchical Clustering:

উদাহরণ: Hierarchical Clustering

ডেনডোগ্রাম:

K-means এবং Hierarchical Clustering-এর তুলনা

সারসংক্ষেপ

Classification এবং Clustering এর উদাহরণ

R প্রোগ্রামিং: Classification এবং Clustering এর উদাহরণ

১. Classification (শ্রেণীবিভাগ)

১.১ Logistic Regression Example

১.২ Random Forest Example

২. Clustering (ক্লাস্টারিং)

২.১ K-Means Clustering Example

২.২ Hierarchical Clustering Example

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!