Classification এবং Clustering Techniques (ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস)

আর প্রোগ্রামিং (R Programming) - Computer Programming

276

ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস (Classification and Clustering Techniques in R)

ক্লাসিফিকেশন (Classification) এবং ক্লাস্টারিং (Clustering) হলো ডেটা সায়েন্সের দুটি গুরুত্বপূর্ণ কৌশল, যা ডেটা বিশ্লেষণ এবং মেশিন লার্নিংয়ে ব্যবহৃত হয়। R প্রোগ্রামিং ভাষায় বিভিন্ন ধরনের ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিক রয়েছে, যেগুলি ডেটাকে শ্রেণীবিভাজন বা গ্রুপিং করতে সাহায্য করে।


ক্লাসিফিকেশন (Classification)

ক্লাসিফিকেশন একটি পর্যবেক্ষণকে পূর্বনির্ধারিত শ্রেণীতে ফেলার প্রক্রিয়া। এটি সাধারণত সুপারভাইজড লার্নিং-এর অংশ এবং দ্বি-মূল্যবোধক (binary) বা বহু-মূল্যবোধক (multi-class) হতে পারে। R এ ক্লাসিফিকেশন করার জন্য বিভিন্ন অ্যালগরিদম রয়েছে যেমন K-Nearest Neighbors (KNN), Decision Trees, এবং Random Forest

১. K-Nearest Neighbors (KNN)

KNN একটি সহজ এবং জনপ্রিয় ক্লাসিফিকেশন অ্যালগরিদম, যেখানে নির্দিষ্ট দূরত্বের ভিত্তিতে (প্রায়শই ইকলিডিয়ান) কাছের K-টি প্রতিবেশী পর্যবেক্ষণের উপর ভিত্তি করে শ্রেণী নির্ধারণ করা হয়।

# class প্যাকেজ লোড
install.packages("class")
library(class)

# ডেটা তৈরি
train_data <- data.frame(height = c(5.1, 5.5, 6.0, 5.8), weight = c(60, 70, 80, 75), label = c("A", "A", "B", "B"))
test_data <- data.frame(height = 5.7, weight = 72)

# ফিচার এবং লেবেল পৃথক করা
train_features <- train_data[, c("height", "weight")]
train_labels <- train_data$label

# KNN মডেল
knn_result <- knn(train = train_features, test = test_data, cl = train_labels, k = 3)
print(knn_result)  # ক্লাস "A" অথবা "B" হিসাবে শ্রেণীবদ্ধ করবে

২. Decision Tree (ডিসিশন ট্রি)

ডিসিশন ট্রি হল একটি শ্রেণিবদ্ধকরণ এবং পূর্বাভাস মডেল, যেখানে শর্তাবলী দ্বারা বিভাজিত করা হয়। এটি বিভিন্ন প্রশ্ন বা শর্তের মাধ্যমে শ্রেণী নির্ধারণ করে।

# rpart প্যাকেজ লোড
install.packages("rpart")
library(rpart)

# ডেটা তৈরি
data <- data.frame(age = c(25, 45, 35, 50), income = c("Low", "High", "Medium", "High"), buys = c("No", "Yes", "Yes", "No"))

# ডিসিশন ট্রি মডেল
model <- rpart(buys ~ age + income, data = data, method = "class")
print(model)

# ট্রি প্লট
plot(model)
text(model)

৩. Random Forest (র‍্যান্ডম ফরেস্ট)

Random Forest হলো অনেক ডিসিশন ট্রি-এর একটি গুচ্ছ যা সমন্বিতভাবে কাজ করে শ্রেণীবিভাজন করে। এটি সাধারণত বেশি নির্ভুল এবং overfitting এর সম্ভাবনা কম থাকে।

# randomForest প্যাকেজ লোড
install.packages("randomForest")
library(randomForest)

# ডেটা তৈরি
data <- data.frame(age = c(25, 45, 35, 50), income = c("Low", "High", "Medium", "High"), buys = c("No", "Yes", "Yes", "No"))

# Random Forest মডেল
model <- randomForest(buys ~ age + income, data = data, ntree = 100)
print(model)

ক্লাস্টারিং (Clustering)

ক্লাস্টারিং হল আনসুপারভাইজড লার্নিং কৌশল, যা পর্যবেক্ষণগুলোকে এমন গোষ্ঠীতে বিভক্ত করে, যাতে একই ক্লাস্টারের সদস্যরা একে অপরের থেকে নিকটবর্তী থাকে। R এ জনপ্রিয় ক্লাস্টারিং পদ্ধতি হলো K-means Clustering এবং Hierarchical Clustering

১. K-means Clustering

K-means একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম, যেখানে ডেটাকে Kটি গোষ্ঠীতে ভাগ করা হয়। প্রতিটি গোষ্ঠীর জন্য একটি কেন্দ্র বিন্দু (centroid) নির্ধারণ করা হয় এবং ডেটা পয়েন্টগুলোকে তাদের নিকটস্থ কেন্দ্রে অ্যাসাইন করা হয়।

# ডেটা তৈরি
data <- data.frame(x = c(1, 2, 3, 6, 7, 8), y = c(1, 2, 3, 6, 7, 8))

# K-means Clustering
set.seed(123)
kmeans_result <- kmeans(data, centers = 2)
print(kmeans_result)

# ক্লাস্টার প্লট
plot(data, col = kmeans_result$cluster)
points(kmeans_result$centers, col = 1:2, pch = 8, cex = 2)

২. Hierarchical Clustering

Hierarchical Clustering একটি ক্রমবর্ধমান বা বিভাজনমূলক পদ্ধতি যেখানে প্রতিটি ডেটা পয়েন্ট প্রথমে আলাদা ক্লাস্টার হিসেবে শুরু করে এবং তারপরে একত্রিত হয়ে বড় গোষ্ঠীতে রূপান্তরিত হয়।

# ডেটা তৈরি
data <- data.frame(x = c(1, 2, 3, 6, 7, 8), y = c(1, 2, 3, 6, 7, 8))

# দূরত্ব ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# Hierarchical Clustering
hclust_result <- hclust(dist_matrix, method = "complete")
print(hclust_result)

# Dendrogram প্লট
plot(hclust_result, main = "Dendrogram", xlab = "Data Points", ylab = "Height")

ক্লাসিফিকেশন এবং ক্লাস্টারিং এর মধ্যে পার্থক্য

বৈশিষ্ট্যক্লাসিফিকেশন (Classification)ক্লাস্টারিং (Clustering)
শিক্ষণ ধরণসুপারভাইজড লার্নিংআনসুপারভাইজড লার্নিং
আউটপুটপূর্বনির্ধারিত শ্রেণীপ্রাকৃতিক গোষ্ঠী বা ক্লাস্টার
উদাহরণDecision Tree, KNN, Random ForestK-means, Hierarchical Clustering
ব্যবহারশ্রেণিবিভাগ (যেমন মেইল স্প্যাম বা নন-স্প্যাম)গোষ্ঠী তৈরি (যেমন কাস্টমার সেগমেন্টেশন)

সারসংক্ষেপ

R-এ ক্লাসিফিকেশন এবং ক্লাস্টারিং পদ্ধতি ডেটা বিশ্লেষণে অত্যন্ত কার্যকরী:

  • ক্লাসিফিকেশন: সুপারভাইজড লার্নিং পদ্ধতি যা বিভিন্ন শ্রেণীতে ডেটা ভাগ করে। R এ Decision Tree, KNN, এবং Random Forest ব্যবহার করা হয়।
  • ক্লাস্টারিং: আনসুপারভাইজড লার্নিং পদ্ধতি যা ডেটাকে প্রাকৃতিক গোষ্ঠীতে বিভক্ত করে। R এ K-means এবং Hierarchical Clustering জনপ্রিয়।

এই পদ্ধতিগুলি ডেটা বিশ্লেষণ, মেশিন লার্নিং এবং ডেটা সায়েন্স প্রজেক্টে বিভিন্ন প্রয়োগে ব্যবহৃত হয়।

Content added By

Decision Trees এবং Random Forests

Decision Trees এবং Random Forests হল জনপ্রিয় মেশিন লার্নিং অ্যালগরিদম যা শ্রেণিবিন্যাস (classification) এবং প্রক্ষেপণ (regression) উভয় কাজেই ব্যবহৃত হয়। Decision Trees ডেটাকে গাছের মতো বিভিন্ন শাখায় বিভক্ত করে সিদ্ধান্ত নেয়, যেখানে Random Forests অনেকগুলো Decision Tree একত্রে ব্যবহার করে একটি শক্তিশালী মডেল তৈরি করে।


Decision Trees

Decision Tree একটি গাছের মতো কাঠামো, যা বিভিন্ন শর্ত (conditions) ব্যবহার করে ডেটাকে একাধিক শাখায় বিভক্ত করে। প্রতিটি শাখা একটি শর্তকে প্রতিনিধিত্ব করে এবং শেষের পাতাগুলি (leaves) সিদ্ধান্ত বা আউটপুট হিসেবে কাজ করে।

Decision Tree এর মূল উপাদান:

  • Root Node: Decision Tree-এর প্রথম বা শুরুর নোড, যা ডেটার প্রথম বিভাজন নির্ধারণ করে।
  • Decision Nodes: এর পরবর্তী নোডগুলি, যেখানে বিভিন্ন শর্ত অনুযায়ী ডেটা বিভক্ত হয়।
  • Leaf Nodes: Decision Tree-এর শেষের নোড, যেখানে সিদ্ধান্ত বা আউটপুট প্রদান করা হয়।

R-এ Decision Tree তৈরি করা

R-এ Decision Tree তৈরি করার জন্য rpart প্যাকেজ ব্যবহার করা হয়।

# rpart প্যাকেজ ইন্সটল এবং লোড করা
install.packages("rpart")
library(rpart)

# উদাহরণ ডেটাসেট ব্যবহার করা
data(iris)

# Decision Tree মডেল তৈরি করা
tree_model <- rpart(Species ~ ., data = iris, method = "class")

# Decision Tree প্লট করা
plot(tree_model)
text(tree_model, use.n = TRUE)

এখানে rpart() ফাংশনের মাধ্যমে Decision Tree মডেল তৈরি করা হয়েছে। plot() এবং text() ফাংশন দিয়ে Decision Tree প্লট এবং লেবেল করা হয়েছে।


Random Forests

Random Forest হল Decision Trees-এর একটি ensemble মডেল, যেখানে একাধিক Decision Tree তৈরি করা হয় এবং তাদের সম্মিলিত ভবিষ্যদ্বাণী (prediction) গ্রহণ করা হয়। এটি সাধারণত Decision Trees থেকে আরও নির্ভুল এবং কার্যকরী ফলাফল প্রদান করে কারণ এটি Overfitting কমায়।

Random Forest এর মূল বৈশিষ্ট্য:

  • Bagging (Bootstrap Aggregating): বিভিন্ন Decision Tree তৈরি করার জন্য ডেটার random subsets নির্বাচন করা হয়।
  • Random Feature Selection: প্রতিটি Decision Tree-তে random feature নির্বাচন করা হয়, যা আরও বৈচিত্র্য তৈরি করে।
  • Ensemble Prediction: প্রতিটি Decision Tree-র সম্মিলিত ভোট বা গড় নেওয়া হয়।

R-এ Random Forest তৈরি করা

R-এ Random Forest তৈরি করার জন্য randomForest প্যাকেজ ব্যবহার করা হয়।

# randomForest প্যাকেজ ইন্সটল এবং লোড করা
install.packages("randomForest")
library(randomForest)

# উদাহরণ ডেটাসেট ব্যবহার করা
data(iris)

# Random Forest মডেল তৈরি করা
rf_model <- randomForest(Species ~ ., data = iris, ntree = 100)

# মডেল সারাংশ দেখা
print(rf_model)

এখানে randomForest() ফাংশনের মাধ্যমে Random Forest মডেল তৈরি করা হয়েছে। ntree প্যারামিটারটি কতগুলো Decision Tree তৈরি করা হবে তা নির্ধারণ করে।


Decision Tree এবং Random Forest এর মূল্যায়ন

Decision Tree এবং Random Forest মডেলের কার্যকারিতা মূল্যায়নের জন্য confusion matrix এবং accuracy ব্যবহার করা হয়।

উদাহরণ:

# Decision Tree এর প্রেডিকশন
tree_pred <- predict(tree_model, iris, type = "class")
tree_cm <- table(tree_pred, iris$Species)

# Random Forest এর প্রেডিকশন
rf_pred <- predict(rf_model, iris)
rf_cm <- table(rf_pred, iris$Species)

# Confusion Matrix প্রিন্ট করা
print("Decision Tree Confusion Matrix")
print(tree_cm)
print("Random Forest Confusion Matrix")
print(rf_cm)

# Accuracy নির্ধারণ করা
tree_accuracy <- sum(diag(tree_cm)) / sum(tree_cm)
rf_accuracy <- sum(diag(rf_cm)) / sum(rf_cm)

print(paste("Decision Tree Accuracy:", tree_accuracy))
print(paste("Random Forest Accuracy:", rf_accuracy))

এখানে Decision Tree এবং Random Forest উভয়ের জন্য confusion matrix এবং accuracy বের করা হয়েছে, যা মডেলের কার্যকারিতা মূল্যায়নে সহায়ক।


Decision Trees এবং Random Forests এর তুলনা

বৈশিষ্ট্যDecision TreeRandom Forest
মূল কাঠামোএকটি গাছ ভিত্তিক কাঠামোএকাধিক Decision Tree-র সম্মিলিত কাঠামো
ডেটা বিভাজন পদ্ধতিএকক শর্ত অনুসারে বিভাজনBootstrap এবং Random Feature Selection
Overfitting এর সমস্যাউচ্চ প্রবণতাকম প্রবণতা
গণনা ও জটিলতাকম জটিল, দ্রুতউচ্চ জটিল, বেশি গণনা প্রয়োজন
উৎপাদিত ফলাফলএকক Decision, সহজ ব্যাখ্যাসম্মিলিত ফলাফল, বেশি নির্ভুলতা

সারসংক্ষেপ

  • Decision Trees: একটি সহজ এবং স্বচ্ছ কাঠামো যা শ্রেণীবিন্যাস এবং প্রক্ষেপণের জন্য ব্যবহৃত হয়। তবে এটি Overfitting এর জন্য ঝুঁকিপূর্ণ।
  • Random Forests: Decision Trees এর একটি ensemble পদ্ধতি যা অনেক Decision Tree একত্রে ব্যবহার করে মডেলের নির্ভুলতা এবং স্থায়ীত্ব বাড়ায়। এটি Decision Trees থেকে উন্নত ও নির্ভুল ফলাফল প্রদান করে।

এই পদ্ধতিগুলি R প্রোগ্রামিং ব্যবহার করে ডেটার শ্রেণীবিন্যাস এবং প্রক্ষেপণে কার্যকরী ভূমিকা পালন করে এবং Decision Trees ও Random Forests মডেলের মাধ্যমে আরও নির্ভুল ও স্থায়ী ফলাফল প্রদান করা সম্ভব।

Content added By

K-Nearest Neighbors (KNN) and Support Vector Machines (SVM) in R

K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM) হল জনপ্রিয় মেশিন লার্নিং অ্যালগরিদম যা ক্লাসিফিকেশন এবং রিগ্রেশন টাস্কে ব্যবহৃত হয়। এগুলি বিশেষভাবে কেটেগোরিকাল ডেটার জন্য কার্যকরী, যেখানে আপনাকে শ্রেণীভুক্ত বা ক্যাটেগরি ডেটা প্রেডিক্ট করতে হয়।

এখানে আমরা KNN এবং SVM সম্পর্কে বিস্তারিত আলোচনা করব, এবং কিভাবে R এ এগুলোর ব্যবহার করা হয় তা দেখাবো।


1. K-Nearest Neighbors (KNN)

K-Nearest Neighbors (KNN) একটি সহজ এবং জনপ্রিয় ক্লাসিফিকেশন অ্যালগরিদম, যেখানে একটি পয়েন্টের শ্রেণী তার আশপাশের K নিকটতম পয়েন্টের শ্রেণী দ্বারা নির্ধারিত হয়। এটি একটি instance-based learning অ্যালগরিদম, যেখানে মডেলটি পূর্বে ট্রেনিং ডেটা সংরক্ষণ করে এবং ভবিষ্যত ইনপুট ডেটা ক্লাসিফাই করার জন্য সেই ডেটা থেকে নিকটতম প্রতিবেশী ব্যবহার করে।

KNN-এর মূল ধারণা:

  • K হল নিকটতম প্রতিবেশীর সংখ্যা।
  • নতুন ডেটা পয়েন্টটি শ্রেণীভুক্ত করতে, K নিকটতম পয়েন্টের শ্রেণীগুলোর মধ্যে সবচেয়ে বেশি হওয়া শ্রেণীটি নির্বাচন করা হয়।

KNN Implementation in R:

# KNN জন্য যে প্যাকেজ ব্যবহার হবে তা ইনস্টল ও লোড করা
install.packages("class")
library(class)

# ডেটাসেট তৈরি
data(iris)
head(iris)

# ডেটাসেট থেকে আউটপুট এবং ইনপুট ভেরিয়েবল তৈরি করা
X <- iris[, 1:4]  # প্রথম ৪টি কলাম (সাধারণভাবে বৈশিষ্ট্য)
y <- iris$Species  # আউটপুট ভেরিয়েবল (লেবেল)

# ডেটাসেট বিভক্ত করা (Training and Test)
set.seed(123)  # পুনরাবৃত্তির জন্য
train_index <- sample(1:nrow(iris), 0.7*nrow(iris))  # ৭০% ডেটা ট্রেনিংয়ের জন্য
train_X <- X[train_index, ]
train_y <- y[train_index]
test_X <- X[-train_index, ]
test_y <- y[-train_index]

# KNN মডেল তৈরি এবং প্রেডিকশন করা
knn_model <- knn(train_X, test_X, train_y, k = 3)

# Accuracy দেখা
table(Predicted = knn_model, Actual = test_y)

এখানে, k = 3 নির্দেশ করে যে প্রতিটি নতুন পয়েন্ট শ্রেণীভুক্ত করতে তিনটি নিকটতম প্রতিবেশীর পরামর্শ নেওয়া হবে। knn() ফাংশনটি ডেটা থেকে শ্রেণীভুক্ত ফলাফল প্রদান করবে, এবং তার ভিত্তিতে accuracy দেখা হবে।

KNN-এর সুবিধা ও অসুবিধা:

  • সুবিধা: সহজ এবং দ্রুত ইমপ্লিমেন্টেশন, কোনো প্যারামিটার ট্রেনিংয়ের প্রয়োজন হয় না।
  • অসুবিধা: বড় ডেটাসেটের জন্য Computationally expensive, এবং K নির্বাচন একটি চ্যালেঞ্জ হতে পারে।

2. Support Vector Machines (SVM)

Support Vector Machine (SVM) একটি শক্তিশালী ক্লাসিফিকেশন অ্যালগরিদম যা ডেটার মধ্যে শ্রেণীভেদ করার জন্য একটি সুপার প্লেন (hyperplane) ব্যবহার করে। এটি ডেটার শ্রেণীগুলোর মধ্যে সর্বাধিক মার্জিন (margin) তৈরি করার চেষ্টা করে, যাতে শ্রেণীগুলোর বিভাজন স্পষ্ট হয়। SVM এমন একটি পদ্ধতি ব্যবহার করে যা ডেটার উপর ভিত্তি করে শ্রেণীভেদ করতে সাহায্য করে, বিশেষত উচ্চ মাত্রা (high-dimensional) ডেটা ব্যবহারে।

SVM এর মূল ধারণা:

  • SVM একটি হাইপারপ্লেন তৈরি করে যা ডেটাকে দুটি শ্রেণিতে বিভক্ত করে।
  • Kernel trick ব্যবহার করে, SVM নন-লাইনারি ডেটা সেগমেন্টেশনও করতে পারে।
  • SVM মূলত binary classification এর জন্য ব্যবহৃত হয়, তবে এটি মাল্টি-ক্লাস ক্লাসিফিকেশনেও ব্যবহৃত হতে পারে।

SVM Implementation in R:

# SVM প্যাকেজ ইনস্টল ও লোড করা
install.packages("e1071")
library(e1071)

# ডেটাসেট তৈরি (Iris dataset)
data(iris)

# SVM মডেল তৈরি
svm_model <- svm(Species ~ ., data = iris, kernel = "linear")

# প্রেডিকশন করা
svm_predictions <- predict(svm_model, iris)

# Accuracy দেখা
table(Predicted = svm_predictions, Actual = iris$Species)

এখানে, svm() ফাংশন ব্যবহার করে Species ভেরিয়েবলকে প্রিডিক্ট করার জন্য একটি সাপোর্ট ভেক্টর মেশিন মডেল তৈরি করা হয়েছে। kernel = "linear" অপশন দিয়ে আমরা একটি লিনিয়ার কর্ণেল ব্যবহার করেছি। বিভিন্ন ধরনের কর্ণেল ব্যবহার করে নন-লাইনারি ডেটাও ক্লাসিফাই করা সম্ভব।

SVM-এর সুবিধা ও অসুবিধা:

  • সুবিধা: উচ্চ মাত্রার (high-dimensional) ডেটার জন্য কার্যকর, ভালো জেনারালাইজেশন ক্ষমতা।
  • অসুবিধা: বড় ডেটাসেটে SVM মডেল ট্রেনিং কম্পিউটেশনালভাবে ব্যয়বহুল হতে পারে, এবং কর্ণেল সিলেকশন একটি চ্যালেঞ্জ হতে পারে।

KNN এবং SVM এর তুলনা

FeatureKNNSVM
MethodInstance-based learning (lazy learner)Model-based learning (eager learner)
ComplexityComputationally expensive for large datasetsMore efficient for large datasets
PerformanceWorks well with small datasets and less complex dataExcellent for high-dimensional data
Training TimeNo training phase (no model to train)Requires training phase (building the model)
Best forSimple problems and small datasetsComplex problems, especially in higher dimensions
Kernel TrickDoes not use kernelsUses kernel trick for non-linear problems

Conclusion

  1. K-Nearest Neighbors (KNN): একটি সহজ, ইন্সট্যান্স-বেসড ক্লাসিফিকেশন অ্যালগরিদম যা নতুন ইনপুট পয়েন্টের ক্লাস নির্ধারণ করতে আশপাশের K নিকটতম পয়েন্ট ব্যবহার করে।
  2. Support Vector Machines (SVM): একটি শক্তিশালী ক্লাসিফিকেশন অ্যালগরিদম যা ডেটার মধ্যে শ্রেণীভেদ করার জন্য সুপার প্লেন তৈরি করে এবং উচ্চ মাত্রার ডেটা বা নন-লাইনারি ক্লাসিফিকেশনের জন্য কার্যকরী।

এখানে, KNN এবং SVM উভয় অ্যালগরিদমই ক্লাসিফিকেশন সমস্যার জন্য ব্যবহৃত হয়, তবে প্রতিটির নিজস্ব শক্তি এবং সীমাবদ্ধতা রয়েছে। SVM উচ্চ মাত্রার ডেটাতে ভালো ফলাফল দেয়, যখন KNN ছোট ডেটাসেটের জন্য দ্রুত কার্যকর।

Content added By

R-এ K-means Clustering এবং Hierarchical Clustering

Clustering একটি অপ্রত্যক্ষ (unsupervised) মেশিন লার্নিং টেকনিক, যেখানে ডেটাকে গ্রুপ বা ক্লাস্টারে ভাগ করা হয় এমনভাবে যে প্রতিটি গ্রুপের ভিতরে সদস্যরা আরও বেশি সাদৃশ্যপূর্ণ থাকে, এবং গ্রুপগুলির মধ্যে পার্থক্য অনেক বেশি হয়। দুটি জনপ্রিয় ক্লাস্টারিং টেকনিক হল K-means clustering এবং Hierarchical clustering। R-এ এই দুটি ক্লাস্টারিং পদ্ধতি ব্যবহার করে ডেটাকে ক্লাস্টারে ভাগ করা যায়।


১. K-means Clustering

K-means clustering হল একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে K সংখ্যক ক্লাস্টারে ভাগ করে। এই পদ্ধতিতে আপনি আগে থেকেই ক্লাস্টারের সংখ্যা (K) নির্ধারণ করেন, এবং অ্যালগরিদমটি ক্লাস্টারের মধ্যে সাদৃশ্য অনুযায়ী ডেটা পয়েন্টগুলিকে ক্লাস্টারে ভাগ করে। এটি একটি partitioning-based ক্লাস্টারিং পদ্ধতি।

K-means Clustering এর পদ্ধতি:

  1. প্রথমে, আপনি ক্লাস্টারের সংখ্যা (K) নির্ধারণ করবেন।
  2. তারপর, এলোমেলোভাবে K সংখ্যক সেন্ট্রয়েড পয়েন্ট নির্বাচন করা হয়।
  3. প্রতিটি ডেটা পয়েন্টকে তার কাছের সেন্ট্রয়েডের সাথে অ্যাসাইন করা হয়।
  4. প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েড আবার আপডেট করা হয় (ক্লাস্টারের গড় পয়েন্ট হিসেবে)।
  5. এই প্রক্রিয়া চলতে থাকে যতক্ষণ না সেন্ট্রয়েড আর পরিবর্তিত হয় না।

উদাহরণ: K-means Clustering

# ডেটা তৈরি
set.seed(123)  # রেজাল্ট রিক্রিয়েট করার জন্য
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (যেহেতু 'Species' কলাম বাদ)

# K-means ক্লাস্টারিং প্রক্রিয়া (k = 3)
kmeans_result <- kmeans(data, centers = 3, nstart = 25)

# রেজাল্ট দেখানো
print(kmeans_result)

# ক্লাস্টারগুলি প্লট করা
library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = as.factor(kmeans_result$cluster))) + 
  geom_point() + 
  labs(title = "K-means Clustering", color = "Cluster")

ব্যাখ্যা:

  • এখানে, iris ডেটাসেটের প্রথম চারটি ভেরিয়েবল নিয়ে K-means clustering করা হয়েছে, এবং ক্লাস্টার সংখ্যা ৩ নির্ধারণ করা হয়েছে।
  • nstart = 25 মানে অ্যালগরিদমটি ২৫ বার এলোমেলোভাবে শুরু করবে যাতে সর্বোত্তম ফলাফল পাওয়া যায়।
  • ক্লাস্টারের রেজাল্ট kmeans_result$cluster দিয়ে বের করা হয়েছে এবং ggplot2 ব্যবহার করে ক্লাস্টারগুলিকে ভিজ্যুয়ালাইজ করা হয়েছে।

২. Hierarchical Clustering

Hierarchical clustering একটি ডেটা পয়েন্টের মধ্যে সম্পর্কের উপর ভিত্তি করে ডেটাকে একটি ডেনডোগ্রাম (dendrogram) এর মাধ্যমে হায়ারার্কিক্যাল স্ট্রাকচারে সাজায়। এটি দুই ধরনের হতে পারে:

  1. Agglomerative Hierarchical Clustering (Bottom-Up Approach): যেখানে শুরুতে প্রতিটি ডেটা পয়েন্ট একটি আলাদা ক্লাস্টার হিসেবে থাকে, এবং পরে ছোট ক্লাস্টারগুলোকে একত্রিত করা হয়।
  2. Divisive Hierarchical Clustering (Top-Down Approach): এখানে পুরো ডেটাসেট একক ক্লাস্টার হিসেবে শুরু হয় এবং তারপর সেটি ছোট ছোট ক্লাস্টারে ভাগ করা হয়।

Agglomerative Hierarchical Clustering:

এটি সবচেয়ে সাধারণ এবং ব্যবহৃত পদ্ধতি, যেখানে সবগুলো ডেটা পয়েন্ট প্রথমে আলাদা আলাদা ক্লাস্টারে থাকে এবং তারপর এদের মধ্যে সাদৃশ্যের ভিত্তিতে ছোট ক্লাস্টারগুলো একত্রিত করা হয়।

উদাহরণ: Hierarchical Clustering

# ডেটা তৈরি
set.seed(123)
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (Species বাদ)

# ডিস্টেন্স ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# Hierarchical Clustering প্রয়োগ
hclust_result <- hclust(dist_matrix)

# ডেনডোগ্রাম প্লট করা
plot(hclust_result, main = "Hierarchical Clustering Dendrogram")

ব্যাখ্যা:

  • প্রথমে, dist() ফাংশন দিয়ে ডেটার মধ্যে Euclidean distance (অথবা অন্য কোনো ডিস্টেন্স মেট্রিক) বের করা হয়।
  • hclust() ফাংশন ব্যবহার করে Agglomerative hierarchical clustering প্রক্রিয়া প্রয়োগ করা হয়।
  • শেষমেশ, plot() ফাংশনের মাধ্যমে ডেনডোগ্রাম তৈরি করা হয়, যা ক্লাস্টারিংয়ের স্তরের মধ্যে সম্পর্ক প্রদর্শন করে।

ডেনডোগ্রাম:

ডেনডোগ্রামটি একটি গ্রাফিক্যাল উপস্থাপনা, যেখানে প্রতিটি ডেটা পয়েন্টের ক্লাস্টারিং সম্পর্ক প্রদর্শিত হয় এবং ডেটা পয়েন্টগুলির মধ্যে কিভাবে তারা একত্রিত হয়েছে তা দেখানো হয়। ডেনডোগ্রামের উপরের অংশে ছোট ক্লাস্টারগুলো একত্রিত হয়ে বড় ক্লাস্টারে পরিণত হয়।


K-means এবং Hierarchical Clustering-এর তুলনা

বৈশিষ্ট্যK-means ClusteringHierarchical Clustering
প্রকৃতিPartitional (ক্লাস্টারের সংখ্যা K নির্ধারণ)Hierarchical (ক্লাস্টার গঠন একটি কাঠামোতে)
ক্লাস্টার সংখ্যাপূর্ব নির্ধারিত (K)ডেটার সংখ্যা অনুযায়ী নির্ধারিত
অ্যালগরিদমK সংখ্যক ক্লাস্টার গঠন করা হয়ছোট ক্লাস্টারগুলো একত্রিত করা হয়
পদ্ধতিBottom-Up ApproachTop-Down Approach
অপেক্ষার সময়সাধারণত দ্রুত, কারণ কেবল একটি নির্দিষ্ট সংখ্যা K পরবর্তী ইটারেশন করা হয়অপেক্ষার সময় বেশি, কারণ ডেনডোগ্রাম গঠন করতে হয়
পছন্দের ক্ষেত্রযখন আপনি জানেন কতটি ক্লাস্টার প্রয়োজনযখন ক্লাস্টারের সংখ্যা অজানা এবং কাঠামোর মধ্যে সম্পর্ক দেখতে চান

সারসংক্ষেপ

  • K-means clustering একটি দ্রুত এবং দক্ষ পদ্ধতি যা নির্দিষ্ট সংখ্যক ক্লাস্টারে ডেটা ভাগ করে।
  • Hierarchical clustering একটি শক্তিশালী পদ্ধতি যা ডেটার সম্পর্কের ভিত্তিতে ডেনডোগ্রাম তৈরি করে এবং পরবর্তীতে ডেটাকে গ্রুপ করে। এটি অনেকটা পিরামিডাল স্ট্রাকচারের মতো কাজ করে।

উপরের পদ্ধতিগুলো ডেটা ক্লাস্টারিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং নির্দিষ্ট পরিস্থিতিতে কার্যকরী হতে পারে।

Content added By

R প্রোগ্রামিং: Classification এবং Clustering এর উদাহরণ

Classification এবং Clustering হল ডেটা মাইনিং ও মেশিন লার্নিংয়ের গুরুত্বপূর্ণ টাস্ক। Classification ব্যবহার করে আমরা নির্দিষ্ট শ্রেণী বা লেবেল প্রেডিক্ট করি, যেখানে Clustering ব্যবহার করে আমরা ডেটাকে গ্রুপে বিভক্ত করি। নিচে এই দুটি কৌশলের উদাহরণ দেওয়া হয়েছে।


১. Classification (শ্রেণীবিভাগ)

Classification হল একটি supervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল (label) পূর্বে জানা থাকে এবং মডেলটি ডেটার ইনপুট ফিচারগুলো থেকে আউটপুট (লেবেল) প্রেডিক্ট করতে শেখে। Logistic Regression, Decision Trees, Random Forest, এবং Support Vector Machine (SVM) হল কিছু জনপ্রিয় classification মডেল।

১.১ Logistic Regression Example

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে যেখানে একজন ব্যক্তি age, income, এবং education এর উপর ভিত্তি করে loan approval (হ্যাঁ/না) শ্রেণী করা হবে। আমরা logistic regression ব্যবহার করব।

# ডেটাসেট তৈরি
data <- data.frame(
  age = c(25, 30, 35, 40, 45),
  income = c(30000, 40000, 50000, 60000, 70000),
  education = c("Bachelor", "Master", "Bachelor", "PhD", "Master"),
  loan_approval = c("No", "Yes", "Yes", "Yes", "No")
)

# ডেটাকে ফ্যাক্টরে রূপান্তর
data$loan_approval <- factor(data$loan_approval)

# Logistic Regression মডেল তৈরি
model <- glm(loan_approval ~ age + income + education, family = binomial(), data = data)

# মডেল এর সারাংশ
summary(model)

# প্রেডিকশন করা
new_data <- data.frame(age = 32, income = 45000, education = "Master")
prediction <- predict(model, new_data, type = "response")

# প্রেডিকশন আউটপুট
prediction

এখানে, glm() ফাংশন ব্যবহার করে logistic regression মডেল তৈরি করা হয়েছে এবং আমরা loan_approval লেবেলটি প্রেডিক্ট করেছি।

১.২ Random Forest Example

আরেকটি জনপ্রিয় classification মডেল হল Random Forest। এটি অনেকগুলো decision tree নিয়ে কাজ করে এবং প্রতিটি tree এর ফলাফল থেকে একটি চূড়ান্ত সিদ্ধান্ত নেয়।

# randomForest প্যাকেজ লোড করা
install.packages("randomForest")
library(randomForest)

# ডেটাসেট তৈরি
data <- data.frame(
  age = c(25, 30, 35, 40, 45),
  income = c(30000, 40000, 50000, 60000, 70000),
  education = c("Bachelor", "Master", "Bachelor", "PhD", "Master"),
  loan_approval = c("No", "Yes", "Yes", "Yes", "No")
)

# ফ্যাক্টর রূপান্তর
data$loan_approval <- factor(data$loan_approval)

# Random Forest মডেল তৈরি
model_rf <- randomForest(loan_approval ~ age + income + education, data = data)

# মডেল এর সারাংশ
print(model_rf)

# প্রেডিকশন করা
prediction_rf <- predict(model_rf, new_data)

# প্রেডিকশন আউটপুট
prediction_rf

এখানে, randomForest() ফাংশন ব্যবহার করে Random Forest মডেল তৈরি করা হয়েছে এবং প্রেডিকশন করা হয়েছে।


২. Clustering (ক্লাস্টারিং)

Clustering হল একটি unsupervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল না থাকার কারণে ডেটাকে গ্রুপে (cluster) বিভক্ত করা হয়, যাতে প্রতিটি গ্রুপের মধ্যে উপাদানগুলোর মধ্যে মিল থাকে। K-means clustering এবং Hierarchical clustering হল জনপ্রিয় clustering পদ্ধতি।

২.১ K-Means Clustering Example

K-means clustering হল একটি সাধারণ ক্লাস্টারিং পদ্ধতি, যেখানে ডেটাকে Kটি ক্লাস্টারে বিভক্ত করা হয়।

# K-means clustering পদ্ধতি ব্যবহার
set.seed(123)  # ফলাফল পুনরায় তৈরি করার জন্য

# একটি ডেটাসেট তৈরি
data <- data.frame(
  x = c(1, 2, 1.5, 8, 8.5, 9, 25, 30, 28, 26),
  y = c(1, 1.5, 1, 8, 9, 8.5, 30, 32, 29, 28)
)

# K-means clustering করা
kmeans_result <- kmeans(data, centers = 3)

# ক্লাস্টার অ্যাসাইনমেন্ট দেখানো
kmeans_result$cluster

# কাস্টম গ্রাফে ক্লাস্টার দেখানো
plot(data$x, data$y, col = kmeans_result$cluster, pch = 19, main = "K-Means Clustering")

এখানে, kmeans() ফাংশন ব্যবহার করে ডেটাকে ৩টি ক্লাস্টারে বিভক্ত করা হয়েছে এবং kmeans_result$cluster দিয়ে প্রতিটি পয়েন্টের ক্লাস্টার অ্যাসাইনমেন্ট দেখা হয়েছে।

২.২ Hierarchical Clustering Example

Hierarchical clustering হল এমন একটি পদ্ধতি যেখানে ডেটা গাছের আকারে (dendrogram) শ্রেণীবদ্ধ করা হয়।

# Hierarchical clustering পদ্ধতি ব্যবহার
data <- data.frame(
  x = c(1, 2, 1.5, 8, 8.5, 9, 25, 30, 28, 26),
  y = c(1, 1.5, 1, 8, 9, 8.5, 30, 32, 29, 28)
)

# ডিস্টেন্স ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# হায়ারার্কিকাল ক্লাস্টারিং করা
hclust_result <- hclust(dist_matrix)

# ডেনড্রোগ্রাম তৈরি করা
plot(hclust_result, main = "Hierarchical Clustering")

এখানে, hclust() ফাংশন দিয়ে ডেটার জন্য হায়ারার্কিকাল ক্লাস্টারিং করা হয়েছে এবং plot() ফাংশন দিয়ে ডেনড্রোগ্রাম তৈরি করা হয়েছে।


সারসংক্ষেপ

  • Classification: এটি একটি supervised learning পদ্ধতি, যেখানে একটি আউটপুট লেবেল পূর্বে জানা থাকে এবং ডেটার ইনপুট ফিচারগুলো থেকে লেবেল প্রেডিক্ট করা হয়। উদাহরণস্বরূপ, Logistic Regression এবং Random Forest
  • Clustering: এটি একটি unsupervised learning পদ্ধতি, যেখানে ডেটার আউটপুট লেবেল না থাকার কারণে ডেটাকে গ্রুপে বিভক্ত করা হয়। উদাহরণস্বরূপ, K-means clustering এবং Hierarchical clustering

এই পদ্ধতিগুলোর মাধ্যমে আপনি ডেটার শ্রেণীবিভাগ এবং গ্রুপিং করতে পারেন, যা মেশিন লার্নিং মডেল তৈরির জন্য খুবই কার্যকরী।

Content added By
Promotion

Are you sure to start over?

Loading...