K-means Clustering এবং Hierarchical Clustering গাইড ও নোট

Computer Programming - আর প্রোগ্রামিং (R Programming) - Classification এবং Clustering Techniques (ক্লাসিফিকেশন এবং ক্লাস্টারিং টেকনিকস)
324

R-এ K-means Clustering এবং Hierarchical Clustering

Clustering একটি অপ্রত্যক্ষ (unsupervised) মেশিন লার্নিং টেকনিক, যেখানে ডেটাকে গ্রুপ বা ক্লাস্টারে ভাগ করা হয় এমনভাবে যে প্রতিটি গ্রুপের ভিতরে সদস্যরা আরও বেশি সাদৃশ্যপূর্ণ থাকে, এবং গ্রুপগুলির মধ্যে পার্থক্য অনেক বেশি হয়। দুটি জনপ্রিয় ক্লাস্টারিং টেকনিক হল K-means clustering এবং Hierarchical clustering। R-এ এই দুটি ক্লাস্টারিং পদ্ধতি ব্যবহার করে ডেটাকে ক্লাস্টারে ভাগ করা যায়।


১. K-means Clustering

K-means clustering হল একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে K সংখ্যক ক্লাস্টারে ভাগ করে। এই পদ্ধতিতে আপনি আগে থেকেই ক্লাস্টারের সংখ্যা (K) নির্ধারণ করেন, এবং অ্যালগরিদমটি ক্লাস্টারের মধ্যে সাদৃশ্য অনুযায়ী ডেটা পয়েন্টগুলিকে ক্লাস্টারে ভাগ করে। এটি একটি partitioning-based ক্লাস্টারিং পদ্ধতি।

K-means Clustering এর পদ্ধতি:

  1. প্রথমে, আপনি ক্লাস্টারের সংখ্যা (K) নির্ধারণ করবেন।
  2. তারপর, এলোমেলোভাবে K সংখ্যক সেন্ট্রয়েড পয়েন্ট নির্বাচন করা হয়।
  3. প্রতিটি ডেটা পয়েন্টকে তার কাছের সেন্ট্রয়েডের সাথে অ্যাসাইন করা হয়।
  4. প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েড আবার আপডেট করা হয় (ক্লাস্টারের গড় পয়েন্ট হিসেবে)।
  5. এই প্রক্রিয়া চলতে থাকে যতক্ষণ না সেন্ট্রয়েড আর পরিবর্তিত হয় না।

উদাহরণ: K-means Clustering

# ডেটা তৈরি
set.seed(123)  # রেজাল্ট রিক্রিয়েট করার জন্য
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (যেহেতু 'Species' কলাম বাদ)

# K-means ক্লাস্টারিং প্রক্রিয়া (k = 3)
kmeans_result <- kmeans(data, centers = 3, nstart = 25)

# রেজাল্ট দেখানো
print(kmeans_result)

# ক্লাস্টারগুলি প্লট করা
library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = as.factor(kmeans_result$cluster))) + 
  geom_point() + 
  labs(title = "K-means Clustering", color = "Cluster")

ব্যাখ্যা:

  • এখানে, iris ডেটাসেটের প্রথম চারটি ভেরিয়েবল নিয়ে K-means clustering করা হয়েছে, এবং ক্লাস্টার সংখ্যা ৩ নির্ধারণ করা হয়েছে।
  • nstart = 25 মানে অ্যালগরিদমটি ২৫ বার এলোমেলোভাবে শুরু করবে যাতে সর্বোত্তম ফলাফল পাওয়া যায়।
  • ক্লাস্টারের রেজাল্ট kmeans_result$cluster দিয়ে বের করা হয়েছে এবং ggplot2 ব্যবহার করে ক্লাস্টারগুলিকে ভিজ্যুয়ালাইজ করা হয়েছে।

২. Hierarchical Clustering

Hierarchical clustering একটি ডেটা পয়েন্টের মধ্যে সম্পর্কের উপর ভিত্তি করে ডেটাকে একটি ডেনডোগ্রাম (dendrogram) এর মাধ্যমে হায়ারার্কিক্যাল স্ট্রাকচারে সাজায়। এটি দুই ধরনের হতে পারে:

  1. Agglomerative Hierarchical Clustering (Bottom-Up Approach): যেখানে শুরুতে প্রতিটি ডেটা পয়েন্ট একটি আলাদা ক্লাস্টার হিসেবে থাকে, এবং পরে ছোট ক্লাস্টারগুলোকে একত্রিত করা হয়।
  2. Divisive Hierarchical Clustering (Top-Down Approach): এখানে পুরো ডেটাসেট একক ক্লাস্টার হিসেবে শুরু হয় এবং তারপর সেটি ছোট ছোট ক্লাস্টারে ভাগ করা হয়।

Agglomerative Hierarchical Clustering:

এটি সবচেয়ে সাধারণ এবং ব্যবহৃত পদ্ধতি, যেখানে সবগুলো ডেটা পয়েন্ট প্রথমে আলাদা আলাদা ক্লাস্টারে থাকে এবং তারপর এদের মধ্যে সাদৃশ্যের ভিত্তিতে ছোট ক্লাস্টারগুলো একত্রিত করা হয়।

উদাহরণ: Hierarchical Clustering

# ডেটা তৈরি
set.seed(123)
data <- iris[, -5]  # Iris ডেটাসেটের প্রথম ৪টি ভেরিয়েবল (Species বাদ)

# ডিস্টেন্স ম্যাট্রিক্স তৈরি
dist_matrix <- dist(data)

# Hierarchical Clustering প্রয়োগ
hclust_result <- hclust(dist_matrix)

# ডেনডোগ্রাম প্লট করা
plot(hclust_result, main = "Hierarchical Clustering Dendrogram")

ব্যাখ্যা:

  • প্রথমে, dist() ফাংশন দিয়ে ডেটার মধ্যে Euclidean distance (অথবা অন্য কোনো ডিস্টেন্স মেট্রিক) বের করা হয়।
  • hclust() ফাংশন ব্যবহার করে Agglomerative hierarchical clustering প্রক্রিয়া প্রয়োগ করা হয়।
  • শেষমেশ, plot() ফাংশনের মাধ্যমে ডেনডোগ্রাম তৈরি করা হয়, যা ক্লাস্টারিংয়ের স্তরের মধ্যে সম্পর্ক প্রদর্শন করে।

ডেনডোগ্রাম:

ডেনডোগ্রামটি একটি গ্রাফিক্যাল উপস্থাপনা, যেখানে প্রতিটি ডেটা পয়েন্টের ক্লাস্টারিং সম্পর্ক প্রদর্শিত হয় এবং ডেটা পয়েন্টগুলির মধ্যে কিভাবে তারা একত্রিত হয়েছে তা দেখানো হয়। ডেনডোগ্রামের উপরের অংশে ছোট ক্লাস্টারগুলো একত্রিত হয়ে বড় ক্লাস্টারে পরিণত হয়।


K-means এবং Hierarchical Clustering-এর তুলনা

বৈশিষ্ট্যK-means ClusteringHierarchical Clustering
প্রকৃতিPartitional (ক্লাস্টারের সংখ্যা K নির্ধারণ)Hierarchical (ক্লাস্টার গঠন একটি কাঠামোতে)
ক্লাস্টার সংখ্যাপূর্ব নির্ধারিত (K)ডেটার সংখ্যা অনুযায়ী নির্ধারিত
অ্যালগরিদমK সংখ্যক ক্লাস্টার গঠন করা হয়ছোট ক্লাস্টারগুলো একত্রিত করা হয়
পদ্ধতিBottom-Up ApproachTop-Down Approach
অপেক্ষার সময়সাধারণত দ্রুত, কারণ কেবল একটি নির্দিষ্ট সংখ্যা K পরবর্তী ইটারেশন করা হয়অপেক্ষার সময় বেশি, কারণ ডেনডোগ্রাম গঠন করতে হয়
পছন্দের ক্ষেত্রযখন আপনি জানেন কতটি ক্লাস্টার প্রয়োজনযখন ক্লাস্টারের সংখ্যা অজানা এবং কাঠামোর মধ্যে সম্পর্ক দেখতে চান

সারসংক্ষেপ

  • K-means clustering একটি দ্রুত এবং দক্ষ পদ্ধতি যা নির্দিষ্ট সংখ্যক ক্লাস্টারে ডেটা ভাগ করে।
  • Hierarchical clustering একটি শক্তিশালী পদ্ধতি যা ডেটার সম্পর্কের ভিত্তিতে ডেনডোগ্রাম তৈরি করে এবং পরবর্তীতে ডেটাকে গ্রুপ করে। এটি অনেকটা পিরামিডাল স্ট্রাকচারের মতো কাজ করে।

উপরের পদ্ধতিগুলো ডেটা ক্লাস্টারিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং নির্দিষ্ট পরিস্থিতিতে কার্যকরী হতে পারে।

Content added By
Promotion

Are you sure to start over?

Loading...