K-Means Clustering

পাইথন দিয়ে মেশিন লার্নিং (Machine Learning with Python) - Machine Learning

248

K-Means Clustering একটি জনপ্রিয় এবং শক্তিশালী Unsupervised Learning অ্যালগরিদম, যা ডেটা পয়েন্টগুলিকে বিভিন্ন ক্লাস্টার বা গ্রুপে ভাগ করে। এটি মূলত ডেটা পয়েন্টগুলির মধ্যে সাদৃশ্যের উপর ভিত্তি করে কাজ করে। K-Means একটি Partitioning ক্লাস্টারিং অ্যালগরিদম, যা K সংখ্যক ক্লাস্টার তৈরি করে, যেখানে K হল একটি নির্দিষ্ট মান (এটি ব্যবহারকারী দ্বারা নির্ধারিত হয়)।

K-Means এর কাজের প্রক্রিয়া

K-Means ক্লাস্টারিংয়ের কাজের প্রক্রিয়া কিছু সহজ ধাপে বিভক্ত:

K সংখ্যক ক্লাস্টারের সেন্ট্রয়েড নির্বাচন: প্রথমে ডেটা পয়েন্টগুলির মধ্যে Kটি ক্লাস্টারের সেন্ট্রয়েড (mean) এলোমেলোভাবে নির্বাচন করা হয়। সেন্ট্রয়েড হলো ক্লাস্টারের কেন্দ্র, যা ওই ক্লাস্টারে থাকা ডেটা পয়েন্টগুলির গড় অবস্থান।
ডেটা পয়েন্টগুলির ক্লাস্টার বরাদ্দ: পরবর্তী ধাপে, প্রতিটি ডেটা পয়েন্টকে তার নিকটতম সেন্ট্রয়েডের ক্লাস্টারে বরাদ্দ করা হয়। ডেটা পয়েন্টটি সেন্ট্রয়েডের সাথে Euclidean Distance এর মাধ্যমে সন্নিকটতার ভিত্তিতে ক্লাস্টারে বরাদ্দ করা হয়।
ক্লাস্টার সেন্ট্রয়েড আপডেট: একবার ডেটা পয়েন্টগুলো ক্লাস্টারে বরাদ্দ হওয়ার পর, নতুন ক্লাস্টার সেন্ট্রয়েডগুলো আপডেট করা হয়। এটি ক্লাস্টারের সদস্য পয়েন্টগুলির গড় অবস্থান থেকে বের করা হয়।
ধাপ ২ এবং ৩ পুনরাবৃত্তি করা: যতক্ষণ না সেন্ট্রয়েড স্থির হয়ে যায় (অথবা ডেটা পয়েন্টের ক্লাস্টার বরাদ্দে পরিবর্তন হয় না), ধাপ ২ ও ৩ পুনরাবৃত্তি করা হয়।

এই প্রক্রিয়াটি চলতে থাকে যতক্ষণ না ক্লাস্টারের সেন্ট্রয়েডে কোনো পরিবর্তন না ঘটে।

K-Means এর গুরুত্বপূর্ণ বৈশিষ্ট্য

ক্লাস্টারের সংখ্যা নির্ধারণ: K হল ক্লাস্টারের সংখ্যা, যা মডেলটি প্রশিক্ষণ দেওয়ার আগে নির্ধারণ করতে হয়। K মানের নির্বাচন একটি চ্যালেঞ্জ হতে পারে এবং সাধারণত Elbow Method বা Silhouette Score এর মতো কৌশল ব্যবহার করে এটি নির্ধারণ করা হয়।
ইউক্লিডিয়ান ডিসটেন্স: ক্লাস্টারগুলো সেন্ট্রয়েডের উপর ভিত্তি করে তৈরি হয়, এবং পয়েন্টের ক্লাস্টারে বরাদ্দের জন্য ইউক্লিডিয়ান ডিসটেন্স ব্যবহার করা হয়।
স্পিড: K-Means দ্রুত কাজ করে, বিশেষত বড় ডেটাসেটের জন্য। তবে এটি local minima তে আটকে যেতে পারে, তাই সঠিক initialization গুরুত্বপূর্ণ।
গণনা: K-Means হল একটি সহজ এবং গণনা দক্ষ ক্লাস্টারিং অ্যালগরিদম, তবে এটি non-convex ডেটাতে সঠিকভাবে কাজ নাও করতে পারে।

K-Means এর কিছু সীমাবদ্ধতা

K মানের পছন্দ: ক্লাস্টারের সংখ্যা K আগে থেকে নির্ধারণ করা উচিত, কিন্তু এটি অনেক সময় চ্যালেঞ্জিং হতে পারে।
অনমনীয়তা: K-Means কেবল সিমেট্রিক এবং গোলাকার ক্লাস্টার ভালোভাবে চিহ্নিত করতে পারে। ডেটা যদি সেমিট্রিক না হয় (যেমন: ভিন্ন আকার বা আন্ডুলেটেড), তবে এটি সঠিক ফলাফল নাও দিতে পারে।
আউটলাইয়ারের প্রভাব: K-Means আউটলাইয়ারের প্রভাবে খুব বেশি পরিবর্তিত হতে পারে। একটি আউটলাইয়ার সেন্ট্রয়েডের স্থান পরিবর্তন করতে পারে এবং এটি অন্য পয়েন্টগুলির ক্লাস্টারিং প্রভাবিত করতে পারে।

K-Means এর উদাহরণ

ধরা যাক, একটি ডেটাসেটে ১০০০টি গ্রাহকের আয় এবং বয়সের তথ্য আছে এবং আমরা এই গ্রাহকদের দুটি গ্রুপে বিভক্ত করতে চাই (যেমন: তরুণ গ্রাহক এবং বয়স্ক গ্রাহক)। এই ক্ষেত্রে K = 2 হবে।

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# উদাহরণ ডেটা তৈরি করা (এটি আপনার ডেটার পরিবর্তে ব্যবহার করা হবে)
X = np.array([[25, 20000], [30, 35000], [35, 40000], [40, 45000], [45, 50000], [50, 60000], [55, 70000]])

# K-Means মডেল তৈরি
kmeans = KMeans(n_clusters=2)

# মডেল প্রশিক্ষণ
kmeans.fit(X)

# ক্লাস্টারের সেন্ট্রয়েড গুলি
centroids = kmeans.cluster_centers_

# ক্লাস্টারগুলি
labels = kmeans.labels_

# গ্রাফে ক্লাস্টার প্রদর্শন
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='X')  # সেন্ট্রয়েড প্রদর্শন
plt.xlabel('Age')
plt.ylabel('Income')
plt.title('K-Means Clustering')
plt.show()

এটি আপনাকে ক্লাস্টারিং এর ফলাফল এবং সেন্ট্রয়েড প্রদর্শন করবে। গ্রাহকদের বয়স এবং আয়ের ভিত্তিতে কিভাবে তারা দুটি গ্রুপে বিভক্ত হচ্ছে তা দেখতে পারবেন।

Elbow Method

Elbow Method ব্যবহার করে আপনি K এর সঠিক মান নির্বাচন করতে পারেন। এটি একটি গ্রাফ তৈরি করে, যেখানে x-axis হলো K এর মান এবং y-axis হলো "Within-cluster Sum of Squares" (WCSS)। WCSS যত কম হবে, কেবল তখনই মডেল সঠিকভাবে ফিট হবে।

বিভিন্ন K মানের জন্য WCSS বের করুন।
WCSS গ্রাফের Elbow পয়েন্টটি চিহ্নিত করুন, যেখানে পরবর্তী K মানে WCSS হ্রাসের গতি ধীর হয়ে যায়। এই পয়েন্টটি আপনার K মান হবে।

সারাংশ

K-Means হল একটি দ্রুত এবং শক্তিশালী ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে K সংখ্যক ক্লাস্টারে ভাগ করে।
এটি সেন্ট্রয়েড নির্বাচন করে এবং ডেটা পয়েন্টগুলিকে সেন্ট্রয়েডের ভিত্তিতে ক্লাস্টারে বিভক্ত করে।
K (ক্লাস্টারের সংখ্যা) নির্ধারণ করা একটি গুরুত্বপূর্ণ এবং চ্যালেঞ্জিং পদক্ষেপ, যা Elbow Method বা Silhouette Score ব্যবহার করে নির্ধারণ করা হয়।
K-Means একটি সহজ, দ্রুত এবং কার্যকরী ক্লাস্টারিং অ্যালগরিদম, তবে এটি কিছু সীমাবদ্ধতার মুখোমুখি হতে পারে, যেমন আউটলাইয়ারের প্রভাব এবং সেমিট্রিক ডেটাতে অসুবিধা।

Content added By

Azizar Rahman Aziz

Unsupervised Learning এর ধারণা এবং Clustering

312

Unsupervised Learning এর ধারণা

Unsupervised Learning হল মেশিন লার্নিংয়ের একটি শাখা যেখানে ডেটাতে কোনও লেবেল (output labels) বা আউটপুট প্রদান করা হয় না। এই প্রকারের লার্নিংয়ে মডেল ডেটার মধ্যে গোপন প্যাটার্ন বা সম্পর্ক খুঁজে বের করার চেষ্টা করে। এক্ষেত্রে, মডেলটি শুধুমাত্র ইনপুট ডেটা দিয়ে কাজ করে এবং তার মধ্যে সংজ্ঞায়িত সম্পর্ক বা গঠন শনাক্ত করে।

Unsupervised Learning এর দুটি প্রধান কাজ হলো:

Clustering: ডেটাকে গ্রুপে ভাগ করা, যেখানে প্রতিটি গ্রুপের মধ্যে সাদৃশ্য থাকে।
Association: ডেটার মধ্যে সম্পর্ক বা অ্যাসোসিয়েশন চিহ্নিত করা, যেমন কোন আইটেমগুলি একসাথে কেনা হয় (market basket analysis)।

Unsupervised Learning সাধারণত তখন ব্যবহৃত হয় যখন আমাদের কাছে আউটপুট লেবেল থাকে না বা নতুন গ্রুপ বা সম্পর্ক শনাক্ত করতে হয়। এতে মডেলটি ডেটার বৈশিষ্ট্য অনুযায়ী গ্রুপিং বা সম্পর্ক খুঁজে বের করে।

Unsupervised Learning এর উদাহরণ:

Customer Segmentation: গ্রাহকদের বিভিন্ন আচরণের উপর ভিত্তি করে গ্রুপে ভাগ করা, যাতে মার্কেটিং প্রচারণাগুলি প্রতিটি গ্রুপের জন্য কাস্টমাইজ করা যায়।
Anomaly Detection: কোনো সিস্টেমে অস্বাভাবিক বা অপ্রত্যাশিত আচরণ শনাক্ত করা, যেমন ক্রেডিট কার্ড ফ্রড বা ইন্টারনেট সিকিউরিটি।
Recommendation Systems: ব্যবহারকারীদের আগের পছন্দের ভিত্তিতে তাদের জন্য নতুন পণ্য বা সেবা সুপারিশ করা।

Clustering (ক্লাস্টারিং)

Clustering হল Unsupervised Learning এর একটি প্রধান কৌশল, যেখানে ডেটাকে এমন গ্রুপ বা ক্লাস্টারে ভাগ করা হয়, যার মধ্যে একে অপরের সাথে বেশি সাদৃশ্য থাকে। এটি ডেটার বৈশিষ্ট্যের উপর ভিত্তি করে স্বতঃস্ফূর্তভাবে কাজ করে এবং প্রতিটি ডেটা পয়েন্টকে একটি গ্রুপে শ্রেণীভুক্ত করে।

Clustering এর মূল ধারণা:

Clusters: ডেটার একটি গ্রুপ বা সেট যেটি নিজেদের মধ্যে খুবই সাদৃশ্যপূর্ণ।
Centroid: ক্লাস্টারের কেন্দ্রবিন্দু বা গড় পয়েন্ট, যা ক্লাস্টারের প্রতিটি পয়েন্টের গড় মান।
Distance Metric: ক্লাস্টারগুলোর মধ্যে দূরত্ব পরিমাপ করার জন্য ব্যবহৃত মেট্রিক, যেমন Euclidean distance।

Clustering মেথড:

১. K-Means Clustering

K-Means হল একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে নির্দিষ্ট সংখ্যক (K) গ্রুপে ভাগ করে। এটি প্রতিটি ক্লাস্টারের জন্য একটি সেন্ট্রয়েড নির্বাচন করে এবং তারপর ডেটা পয়েন্টগুলোকে সবচেয়ে কাছাকাছি সেন্ট্রয়েডের সাথে গ্রুপ করে।

K-Means এর কাজের ধারা:

ক্লাস্টারের সংখ্যা নির্ধারণ: প্রথমে আপনাকে নির্ধারণ করতে হবে কতটি ক্লাস্টার (K) তৈরি করতে হবে।
সেন্ট্রয়েড নির্বাচন: K সংখ্যক সেন্ট্রয়েড র‍্যান্ডমলি নির্বাচন করা হয়।
ক্লাস্টারিং: প্রতিটি ডেটা পয়েন্টকে সেন্ট্রয়েডের সবচেয়ে কাছাকাছি ক্লাস্টারে অ্যাসাইন করা হয়।
সেন্ট্রয়েড আপডেট: প্রতিটি ক্লাস্টারের নতুন সেন্ট্রয়েড গড় পয়েন্ট হিসেবে গণনা করা হয়।
কনভার্জেন্স: এই প্রক্রিয়া পুনরাবৃত্তি করা হয় যতক্ষণ না সেন্ট্রয়েডে আর পরিবর্তন আসে।

২. Hierarchical Clustering

Hierarchical Clustering দুটি প্রধান ধাপের মাধ্যমে কাজ করে:

Agglomerative (bottom-up): শুরুতে প্রতিটি ডেটা পয়েন্ট একটি আলাদা ক্লাস্টার হিসেবে থাকে এবং তারপর সেগুলিকে একে একে যোগ করা হয়।
Divisive (top-down): শুরুতে সমস্ত ডেটাকে একটি ক্লাস্টারে রাখা হয় এবং তারপর সেটিকে ছোট ছোট ক্লাস্টারে ভাগ করা হয়।

৩. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN হল একটি ডেনসিটি-বেসড ক্লাস্টারিং অ্যালগরিদম, যা ডেটার ঘনত্বের উপর ভিত্তি করে ক্লাস্টার তৈরি করে। এটি ডেটার মধ্যে নয়েজ (noise) বা আউটলার (outlier) গুলি সহজেই চিহ্নিত করতে সক্ষম। এটি K-Means এর তুলনায় ভালো কাজ করে যখন ডেটা অনেকটাই অপ্রত্যাশিত এবং ঘনত্বে পরিবর্তনশীল।

K-Means Clustering এর উদাহরণ:

এখানে আমরা Scikit-learn লাইব্রেরি ব্যবহার করে একটি সাধারণ K-Means ক্লাস্টারিং উদাহরণ দেখাবো।

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# ডেটাসেট তৈরি করা (ডেটার মধ্যে তিনটি ক্লাস্টার তৈরি হবে)
X, y = make_blobs(n_samples=300, centers=3, cluster_std=0.60, random_state=0)

# K-Means ক্লাস্টারিং মডেল তৈরি করা
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# ক্লাস্টারের সেন্ট্রয়েড পাওয়ার জন্য
centroids = kmeans.cluster_centers_

# ক্লাস্টারগুলি আঁকা
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=50, cmap='viridis')

# সেন্ট্রয়েড আঁকা
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, alpha=0.5)
plt.title('K-Means Clustering')
plt.show()

এই কোডটি K-Means ক্লাস্টারিং অ্যালগরিদম ব্যবহার করে তিনটি ক্লাস্টারে ডেটা পয়েন্ট বিভক্ত করবে এবং ক্লাস্টারের সেন্ট্রয়েডগুলোকে রেড পয়েন্ট হিসেবে প্রদর্শন করবে।

ক্লাস্টারিং এর ব্যবহার:

Customer Segmentation: ব্যবসায়িক প্রতিষ্ঠানগুলি গ্রাহকদের আচরণ অনুযায়ী ক্লাস্টারে ভাগ করতে পারে।
Image Compression: ছবির পিক্সেলগুলি ক্লাস্টারে ভাগ করে ছবির আকার কমানো যায়।
Anomaly Detection: কোনও ডেটাতে অস্বাভাবিক বা ভিন্ন কিছু শনাক্ত করতে।

সারাংশ

Unsupervised Learning হল মেশিন লার্নিংয়ের একটি প্রকার যেখানে ডেটার আউটপুট লেবেল (labels) প্রদান করা হয় না এবং মডেলটি ডেটার মধ্যে সম্পর্ক বা প্যাটার্ন খুঁজে বের করে।
Clustering হল Unsupervised Learning এর একটি প্রধান কৌশল, যেখানে ডেটাকে সমজাতীয় গোষ্ঠীতে ভাগ করা হয়।
K-Means, Hierarchical Clustering, এবং DBSCAN হল ক্লাস্টারিংয়ের জনপ্রিয় পদ্ধতি, যা ডেটাকে বিভিন্নভাবে গ্রুপ করে বিশ্লেষণ করতে সহায়তা করে।

Unsupervised Learning বিশেষত তখন ব্যবহৃত হয় যখন আমাদের ডেটা থেকে নতুন তথ্য বা প্যাটার্ন খুঁজে বের করতে হয়, যেখানে আউটপুট লেবেলগুলি উপলব্ধ থাকে না।

Content added By

Azizar Rahman Aziz

K-Means Algorithm এর কাজের পদ্ধতি

351

K-Means একটি জনপ্রিয় আনসুপারভাইজড লার্নিং অ্যালগরিদম যা ক্লাস্টারিং সমস্যা সমাধানে ব্যবহৃত হয়। এর মাধ্যমে একটি ডেটাসেটকে নির্দিষ্ট সংখ্যক (K) ক্লাস্টারে বিভক্ত করা হয়, যেখানে একই ক্লাস্টারের ডেটাপয়েন্টগুলি একে অপরের কাছে থাকে এবং ভিন্ন ক্লাস্টারের ডেটাপয়েন্টগুলি পরস্পরের থেকে দূরে থাকে।

K-Means অ্যালগরিদমটি ফিচার স্পেস (Feature Space) এ ক্লাস্টারের কেন্দ্র (Centroids) খুঁজে বের করে এবং ডেটাকে সেই কেন্দ্রের কাছাকাছি গ্রুপ করে। এটি একটি ইটারেটিভ প্রক্রিয়া, যেখানে ক্লাস্টারের কেন্দ্রগুলি (centroids) আপডেট হয় এবং ডেটাপয়েন্টগুলির ক্লাস্টার অ্যাসাইনমেন্ট পরিবর্তিত হতে থাকে যতক্ষণ না কনভার্জেন্স না ঘটে (অথবা স্থির অবস্থায় না চলে আসে)।

K-Means এর কাজের পদ্ধতি:

১. K ক্লাস্টার সংখ্যা নির্বাচন করা:

প্রথমে, আপনাকে নির্ধারণ করতে হবে কতটি ক্লাস্টার (K) তৈরি করতে চান। এই K মানটি সঠিকভাবে নির্বাচন করা খুবই গুরুত্বপূর্ণ, কারণ এটি মডেলের কার্যকারিতা এবং বিশ্লেষণকে প্রভাবিত করবে।

২. র্যান্ডমলি K পয়েন্ট নির্বাচন করা:

ডেটাসেট থেকে Kটি পয়েন্ট র্যান্ডমভাবে নির্বাচন করা হয়। এই পয়েন্টগুলোই শুরুতে ক্লাস্টার সেন্ট্রয়েড হিসেবে কাজ করবে।

৩. ক্লাস্টার অ্যাসাইনমেন্ট:

প্রতিটি ডেটাপয়েন্টের জন্য, এটি যে ক্লাস্টারের কাছাকাছি রয়েছে সেই ক্লাস্টারে অ্যাসাইন করা হয়। অর্থাৎ, ডেটাপয়েন্টগুলোকে তাদের নিকটতম সেন্ট্রয়েডের সাথে সম্পর্কিত ক্লাস্টারে গুচ্ছিত করা হয়। সাধারণত, ইউক্লিডিয়ান ডিস্ট্যান্স (Euclidean Distance) ব্যবহার করা হয় দুইটি পয়েন্টের মধ্যে দূরত্ব পরিমাপ করতে।

৪. ক্লাস্টার সেন্ট্রয়েড আপডেট করা:

একবার প্রতিটি ডেটাপয়েন্ট তার ক্লাস্টারে অ্যাসাইন হয়ে গেলে, প্রত্যেকটি ক্লাস্টারের নতুন সেন্ট্রয়েড (গড় পয়েন্ট) গণনা করা হয়। এই সেন্ট্রয়েড হলো ক্লাস্টারের সমস্ত ডেটাপয়েন্টের গড় অবস্থান।

৫. ধাপ ৩ এবং ৪ পুনরাবৃত্তি করা:

৩য় এবং ৪র্থ ধাপগুলো বারবার পুনরাবৃত্তি করা হয় যতক্ষণ না ক্লাস্টারের সেন্ট্রয়েড স্থির না হয়ে যায়। অর্থাৎ, সেন্ট্রয়েড আর পরিবর্তিত হয় না এবং ক্লাস্টারের মধ্যে কোন ডেটাপয়েন্টের পরিবর্তন ঘটে না।

৬. কনভার্জেন্স (Convergence):

যখন ক্লাস্টারের সেন্ট্রয়েডের অবস্থান আর পরিবর্তিত না হয় বা ডেটাপয়েন্টের অ্যাসাইনমেন্টে কোনো পরিবর্তন না হয়, তখন অ্যালগরিদম কনভার্জ হয় এবং এটি থামিয়ে দেওয়া হয়।

K-Means এর গাণিতিক ভিত্তি:

K-Means অ্যালগরিদমটি ক্লাস্টারিং কস্ট ফাংশন (Objective Function) মিনিমাইজ করার চেষ্টা করে। কস্ট ফাংশন হলো:

$J = \sum_{i=1}^{K} \sum_{x_j \in C_i} || x_j - \mu_i ||^2$

এখানে:

$K$ হল ক্লাস্টারের সংখ্যা
$C_i$ হল ক্লাস্টার $i$ -এর সদস্য
$x_j$ হল ডেটাপয়েন্ট $j$
$\mu_i$ হল ক্লাস্টার $i$ -এর সেন্ট্রয়েড
$|| x_j - \mu_i ||^2$ হল ইউক্লিডিয়ান দূরত্বের বর্গ

K-Means এর প্রধান পদক্ষেপগুলো:

K পয়েন্ট র্যান্ডমলি নির্বাচন করা।
ডেটাপয়েন্টগুলোকে তাদের নিকটতম সেন্ট্রয়েডের ক্লাস্টারে অ্যাসাইন করা।
প্রতিটি ক্লাস্টারের নতুন সেন্ট্রয়েড গণনা করা।
পূর্বের ক্লাস্টারের সেন্ট্রয়েডের সাথে নতুন সেন্ট্রয়েডের তুলনা করা।
কনভার্জেন্স না হওয়া পর্যন্ত ধাপগুলো পুনরাবৃত্তি করা।

K-Means এর সুবিধা:

সহজ এবং দ্রুত: এটি খুবই সহজ অ্যালগরিদম এবং বড় ডেটাসেটের জন্য দ্রুত কাজ করে।
কম্পিউটেশনালভাবে কার্যকরী: K-Means তুলনামূলকভাবে কম্পিউটেশনাল রিসোর্স ব্যবহার করে, যা বড় ডেটাসেটের জন্য উপকারী।
ব্যবহার সহজ: এই অ্যালগরিদমটি সহজে বাস্তবায়িত করা যায় এবং ব্যবহারের জন্য বেশ উপযোগী।

K-Means এর অসুবিধা:

K নির্ধারণের সমস্যা: সঠিক K নির্বাচন করা একটি চ্যালেঞ্জ হতে পারে, কারণ এটি অ্যালগরিদমের কার্যকারিতা প্রভাবিত করে।
অনুমানকৃত ক্লাস্টার আকার: K-Means সব ক্লাস্টারের আকার একরকম ধরি এবং এটি অসংগঠিত ক্লাস্টার গঠন করতে পারে।
স্পর্শকাতর শুরু (Sensitive to initialization): যদি সেন্ট্রয়েডের প্রাথমিক নির্বাচনে সমস্যা হয় (যেমন র্যান্ডম সেন্ট্রয়েড নির্বাচন), তাহলে এটি স্থানীয় মিনিমাম (local minimum) এ আটকে যেতে পারে।
অ্যালগরিদমটি গোলমালযুক্ত (Noise-sensitive): অতিরিক্ত বা অস্বাভাবিক ডেটা পয়েন্টগুলি কিভাবে ট্রিট করা হবে তা স্পষ্ট নয়, যা ক্লাস্টারিং প্রক্রিয়ায় সমস্যা তৈরি করতে পারে।

K-Means এর উদাহরণ (Python):

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# কৃত্রিম ডেটাসেট তৈরি করা
X, _ = make_blobs(n_samples=300, centers=4, random_state=42)

# K-Means মডেল তৈরি করা
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# ক্লাস্টারের সেন্ট্রয়েড
centroids = kmeans.cluster_centers_

# ডেটা পয়েন্ট এবং সেন্ট্রয়েড প্লট করা
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='red', marker='X') # সেন্ট্রয়েড
plt.title("K-Means Clustering")
plt.show()

এই কোডটি একটি কৃত্রিম ডেটাসেট তৈরি করবে এবং K-Means অ্যালগরিদম ব্যবহার করে ৪টি ক্লাস্টারে ডেটা পয়েন্টগুলো বিভক্ত করবে, যেখানে সেন্ট্রয়েডগুলো লাল 'X' দিয়ে চিহ্নিত থাকবে।

সারাংশ:

K-Means একটি শক্তিশালী এবং জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে $K$ সংখ্যক ক্লাস্টারে বিভক্ত করে। এটি র্যান্ডমলি সেন্ট্রয়েড নির্বাচন করে এবং ডেটা পয়েন্টগুলোকে তাদের নিকটতম সেন্ট্রয়েডের সাথে সম্পর্কিত ক্লাস্টারে অ্যাসাইন করে। এর পর, সেন্ট্রয়েড আপডেট করা হয় এবং এই প্রক্রিয়া পুনরাবৃত্তি করা হয় যতক্ষণ না কনভার্জেন্স ঘটে।

Content added By

Azizar Rahman Aziz

Python এ K-Means Clustering মডেল তৈরি করা

347

K-Means Clustering হল একটি জনপ্রিয় আনসুপারভাইজড লার্নিং অ্যালগরিদম, যা ডেটাকে K সংখ্যক ক্লাস্টারে বিভক্ত করে। K-Means একটি ডেটাসেটের মধ্যে এমন প্যাটার্ন বা গ্রুপ খুঁজে বের করার চেষ্টা করে, যেখানে প্রতিটি গ্রুপের ডেটা পয়েন্টগুলি একে অপরের কাছে সাদৃশ্যপূর্ণ।

K-Means Clustering এর পদক্ষেপ:

K-টি ক্লাস্টারের সেন্ট্রয়েড চয়ন: প্রথমে Kটি ক্লাস্টার সেন্ট্রয়েড (গড়) র্যান্ডমভাবে নির্বাচন করা হয়।
ডেটা পয়েন্ট ক্লাস্টারের সাথে অ্যাসাইনমেন্ট: প্রতিটি ডেটা পয়েন্ট তার নিকটতম সেন্ট্রয়েডের সাথে ক্লাস্টারে অ্যাসাইন করা হয়।
সেন্ট্রয়েড আপডেট: প্রতিটি ক্লাস্টারের সেন্ট্রয়েড নতুনভাবে হিসাব করা হয়।
ধাপ ২ এবং ৩ পুনরাবৃত্তি করা: যতক্ষণ না সেন্ট্রয়েডগুলো স্থির হয়ে যায়।

এখন চলুন Scikit-learn ব্যবহার করে K-Means Clustering মডেল তৈরি করি।

K-Means Clustering উদাহরণ:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# সিমুলেটেড ডেটা তৈরি
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# K-Means মডেল তৈরি (K = 4 ক্লাস্টার)
kmeans = KMeans(n_clusters=4)

# মডেল প্রশিক্ষণ
kmeans.fit(X)

# পূর্বানুমান (কোন ডেটা পয়েন্ট কোন ক্লাস্টারে)
y_kmeans = kmeans.predict(X)

# ক্লাস্টারের সেন্ট্রয়েড
centers = kmeans.cluster_centers_

# ক্লাস্টার এবং সেন্ট্রয়েড প্লট করা
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

# সেন্ট্রয়েডগুলি চিহ্নিত করা
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')
plt.title('K-Means Clustering')
plt.show()

কোড বিশ্লেষণ:

ডেটা তৈরি: make_blobs() ফাংশন দিয়ে আমরা ৪টি কেন্দ্রের সঙ্গে সিমুলেটেড ডেটা তৈরি করেছি, যা আমাদের ক্লাস্টারিংয়ের জন্য ব্যবহার হবে।
K-Means মডেল তৈরি: KMeans(n_clusters=4) দিয়ে ৪টি ক্লাস্টার চয়ন করা হয়েছে।
মডেল প্রশিক্ষণ: fit(X) দিয়ে মডেলটি ডেটার ওপর প্রশিক্ষণ দেয়া হয়েছে।
পূর্বানুমান: predict(X) দিয়ে প্রতিটি ডেটা পয়েন্টের ক্লাস্টার নির্বাচন করা হয়েছে।
ক্লাস্টার সেন্ট্রয়েড: cluster_centers_ দিয়ে ক্লাস্টারগুলোর সেন্ট্রয়েড বের করা হয়েছে।
ভিজ্যুয়ালাইজেশন: matplotlib দিয়ে ডেটা এবং ক্লাস্টার সেন্ট্রয়েডগুলো প্লট করা হয়েছে।

ফলাফল:

এই কোডটি চলানোর পর আপনি একটি গ্রাফ পাবেন যেখানে ডেটা পয়েন্টগুলি বিভিন্ন রঙে বিভক্ত হবে, এবং ক্লাস্টারের সেন্ট্রয়েডগুলি লাল X চিহ্ন দিয়ে প্রদর্শিত হবে।

Hyperparameter Tuning (Elbow Method):

কখনও কখনও ক্লাস্টারের সঠিক সংখ্যা খুঁজে বের করার জন্য Elbow Method ব্যবহার করা হয়, যা K-এর জন্য উপযুক্ত মান নির্ধারণে সাহায্য করে। এর মাধ্যমে একটি গ্রাফ তৈরি করা হয় যেখানে কিভাবে ক-এর মান পরিবর্তন হলে ক্লাস্টারের ইনর্শিয়া (Within-cluster Sum of Squares) পরিবর্তিত হয় তা দেখা যায়।

# Elbow Method এর মাধ্যমে K নির্ধারণ
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

# ইনর্শিয়া গ্রাফ
plt.plot(range(1, 11), inertia)
plt.title('Elbow Method')
plt.xlabel('Number of Clusters (K)')
plt.ylabel('Inertia')
plt.show()

এটি একটি গ্রাফ তৈরি করবে, যেখানে আপনি দেখতে পাবেন যে, কোথায় ইনর্শিয়ার সাপেক্ষে সঠিক ক পয়েন্টে “কোজি বাঁক” বা "elbow" তৈরি হচ্ছে।

সারাংশ:

K-Means Clustering হল একটি জনপ্রিয় ক্লাস্টারিং অ্যালগরিদম যা ডেটাকে Kটি ক্লাস্টারে বিভক্ত করে।
Scikit-learn লাইব্রেরি ব্যবহার করে Python এ সহজেই K-Means মডেল তৈরি করা যায়।
Elbow Method ব্যবহার করে সঠিক K সংখ্যক ক্লাস্টার নির্বাচন করা যেতে পারে।

Content added By

Azizar Rahman Aziz

Cluster Visualization এবং Model Evaluation

358

Cluster Visualization

ক্লাস্টার ভিজ্যুয়ালাইজেশন হল ডেটার গ্রুপ বা ক্লাস্টারগুলিকে ভিজ্যুয়ালি প্রদর্শন করার প্রক্রিয়া। এটি ডেটার মধ্যে সম্পর্ক এবং বিভাজন (separation) সহজে বোঝার জন্য গুরুত্বপূর্ণ, বিশেষত যখন আপনি আনসুপারভাইজড লার্নিং মেথড (যেমন K-Means Clustering) ব্যবহার করছেন। এটি মডেলের ফলাফল এবং ডেটার গঠন বিশ্লেষণ করতে সাহায্য করে।

K-Means Clustering ভিজ্যুয়ালাইজেশন উদাহরণ:

এখানে K-Means ক্লাস্টারিং ব্যবহার করে ক্লাস্টার ভিজ্যুয়ালাইজেশন কিভাবে করা যায় তা দেখানো হলো:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# ডেটাসেট তৈরি করা (২ ডাইমেনশনাল ডেটা)
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# KMeans ক্লাস্টারিং মডেল তৈরি
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)

# ক্লাস্টার সেন্টার
centers = kmeans.cluster_centers_

# ক্লাস্টার এশাইনমেন্ট (কোন পয়েন্ট কোন ক্লাস্টারে আছে)
y_kmeans = kmeans.predict(X)

# ডেটা পয়েন্ট এবং ক্লাস্টার সেন্টার প্লট করা
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.title('K-Means Clustering')
plt.show()

এটি ক্লাস্টারিংয়ের ফলাফলকে ভিজ্যুয়ালি প্রদর্শন করবে, যেখানে ক্লাস্টারের প্রতিটি পয়েন্ট একটি ভিন্ন রঙে দেখানো হবে এবং ক্লাস্টারের কেন্দ্রকে লাল দিয়ে চিহ্নিত করা হবে।

Model Evaluation

মডেল মূল্যায়ন (Model Evaluation) মেশিন লার্নিং মডেলের কার্যকারিতা পরিমাপের প্রক্রিয়া। এটি আমাদের জানায় যে মডেলটি প্রশিক্ষণ এবং টেস্ট ডেটার ওপর কতটা সফলভাবে কাজ করছে। মডেল মূল্যায়নের জন্য বিভিন্ন মেট্রিক্স এবং টুলস ব্যবহার করা হয়, যা মডেলের গুণগতমান পরীক্ষা করতে সহায়ক।

Model Evaluation মেট্রিক্স:

Accuracy:
- এটি সবচেয়ে সাধারণ মেট্রিক, যা সঠিক পূর্বানুমানিত আউটপুটের অনুপাত হিসাব করে।
- গাণিতিক রূপ: $Accuracy = \frac{True Positives + True Negatives}{Total Predictions}$
Precision:
- এটি মডেল কতটা সঠিকভাবে পজিটিভ ক্লাস (যেমন, স্প্যাম ইমেইল) সনাক্ত করছে তা দেখায়।
- গাণিতিক রূপ: $Precision = \frac{True Positives}{True Positives + False Positives}$
Recall:
- এটি মডেল কতটা সঠিকভাবে পজিটিভ ক্লাস সনাক্ত করছে, বিশেষ করে যখন ফালস পজিটিভ সংখ্যা কমিয়ে আনা উচিত।
- গাণিতিক রূপ: $Recall = \frac{True Positives}{True Positives + False Negatives}$
F1-Score:
- এটি Precision এবং Recall এর ভারসাম্যপূর্ণ পরিমাপ। যখন Precision এবং Recall এর মধ্যে একটি পরিবর্তন বেশি হতে পারে, তখন F1-Score গুরুত্বপূর্ণ হয়ে ওঠে।
- গাণিতিক রূপ: $F1-Score = 2 \times \frac{Precision \times Recall}{Precision + Recall}$
Confusion Matrix:
- এটি সঠিক এবং ভুল শ্রেণীভুক্তকরণের একটি টেবিল, যেখানে True Positives (TP), False Positives (FP), True Negatives (TN) এবং False Negatives (FN) দেখানো হয়।

from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Confusion Matrix তৈরি করা
y_pred = model.predict(X_test)
cm = confusion_matrix(y_test, y_pred)

# Heatmap ব্যবহার করে কনফিউশন ম্যাট্রিক্স ভিজ্যুয়ালাইজ করা
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=model.classes_, yticklabels=model.classes_)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

ROC Curve (Receiver Operating Characteristic Curve):
- এটি একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন যা মডেলের পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। ROC কিউভটি ফালস পজিটিভ রেট (FPR) এবং প্রকৃত পজিটিভ রেট (TPR) এর মধ্যে সম্পর্ক দেখায়।
- AUC (Area Under the Curve) হল ROC কিউভের নিচের এলাকার পরিমাণ, যা মডেলের সঠিকতার পরিমাপ।

from sklearn.metrics import roc_curve, auc

# False Positive Rate এবং True Positive Rate হিসাব করা
fpr, tpr, thresholds = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

# ROC Curve প্লট করা
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

সারাংশ

Cluster Visualization: এটি ডেটার মধ্যে সম্পর্ক এবং বিভাজন (separation) বুঝতে সাহায্য করে। K-Means ক্লাস্টারিং মডেলের ভিজ্যুয়ালাইজেশন এর মাধ্যমে ক্লাস্টারগুলো আলাদা এবং তাদের কেন্দ্র বুঝতে সহায়তা করা যায়।
Model Evaluation: মডেল মূল্যায়ন বিভিন্ন মেট্রিক্স (Accuracy, Precision, Recall, F1-Score, Confusion Matrix) ব্যবহার করে মডেলের কার্যকারিতা পরিমাপ করা হয়। এটি মডেলের সঠিকতা, ভুল সিদ্ধান্ত এবং সামগ্রিক কার্যকারিতা পরীক্ষা করতে সাহায্য করে। ROC Curve এবং AUC ব্যবহার করা হয় মডেলের পারফরম্যান্স আরও গভীরভাবে বিশ্লেষণ করার জন্য।

এই ধাপগুলির মাধ্যমে আপনি একটি মডেল তৈরি করতে পারেন, যা ডেটার মধ্যে সম্পর্ক বুঝতে পারে এবং সঠিকভাবে পূর্বানুমান করতে সক্ষম হয়।

Content added By

Azizar Rahman Aziz

পাইথন মেশিন লার্নিং পরিচিতি Python সেটআপ এবং প্রয়োজনীয় লাইব্রেরি ডেটা ম্যানিপুলেশন এবং প্রি-প্রসেসিং Exploratory Data Analysis (EDA) মেশিন লার্নিং এর বেসিক অ্যালগরিদম

K-Means Clustering

K-Means এর কাজের প্রক্রিয়া

K-Means এর গুরুত্বপূর্ণ বৈশিষ্ট্য

K-Means এর কিছু সীমাবদ্ধতা

K-Means এর উদাহরণ

Elbow Method

সারাংশ

Unsupervised Learning এর ধারণা এবং Clustering

Unsupervised Learning এর ধারণা

Unsupervised Learning এর উদাহরণ:

Clustering (ক্লাস্টারিং)

Clustering এর মূল ধারণা:

Clustering মেথড:

১. K-Means Clustering

K-Means এর কাজের ধারা:

২. Hierarchical Clustering

৩. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

K-Means Clustering এর উদাহরণ:

ক্লাস্টারিং এর ব্যবহার:

সারাংশ

K-Means Algorithm এর কাজের পদ্ধতি

K-Means এর কাজের পদ্ধতি:

১. K ক্লাস্টার সংখ্যা নির্বাচন করা:

২. র্যান্ডমলি K পয়েন্ট নির্বাচন করা:

৩. ক্লাস্টার অ্যাসাইনমেন্ট:

৪. ক্লাস্টার সেন্ট্রয়েড আপডেট করা:

৫. ধাপ ৩ এবং ৪ পুনরাবৃত্তি করা:

৬. কনভার্জেন্স (Convergence):

K-Means এর গাণিতিক ভিত্তি:

K-Means এর প্রধান পদক্ষেপগুলো:

K-Means এর সুবিধা:

K-Means এর অসুবিধা:

K-Means এর উদাহরণ (Python):

সারাংশ:

Python এ K-Means Clustering মডেল তৈরি করা

K-Means Clustering এর পদক্ষেপ:

K-Means Clustering উদাহরণ:

কোড বিশ্লেষণ:

ফলাফল:

Hyperparameter Tuning (Elbow Method):

সারাংশ:

Cluster Visualization এবং Model Evaluation

Cluster Visualization

K-Means Clustering ভিজ্যুয়ালাইজেশন উদাহরণ:

Model Evaluation

Model Evaluation মেট্রিক্স:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!