Scikit-Learn একটি শক্তিশালী লাইব্রেরি যা মেশিন লার্নিং এবং ডেটা সায়েন্স কাজের জন্য অনেক গুরুত্বপূর্ণ মডিউল এবং লাইব্রেরি সরবরাহ করে। এই মডিউলগুলি বিভিন্ন ধরনের মডেল তৈরির জন্য ব্যবহৃত হয়, ডেটা প্রি-প্রসেসিং ও বিশ্লেষণের জন্য সহায়ক এবং মডেল সিলেকশন ও ইভ্যালুয়েশনের জন্য ব্যবহৃত হয়।
১. sklearn.datasets
এই মডিউলটি বিভিন্ন বিল্ট-ইন ডেটাসেট সরবরাহ করে যা মেশিন লার্নিং মডেল তৈরি ও পরীক্ষা করার জন্য ব্যবহার করা হয়। এটি ছোট ডেটাসেট যেমন আইরিস ডেটাসেট, ডিগিট ডেটাসেট ইত্যাদি সরবরাহ করে।
load_iris(): আইরিস ফুলের ডেটাসেট।load_digits(): ডিজিটাল হাতের লেখার ডেটাসেট।load_boston(): বস্টন হাউজ প্রাইস ডেটাসেট।
উদাহরণ:
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
২. sklearn.model_selection
এই মডিউলটি মডেল সিলেকশন এবং কনফিগারেশনের জন্য ব্যবহৃত হয়। ডেটা ট্রেনিং এবং টেস্ট সেটে ভাগ করার জন্য, হাইপারপ্যারামিটার টিউনিং এবং ক্রস-ভ্যালিডেশন পরিচালনা করতে ব্যবহৃত হয়।
train_test_split(): ডেটাকে ট্রেন এবং টেস্ট সেটে ভাগ করা।GridSearchCV(): গ্রিড সার্চের মাধ্যমে মডেল হাইপারপ্যারামিটার টিউন করা।cross_val_score(): ক্রস-ভ্যালিডেশন ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন।
উদাহরণ:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
৩. sklearn.linear_model
এই মডিউলটি লিনিয়ার মডেলগুলোর জন্য ব্যবহৃত হয়, যেমন লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন ইত্যাদি। এটি মডেল ট্রেনিং এবং প্রেডিকশন করার জন্য ব্যবহৃত হয়।
LinearRegression(): লিনিয়ার রিগ্রেশন মডেল।LogisticRegression(): লজিস্টিক রিগ্রেশন মডেল (ক্লাসিফিকেশন সমস্যার জন্য)।Ridge(): রিজ রিগ্রেশন (রেগুলারাইজেশন সহ লিনিয়ার রিগ্রেশন)।
উদাহরণ:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
৪. sklearn.ensemble
এনসেম্বেল মেথডস হল একাধিক মডেল মিশিয়ে একটি শক্তিশালী মডেল তৈরি করার পদ্ধতি। এটি র্যান্ডম ফরেস্ট, গ্রেডিয়েন্ট বুস্টিং, অ্যাডাবুস্টের মতো মডেল সমর্থন করে।
RandomForestClassifier(): র্যান্ডম ফরেস্ট ক্লাসিফায়ার।GradientBoostingClassifier(): গ্রেডিয়েন্ট বুস্টিং ক্লাসিফায়ার।AdaBoostClassifier(): অ্যাডাবুস্ট ক্লাসিফায়ার।
উদাহরণ:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
৫. sklearn.cluster
এই মডিউলটি ক্লাস্টারিং অ্যালগরিদম সমর্থন করে, যা ডেটাকে গ্রুপে ভাগ করতে ব্যবহৃত হয়। K-Means এবং DBSCAN এর মতো অ্যালগরিদমগুলি এর মধ্যে অন্তর্ভুক্ত।
KMeans(): K-Means ক্লাস্টারিং অ্যালগরিদম।DBSCAN(): DBSCAN (Density-Based Spatial Clustering of Applications with Noise)।
উদাহরণ:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(X)
৬. sklearn.metrics
এ মডিউলটি বিভিন্ন মেট্রিক্স সরবরাহ করে, যা মডেল ইভ্যালুয়েশন এবং মডেলের পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। একুরেসি, কনফিউশন ম্যাট্রিক্স, রিগ্রেশন মেট্রিক্সের মতো বিভিন্ন মেট্রিক্স এখানে পাওয়া যায়।
accuracy_score(): ক্লাসিফিকেশন মডেলের জন্য একুরেসি স্কোর।mean_squared_error(): রিগ্রেশন মডেলের জন্য গড় বর্গ ত্রুটি।confusion_matrix(): ক্লাসিফিকেশন মডেলের কনফিউশন ম্যাট্রিক্স।
উদাহরণ:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, predictions)
৭. sklearn.preprocessing
ডেটা প্রি-প্রসেসিং মডিউল যা ডেটাকে বিভিন্ন প্রক্রিয়া মাধ্যমে প্রস্তুত করার জন্য ব্যবহৃত হয়, যেমন স্কেলিং, এনকোডিং, এবং ডেটার সাধারণীকরণ।
StandardScaler(): ডেটাকে স্ট্যান্ডার্ডাইজ করা (mean=0, variance=1)।MinMaxScaler(): ডেটাকে 0 থেকে 1 এর মধ্যে স্কেলিং করা।LabelEncoder(): ক্যাটেগরিক্যাল ডেটা এনকোড করা।
উদাহরণ:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
৮. sklearn.decomposition
ডাইমেনশনালিটি রিডাকশনের জন্য ব্যবহৃত মডিউল, যেমন PCA (Principal Component Analysis) যা ডেটা থেকে অপ্রয়োজনীয় ফিচারগুলি সরিয়ে ডেটার আকার কমায়।
PCA(): প্রিন্সিপাল কম্পোনেন্ট অ্যানালিসিস (PCA)।NMF(): নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন।
উদাহরণ:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
৯. sklearn.svm
এই মডিউলটি সাপোর্ট ভেক্টর মেশিন (SVM) অ্যালগরিদম সমর্থন করে, যা ক্লাসিফিকেশন এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।
SVC(): সাপোর্ট ভেক্টর ক্লাসিফায়ার (SVM ক্লাসিফিকেশন সমস্যা জন্য)।SVR(): সাপোর্ট ভেক্টর রিগ্রেশন (SVM রিগ্রেশন সমস্যা জন্য)।
উদাহরণ:
from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)
১০. sklearn.pipeline
এই মডিউলটি ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিং স্টেপগুলি একত্রিত করার জন্য ব্যবহৃত হয়। এটি সহজভাবে একাধিক স্টেপের মাধ্যমে ডেটা প্রসেস এবং মডেল ফিট করতে সহায়ক।
Pipeline(): একাধিক প্রসেসিং স্টেপকে একত্রিত করা।
উদাহরণ:
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('scaler', StandardScaler()),
('classifier', RandomForestClassifier())
])
pipeline.fit(X_train, y_train)
সারাংশ
Scikit-Learn একটি অত্যন্ত শক্তিশালী এবং ব্যবহারকারী-বান্ধব মেশিন লার্নিং লাইব্রেরি, যা ডেটা সায়েন্স, মেশিন লার্নিং এবং স্ট্যাটিস্টিক্স প্রকল্পে ব্যবহৃত হয়। এর মডিউল এবং লাইব্রেরিগুলি মডেল তৈরি, প্রশিক্ষণ, এবং মূল্যায়ন সহজ করে তোলে এবং মেশিন লার্নিংয়ের বিভিন্ন দিক যেমন ক্লাসিফিকেশন, রিগ্রেশন, ক্লাস্টারিং, ডাইমেনশনালিটি রিডাকশন এবং মডেল সিলেকশনের জন্য টুলস প্রদান করে।
Read more