Scikit-Learn এর গুরুত্বপূর্ণ মডিউল এবং লাইব্রেরি

Scikit-Learn পরিচিতি - সাইকিট-লার্ন (Scikit-Learn) - Machine Learning

377

Scikit-Learn একটি শক্তিশালী লাইব্রেরি যা মেশিন লার্নিং এবং ডেটা সায়েন্স কাজের জন্য অনেক গুরুত্বপূর্ণ মডিউল এবং লাইব্রেরি সরবরাহ করে। এই মডিউলগুলি বিভিন্ন ধরনের মডেল তৈরির জন্য ব্যবহৃত হয়, ডেটা প্রি-প্রসেসিং ও বিশ্লেষণের জন্য সহায়ক এবং মডেল সিলেকশন ও ইভ্যালুয়েশনের জন্য ব্যবহৃত হয়।


১. sklearn.datasets

এই মডিউলটি বিভিন্ন বিল্ট-ইন ডেটাসেট সরবরাহ করে যা মেশিন লার্নিং মডেল তৈরি ও পরীক্ষা করার জন্য ব্যবহার করা হয়। এটি ছোট ডেটাসেট যেমন আইরিস ডেটাসেট, ডিগিট ডেটাসেট ইত্যাদি সরবরাহ করে।

  • load_iris(): আইরিস ফুলের ডেটাসেট।
  • load_digits(): ডিজিটাল হাতের লেখার ডেটাসেট।
  • load_boston(): বস্টন হাউজ প্রাইস ডেটাসেট।

উদাহরণ:

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target

২. sklearn.model_selection

এই মডিউলটি মডেল সিলেকশন এবং কনফিগারেশনের জন্য ব্যবহৃত হয়। ডেটা ট্রেনিং এবং টেস্ট সেটে ভাগ করার জন্য, হাইপারপ্যারামিটার টিউনিং এবং ক্রস-ভ্যালিডেশন পরিচালনা করতে ব্যবহৃত হয়।

  • train_test_split(): ডেটাকে ট্রেন এবং টেস্ট সেটে ভাগ করা।
  • GridSearchCV(): গ্রিড সার্চের মাধ্যমে মডেল হাইপারপ্যারামিটার টিউন করা।
  • cross_val_score(): ক্রস-ভ্যালিডেশন ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন।

উদাহরণ:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

৩. sklearn.linear_model

এই মডিউলটি লিনিয়ার মডেলগুলোর জন্য ব্যবহৃত হয়, যেমন লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন ইত্যাদি। এটি মডেল ট্রেনিং এবং প্রেডিকশন করার জন্য ব্যবহৃত হয়।

  • LinearRegression(): লিনিয়ার রিগ্রেশন মডেল।
  • LogisticRegression(): লজিস্টিক রিগ্রেশন মডেল (ক্লাসিফিকেশন সমস্যার জন্য)।
  • Ridge(): রিজ রিগ্রেশন (রেগুলারাইজেশন সহ লিনিয়ার রিগ্রেশন)।

উদাহরণ:

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

৪. sklearn.ensemble

এনসেম্বেল মেথডস হল একাধিক মডেল মিশিয়ে একটি শক্তিশালী মডেল তৈরি করার পদ্ধতি। এটি র‍্যান্ডম ফরেস্ট, গ্রেডিয়েন্ট বুস্টিং, অ্যাডাবুস্টের মতো মডেল সমর্থন করে।

  • RandomForestClassifier(): র‍্যান্ডম ফরেস্ট ক্লাসিফায়ার।
  • GradientBoostingClassifier(): গ্রেডিয়েন্ট বুস্টিং ক্লাসিফায়ার।
  • AdaBoostClassifier(): অ্যাডাবুস্ট ক্লাসিফায়ার।

উদাহরণ:

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)

৫. sklearn.cluster

এই মডিউলটি ক্লাস্টারিং অ্যালগরিদম সমর্থন করে, যা ডেটাকে গ্রুপে ভাগ করতে ব্যবহৃত হয়। K-Means এবং DBSCAN এর মতো অ্যালগরিদমগুলি এর মধ্যে অন্তর্ভুক্ত।

  • KMeans(): K-Means ক্লাস্টারিং অ্যালগরিদম।
  • DBSCAN(): DBSCAN (Density-Based Spatial Clustering of Applications with Noise)।

উদাহরণ:

from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(X)

৬. sklearn.metrics

এ মডিউলটি বিভিন্ন মেট্রিক্স সরবরাহ করে, যা মডেল ইভ্যালুয়েশন এবং মডেলের পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। একুরেসি, কনফিউশন ম্যাট্রিক্স, রিগ্রেশন মেট্রিক্সের মতো বিভিন্ন মেট্রিক্স এখানে পাওয়া যায়।

  • accuracy_score(): ক্লাসিফিকেশন মডেলের জন্য একুরেসি স্কোর।
  • mean_squared_error(): রিগ্রেশন মডেলের জন্য গড় বর্গ ত্রুটি।
  • confusion_matrix(): ক্লাসিফিকেশন মডেলের কনফিউশন ম্যাট্রিক্স।

উদাহরণ:

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, predictions)

৭. sklearn.preprocessing

ডেটা প্রি-প্রসেসিং মডিউল যা ডেটাকে বিভিন্ন প্রক্রিয়া মাধ্যমে প্রস্তুত করার জন্য ব্যবহৃত হয়, যেমন স্কেলিং, এনকোডিং, এবং ডেটার সাধারণীকরণ।

  • StandardScaler(): ডেটাকে স্ট্যান্ডার্ডাইজ করা (mean=0, variance=1)।
  • MinMaxScaler(): ডেটাকে 0 থেকে 1 এর মধ্যে স্কেলিং করা।
  • LabelEncoder(): ক্যাটেগরিক্যাল ডেটা এনকোড করা।

উদাহরণ:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

৮. sklearn.decomposition

ডাইমেনশনালিটি রিডাকশনের জন্য ব্যবহৃত মডিউল, যেমন PCA (Principal Component Analysis) যা ডেটা থেকে অপ্রয়োজনীয় ফিচারগুলি সরিয়ে ডেটার আকার কমায়।

  • PCA(): প্রিন্সিপাল কম্পোনেন্ট অ্যানালিসিস (PCA)।
  • NMF(): নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন।

উদাহরণ:

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

৯. sklearn.svm

এই মডিউলটি সাপোর্ট ভেক্টর মেশিন (SVM) অ্যালগরিদম সমর্থন করে, যা ক্লাসিফিকেশন এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।

  • SVC(): সাপোর্ট ভেক্টর ক্লাসিফায়ার (SVM ক্লাসিফিকেশন সমস্যা জন্য)।
  • SVR(): সাপোর্ট ভেক্টর রিগ্রেশন (SVM রিগ্রেশন সমস্যা জন্য)।

উদাহরণ:

from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)

১০. sklearn.pipeline

এই মডিউলটি ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিং স্টেপগুলি একত্রিত করার জন্য ব্যবহৃত হয়। এটি সহজভাবে একাধিক স্টেপের মাধ্যমে ডেটা প্রসেস এবং মডেল ফিট করতে সহায়ক।

  • Pipeline(): একাধিক প্রসেসিং স্টেপকে একত্রিত করা।

উদাহরণ:

from sklearn.pipeline import Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])
pipeline.fit(X_train, y_train)

সারাংশ

Scikit-Learn একটি অত্যন্ত শক্তিশালী এবং ব্যবহারকারী-বান্ধব মেশিন লার্নিং লাইব্রেরি, যা ডেটা সায়েন্স, মেশিন লার্নিং এবং স্ট্যাটিস্টিক্স প্রকল্পে ব্যবহৃত হয়। এর মডিউল এবং লাইব্রেরিগুলি মডেল তৈরি, প্রশিক্ষণ, এবং মূল্যায়ন সহজ করে তোলে এবং মেশিন লার্নিংয়ের বিভিন্ন দিক যেমন ক্লাসিফিকেশন, রিগ্রেশন, ক্লাস্টারিং, ডাইমেনশনালিটি রিডাকশন এবং মডেল সিলেকশনের জন্য টুলস প্রদান করে।

Content added By
Promotion

Are you sure to start over?

Loading...