উদাহরণসহ Missing Values এবং Categorical Features Management

Missing Values এবং Categorical Features - এক্সজিবুস্ট (XGBoost) - Latest Technologies

344

XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার ম্যানেজমেন্ট খুবই গুরুত্বপূর্ণ, কারণ বাস্তব ডেটাসেটে এই দুটি চ্যালেঞ্জ প্রায়ই পাওয়া যায়। XGBoost স্বয়ংক্রিয়ভাবে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার ম্যানেজ করতে সক্ষম। নিচে উদাহরণসহ এই বিষয়গুলো কিভাবে হ্যান্ডেল করা যায় তা দেখানো হয়েছে।

উদাহরণ: XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করা

আমরা এখানে একটি কাস্টম ডেটাসেট ব্যবহার করব যেখানে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার রয়েছে। উদাহরণটি দেখাবে কিভাবে XGBoost দিয়ে এগুলো ম্যানেজ করা যায়।

১. প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা

pip install xgboost pandas scikit-learn

import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

২. ডেটাসেট তৈরি করা

আমরা একটি কাস্টম ডেটাসেট তৈরি করব, যেখানে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার থাকবে।

# কাস্টম ডেটাসেট তৈরি করা
data = {
    'feature1': [1, 2, None, 4, 5],
    'feature2': ['A', 'B', 'B', None, 'A'],
    'feature3': [10, None, 30, 40, 50],
    'label': [0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)

# ক্যাটেগোরিক্যাল ফিচার এনকোড করা (Label Encoding)
df['feature2'] = df['feature2'].astype('category').cat.codes

# ডেটা এবং লেবেল আলাদা করা
X = df[['feature1', 'feature2', 'feature3']]
y = df['label']

৩. ডেটা ট্রেন-টেস্ট স্প্লিট করা

# ডেটা ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

৪. XGBoost ডেটা ম্যাট্রিক্স তৈরি করা

# ডেটা ম্যাট্রিক্স তৈরি করা
dtrain = xgb.DMatrix(X_train, label=y_train, missing=None)  # None মিসিং ভ্যালু হিসেবে উল্লেখ করা
dtest = xgb.DMatrix(X_test, label=y_test, missing=None)

৫. মডেল ট্রেনিং করা

# XGBoost প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',  # বাইনারি ক্লাসিফিকেশন
    'eval_metric': 'logloss'  # লগ লস মেট্রিক
}

# মডেল ট্রেনিং করা
num_rounds = 10
model = xgb.train(params, dtrain, num_rounds)

৬. প্রেডিকশন এবং মডেল ইভ্যালুয়েশন

# টেস্ট সেটে প্রেডিকশন করা
y_pred = model.predict(dtest)
y_pred = [1 if i > 0.5 else 0 for i in y_pred]  # থ্রেশোল্ডিং করা

# একুরেসি স্কোর গণনা করা
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

পুরো কোড

import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# কাস্টম ডেটাসেট তৈরি করা
data = {
    'feature1': [1, 2, None, 4, 5],
    'feature2': ['A', 'B', 'B', None, 'A'],
    'feature3': [10, None, 30, 40, 50],
    'label': [0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)

# ক্যাটেগোরিক্যাল ফিচার এনকোড করা (Label Encoding)
df['feature2'] = df['feature2'].astype('category').cat.codes

# ডেটা এবং লেবেল আলাদা করা
X = df[['feature1', 'feature2', 'feature3']]
y = df['label']

# ডেটা ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ডেটা ম্যাট্রিক্স তৈরি করা
dtrain = xgb.DMatrix(X_train, label=y_train, missing=None)
dtest = xgb.DMatrix(X_test, label=y_test, missing=None)

# XGBoost প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',  # বাইনারি ক্লাসিফিকেশন
    'eval_metric': 'logloss'  # লগ লস মেট্রিক
}

# মডেল ট্রেনিং করা
num_rounds = 10
model = xgb.train(params, dtrain, num_rounds)

# টেস্ট সেটে প্রেডিকশন করা
y_pred = model.predict(dtest)
y_pred = [1 if i > 0.5 else 0 for i in y_pred]

# একুরেসি স্কোর গণনা করা
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

ব্যাখ্যা

মিসিং ভ্যালু ম্যানেজমেন্ট: XGBoost স্বয়ংক্রিয়ভাবে মিসিং ভ্যালু হ্যান্ডেল করতে পারে। ডেটাসেট তৈরির সময় আমরা None দিয়ে মিসিং ভ্যালু উল্লেখ করেছি এবং ডেটা ম্যাট্রিক্স তৈরি করার সময় missing=None ব্যবহার করেছি।

ক্যাটেগোরিক্যাল ফিচার ম্যানেজমেন্ট: PyTorch-এর মত XGBoost নিজে থেকে ক্যাটেগোরিক্যাল ভ্যালু এনকোড করতে পারে না, তাই আমরা Label Encoding ব্যবহার করে ক্যাটেগোরিক্যাল ভ্যালু এনকোড করেছি। এখানে আমরা প্যান্ডাসের .cat.codes ব্যবহার করেছি যা ক্যাটেগোরিক্যাল ভ্যালুকে কোডে পরিণত করে।

সারসংক্ষেপ

XGBoost মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করতে সক্ষম এবং এই উদাহরণটি দেখায় কিভাবে আপনি সহজেই এটি প্রয়োগ করতে পারেন। Regularization এবং অন্যান্য প্যারামিটার ঠিকমত সেট করে মডেল ইভ্যালুয়েশনের মাধ্যমে মডেলটির কার্যকারিতা নিশ্চিত করতে পারেন।

Content added By

Md. Nasir Uddin (Raju)

Missing Values এর প্রভাব এবং তাদের প্রক্রিয়াকরণ XGBoost এর In-built Handling Technique Categorical Features কীভাবে XGBoost হ্যান্ডেল করে

উদাহরণসহ Missing Values এবং Categorical Features Management

উদাহরণ: XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করা

১. প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা

২. ডেটাসেট তৈরি করা

৩. ডেটা ট্রেন-টেস্ট স্প্লিট করা

৪. XGBoost ডেটা ম্যাট্রিক্স তৈরি করা

৫. মডেল ট্রেনিং করা

৬. প্রেডিকশন এবং মডেল ইভ্যালুয়েশন

পুরো কোড

ব্যাখ্যা

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

উদাহরণসহ Missing Values এবং Categorical Features Management

উদাহরণ: XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করা

১. প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা

২. ডেটাসেট তৈরি করা

৩. ডেটা ট্রেন-টেস্ট স্প্লিট করা

৪. XGBoost ডেটা ম্যাট্রিক্স তৈরি করা

৫. মডেল ট্রেনিং করা

৬. প্রেডিকশন এবং মডেল ইভ্যালুয়েশন

পুরো কোড

ব্যাখ্যা

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!