Missing Values এবং Categorical Features

এক্সজিবুস্ট (XGBoost) - Latest Technologies

339

XGBoost এ Missing Values এবং Categorical Features

XGBoost এ মডেল তৈরির সময় ডেটার Missing Values এবং Categorical Features যথাযথভাবে হ্যান্ডেল করা খুবই গুরুত্বপূর্ণ। XGBoost অটোমেটিক্যালি মিসিং ভ্যালু এবং ক্যাটেগরিকাল ফিচার নিয়ে কাজ করার জন্য কিছু ইন-বিল্ট ফিচার প্রদান করে, যা মডেল তৈরিকে আরও সহজ এবং কার্যকর করে।

Missing Values হ্যান্ডেল করা

XGBoost এর অন্যতম সুবিধা হল এটি মিসিং ভ্যালু (যেমন NaN) স্বয়ংক্রিয়ভাবে হ্যান্ডেল করতে পারে। আপনি যদি XGBoost মডেলে মিসিং ডেটা সহ ইনপুট ডেটা ব্যবহার করেন, তবে এটি স্বয়ংক্রিয়ভাবে সবচেয়ে ভাল বিভাজন নির্ধারণ করবে যা মিসিং ভ্যালুগুলিকে হ্যান্ডেল করবে। এজন্য আপনার মিসিং ভ্যালুর জন্য কোন প্রিপ্রসেসিং করার প্রয়োজন নেই।

উদাহরণ

import xgboost as xgb
import numpy as np
import pandas as pd

# উদাহরণ ডেটাসেট তৈরি করা
X = pd.DataFrame({
    'feature1': [1, 2, np.nan, 4],
    'feature2': [np.nan, 1, 2, 3],
    'feature3': [1, 2, 3, 4]
})
y = pd.Series([1, 0, 1, 0])

# XGBoost মডেল ট্রেনিং
model = xgb.XGBClassifier()
model.fit(X, y)

# প্রেডিকশন
y_pred = model.predict(X)

এই উদাহরণে, feature1 এবং feature2 এর মধ্যে মিসিং ভ্যালু রয়েছে, কিন্তু XGBoost ট্রেনিংয়ের সময় সেগুলিকে স্বয়ংক্রিয়ভাবে হ্যান্ডেল করবে। যদি আপনার ডেটাসেটে মিসিং ভ্যালু থাকে, তাহলে XGBoost তা নিয়ে কাজ করতে সক্ষম।

কাস্টম মিসিং ভ্যালু (Missing Value Indicator)

আপনি যদি ডেটাসেটের মধ্যে মিসিং ভ্যালুগুলির জন্য একটি নির্দিষ্ট ভ্যালু ব্যবহার করেন (যেমন -999), তাহলে missing প্যারামিটার ব্যবহার করে XGBoost কে সেটি নির্দেশ করতে পারেন:

model = xgb.XGBClassifier(missing=-999)
model.fit(X, y)

Categorical Features হ্যান্ডেল করা

XGBoost এর জন্য Categorical Features প্রক্রিয়াকরণে কিছু অতিরিক্ত স্টেপ প্রয়োজন হতে পারে। XGBoost নিজেই ক্যাটেগরিকাল ফিচার সাপোর্ট করে না, তাই ক্যাটেগরিকাল ভ্যালু ব্যবহার করার জন্য নিচের পদ্ধতিগুলো অনুসরণ করতে পারেন:

১. Label Encoding

Label Encoding ক্যাটেগরিকাল ভ্যালুকে সংখ্যায় রূপান্তর করে। সাধারণত LabelEncoder ব্যবহার করে এটি করা হয়।

from sklearn.preprocessing import LabelEncoder

# ক্যাটেগরিকাল ফিচার লেবেল এনকোড করা
X['feature_cat'] = ['A', 'B', 'A', 'C']
encoder = LabelEncoder()
X['feature_cat_encoded'] = encoder.fit_transform(X['feature_cat'])

# XGBoost মডেল ট্রেনিং
model = xgb.XGBClassifier()
model.fit(X[['feature1', 'feature2', 'feature3', 'feature_cat_encoded']], y)

২. One-Hot Encoding

One-Hot Encoding প্রতিটি ক্যাটেগরিকাল ফিচারের জন্য আলাদা আলাদা কলাম তৈরি করে। এটি স্কিকিট-লার্নের OneHotEncoder ব্যবহার করে করা যায়।

from sklearn.preprocessing import OneHotEncoder

# One-Hot Encoding করা
encoder = OneHotEncoder(sparse=False)
X_encoded = encoder.fit_transform(X[['feature_cat']])

# নতুন ফিচার যোগ করে মডেল ট্রেনিং করা
X_combined = np.concatenate([X[['feature1', 'feature2', 'feature3']], X_encoded], axis=1)
model = xgb.XGBClassifier()
model.fit(X_combined, y)

৩. Ordinal Encoding

কিছুক্ষেত্রে, ক্যাটেগরিকাল ভ্যালুগুলোর মধ্যে একটি স্বাভাবিক ক্রম থাকে (যেমন 'low', 'medium', 'high')। সেক্ষেত্রে Ordinal Encoding ব্যবহার করা উপযোগী।

X['feature_ordinal'] = ['low', 'medium', 'high', 'low']
ordinal_mapping = {'low': 0, 'medium': 1, 'high': 2}
X['feature_ordinal_encoded'] = X['feature_ordinal'].map(ordinal_mapping)

# মডেল ট্রেনিং করা
model.fit(X[['feature1', 'feature2', 'feature3', 'feature_ordinal_encoded']], y)

নতুন XGBoost সংস্করণে ক্যাটেগরিকাল ফিচার সাপোর্ট

XGBoost এর নতুন সংস্করণ (1.3.0 এবং পরবর্তী) সরাসরি ক্যাটেগরিকাল ফিচার সাপোর্ট করে। ফিচারটি ব্যবহার করার জন্য enable_categorical প্যারামিটারটি True করতে হবে এবং ডেটাসেটের ডেটা টাইপ ক্যাটেগরিকাল হতে হবে।

# ক্যাটেগরিকাল ফিচার সরাসরি ব্যবহার
X['feature_cat'] = pd.Categorical(X['feature_cat'])
model = xgb.XGBClassifier(enable_categorical=True)
model.fit(X, y)

সারসংক্ষেপ

Missing Values: XGBoost মিসিং ভ্যালু স্বয়ংক্রিয়ভাবে হ্যান্ডেল করতে সক্ষম। কাস্টম মিসিং ভ্যালু দিলে missing প্যারামিটার ব্যবহার করা যেতে পারে।
Categorical Features: Label Encoding, One-Hot Encoding, এবং Ordinal Encoding হল সাধারণ পদ্ধতি। তবে XGBoost এর নতুন সংস্করণ ক্যাটেগরিকাল ফিচার সরাসরি সাপোর্ট করে।

এই পদ্ধতিগুলি ব্যবহার করে আপনি সহজেই XGBoost এ মডেল তৈরি করতে পারেন, এমনকি যদি আপনার ডেটাসেটে মিসিং ভ্যালু এবং ক্যাটেগরিকাল ফিচার থাকে।

Content added By

Md. Nasir Uddin (Raju)

Missing Values এর প্রভাব এবং তাদের প্রক্রিয়াকরণ

319

XGBoost এ মিসিং ভ্যালু (Missing Values) একটি সাধারণ সমস্যা, কিন্তু XGBoost এটি স্বয়ংক্রিয়ভাবে প্রক্রিয়া করতে পারে। মিসিং ভ্যালু হলে XGBoost মডেল তার কার্যকারিতা কিভাবে ধরে রাখে এবং কীভাবে এগুলি হ্যান্ডেল করে, সেটি এখানে ব্যাখ্যা করা হলো।

XGBoost এ মিসিং ভ্যালু এর প্রভাব

মিসিং ভ্যালু ডেটাসেটে উপস্থিত থাকলে তা মডেলের পারফরম্যান্সকে প্রভাবিত করতে পারে, বিশেষ করে যদি গুরুত্বপূর্ণ ফিচারগুলিতে মিসিং ডেটা বেশি থাকে। ডেটাসেটে মিসিং ভ্যালু থাকা মানে হলো কিছু অবজারভেশনের ফিচার ভ্যালু অনুপস্থিত, যা মডেল প্রশিক্ষণ এবং প্রেডিকশনের সময় সমস্যার সৃষ্টি করতে পারে। তবে XGBoost ডিফল্টভাবে মিসিং ভ্যালুগুলি সামলাতে পারে এবং এই সমস্যার সমাধান করে।

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণ (Handling Missing Values)

XGBoost মিসিং ভ্যালুগুলিকে হ্যান্ডেল করার জন্য একটি স্বয়ংক্রিয় ব্যবস্থা প্রদান করে, যা ডেটাসেটে কোনো মিসিং ভ্যালু থাকলে তার জন্য আলাদা শাখা তৈরি করে। মডেল প্রশিক্ষণের সময় XGBoost প্রতিটি নোডে মিসিং ভ্যালু সম্বলিত ডেটা জন্য একটি অপ্টিমাল শাখা নির্ধারণ করে। এই পদ্ধতি মডেলকে মিসিং ভ্যালু থাকা সত্ত্বেও কার্যকরভাবে কাজ করতে সক্ষম করে।

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণের সুবিধা:

স্বয়ংক্রিয় হ্যান্ডলিং: XGBoost ডিফল্টভাবে মিসিং ভ্যালুকে স্বীকৃতি দিয়ে এবং সেগুলির জন্য অপ্টিমাইজড শাখা তৈরি করে।
মডেল পারফরম্যান্সের উন্নতি: মিসিং ডেটা থাকা সত্ত্বেও মডেলের কার্যকারিতা ধরে রাখার জন্য এটি কার্যকর।
কোনো অতিরিক্ত প্রি-প্রসেসিং প্রয়োজন নেই: XGBoost ব্যবহার করলে মিসিং ডেটা ইম্পুট করার আগে ম্যানুয়ালি ফিল বা ইম্পিউট করার প্রয়োজন হয় না।

XGBoost এ মিসিং ভ্যালু সেট করার পদ্ধতি:

মডেল তৈরি করার সময়, missing প্যারামিটার ব্যবহার করে মিসিং ভ্যালুর প্রতিনিধিত্বকারী ভ্যালু (যেমন np.nan বা -999) নির্ধারণ করা যায়। এটি মডেলকে জানায় যে কোন ভ্যালুগুলি মিসিং হিসেবে গণ্য করতে হবে।

উদাহরণ: XGBoost এ মিসিং ভ্যালু হ্যান্ডলিং

import xgboost as xgb
import numpy as np

# উদাহরণ ডেটা যেখানে কিছু মিসিং ভ্যালু রয়েছে
X = np.array([[1, 2, np.nan], [3, np.nan, 6], [np.nan, 8, 9]])
y = np.array([0, 1, 0])

# DMatrix তৈরি করা এবং মিসিং ভ্যালু সেট করা
dtrain = xgb.DMatrix(X, label=y, missing=np.nan)

# মডেল প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',
    'eval_metric': 'logloss'
}

# মডেল প্রশিক্ষণ
bst = xgb.train(params, dtrain, num_boost_round=10)

মিসিং ভ্যালু হ্যান্ডলিং কৌশলসমূহ:

ডিফল্ট শাখা: XGBoost মিসিং ডেটার জন্য একটি ডিফল্ট শাখা নির্ধারণ করে এবং প্রশিক্ষণ চলাকালে এটি পরিবর্তিত হতে পারে।
ইম্পিউটেশন বা রিপ্লেসমেন্ট: কিছু ক্ষেত্রে, মিসিং ভ্যালুকে ম্যানুয়ালি গড় (mean), মিডিয়ান, বা মোড দিয়ে পূরণ করা যেতে পারে, বিশেষ করে যদি মডেলে অটোমেটিক হ্যান্ডলিং অপ্রতুল হয়।
কাস্টম পদ্ধতি: ডেটার ধরণ অনুযায়ী কাস্টম ইম্পিউটেশন পদ্ধতিও ব্যবহার করা যায়, যেমন ফিচার ইঞ্জিনিয়ারিং বা ক্লাস-ভিত্তিক ইম্পিউটেশন।

সারসংক্ষেপ

XGBoost মিসিং ভ্যালুগুলি অত্যন্ত কার্যকরভাবে হ্যান্ডেল করতে সক্ষম এবং মডেল ট্রেনিং এবং প্রেডিকশনে মিসিং ভ্যালু থাকা সত্ত্বেও ভালো পারফরম্যান্স প্রদান করতে পারে। এই সুবিধা মডেল ডেভেলপমেন্টকে সহজ এবং দ্রুত করে, কারণ মডেলটি স্বয়ংক্রিয়ভাবে মিসিং ডেটা হ্যান্ডেল করার ক্ষমতা রাখে।

Content added By

Md. Nasir Uddin (Raju)

XGBoost এর In-built Handling Technique

323

XGBoost এ মিসিং ভ্যালু এর প্রভাব

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণ (Handling Missing Values)

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণের সুবিধা:

স্বয়ংক্রিয় হ্যান্ডলিং: XGBoost ডিফল্টভাবে মিসিং ভ্যালুকে স্বীকৃতি দিয়ে এবং সেগুলির জন্য অপ্টিমাইজড শাখা তৈরি করে।
মডেল পারফরম্যান্সের উন্নতি: মিসিং ডেটা থাকা সত্ত্বেও মডেলের কার্যকারিতা ধরে রাখার জন্য এটি কার্যকর।
কোনো অতিরিক্ত প্রি-প্রসেসিং প্রয়োজন নেই: XGBoost ব্যবহার করলে মিসিং ডেটা ইম্পুট করার আগে ম্যানুয়ালি ফিল বা ইম্পিউট করার প্রয়োজন হয় না।

XGBoost এ মিসিং ভ্যালু সেট করার পদ্ধতি:

উদাহরণ: XGBoost এ মিসিং ভ্যালু হ্যান্ডলিং

import xgboost as xgb
import numpy as np

# উদাহরণ ডেটা যেখানে কিছু মিসিং ভ্যালু রয়েছে
X = np.array([[1, 2, np.nan], [3, np.nan, 6], [np.nan, 8, 9]])
y = np.array([0, 1, 0])

# DMatrix তৈরি করা এবং মিসিং ভ্যালু সেট করা
dtrain = xgb.DMatrix(X, label=y, missing=np.nan)

# মডেল প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',
    'eval_metric': 'logloss'
}

# মডেল প্রশিক্ষণ
bst = xgb.train(params, dtrain, num_boost_round=10)

মিসিং ভ্যালু হ্যান্ডলিং কৌশলসমূহ:

ডিফল্ট শাখা: XGBoost মিসিং ডেটার জন্য একটি ডিফল্ট শাখা নির্ধারণ করে এবং প্রশিক্ষণ চলাকালে এটি পরিবর্তিত হতে পারে।
ইম্পিউটেশন বা রিপ্লেসমেন্ট: কিছু ক্ষেত্রে, মিসিং ভ্যালুকে ম্যানুয়ালি গড় (mean), মিডিয়ান, বা মোড দিয়ে পূরণ করা যেতে পারে, বিশেষ করে যদি মডেলে অটোমেটিক হ্যান্ডলিং অপ্রতুল হয়।
কাস্টম পদ্ধতি: ডেটার ধরণ অনুযায়ী কাস্টম ইম্পিউটেশন পদ্ধতিও ব্যবহার করা যায়, যেমন ফিচার ইঞ্জিনিয়ারিং বা ক্লাস-ভিত্তিক ইম্পিউটেশন।

সারসংক্ষেপ

Content added By

Md. Nasir Uddin (Raju)

Categorical Features কীভাবে XGBoost হ্যান্ডেল করে

327

XGBoost সাধারণত সংখ্যা বা সংখ্যাসূচক ফিচার নিয়ে কাজ করে, তাই ক্যাটেগরিকাল ফিচার (যেমন: দেশ, শহর, পণ্য শ্রেণী) সরাসরি ব্যবহার করার জন্য প্রস্তুত নয়। তবে XGBoost ক্যাটেগরিকাল ফিচার হ্যান্ডেল করার জন্য কয়েকটি পদ্ধতি এবং কৌশল ব্যবহার করে, যা নিচে আলোচনা করা হলো।

১. One-Hot Encoding

কীভাবে কাজ করে: ক্যাটেগরিকাল ফিচারের প্রতিটি ক্যাটেগরি বা স্তরের জন্য একটি নতুন বাইনারি (0 বা 1) কলাম তৈরি করা হয়।
উদাহরণ:
- ফিচার: "Color" = ["Red", "Blue", "Green"]
- One-Hot Encoding:

Color_Red   Color_Blue   Color_Green
1           0            0
0           1            0
0           0            1

কেন ব্যবহার করা হয়: এটি XGBoost এর মতো অ্যালগরিদমে ক্যাটেগরিকাল ফিচার ব্যবহার করার জন্য সহজ এবং কার্যকর পদ্ধতি, বিশেষ করে ছোট ডেটাসেটের ক্ষেত্রে।
সীমাবদ্ধতা: অনেক ক্যাটেগরি থাকলে এটি মেমোরি এবং প্রসেসিং পাওয়ারের উপর অতিরিক্ত চাপ সৃষ্টি করতে পারে (Sparse Matrix তৈরি হয়)।

২. Label Encoding

কীভাবে কাজ করে: প্রতিটি ক্যাটেগরিকে একটি সংখ্যা দিয়ে প্রতিস্থাপন করা হয়।
উদাহরণ:
- ফিচার: "City" = ["Dhaka", "Chittagong", "Khulna"]
- Label Encoding:

"Dhaka"       -> 0
"Chittagong"  -> 1
"Khulna"      -> 2

কেন ব্যবহার করা হয়: এটি সহজ এবং দ্রুত কার্যকর করা যায়, কারণ নতুন কলাম তৈরি করতে হয় না।
সীমাবদ্ধতা: এটি শুধুমাত্র সেই ক্ষেত্রে ভালো কাজ করে, যখন ক্যাটেগরিকাল ফিচারটির স্তরগুলোর মধ্যে কোন ক্রমানুসার থাকে না, কারণ XGBoost এই সংখ্যাগুলিকে ক্রমানুসারে গণ্য করতে পারে এবং তাতে ভুল ফলাফল আসতে পারে।

৩. Target Encoding / Mean Encoding

কীভাবে কাজ করে: প্রতিটি ক্যাটেগরি একটি নির্দিষ্ট টার্গেট ফিচারের গড় বা টার্গেটের উপর ভিত্তি করে একটি সংখ্যা দ্বারা প্রতিস্থাপিত হয়।
উদাহরণ:
- ফিচার: "Product_Category" এবং টার্গেট ভ্যারিয়েবল "Sales"
- যদি "Category_A" এর গড় বিক্রয় ১০০ হয়, "Category_B" এর ১৫০ হয়, তাহলে:

Category_A -> 100
Category_B -> 150

কেন ব্যবহার করা হয়: এটি ক্যাটেগরিকাল ফিচার এবং টার্গেট ভ্যারিয়েবলের মধ্যে সম্পর্ক ব্যবহার করে মডেলের কার্যকারিতা উন্নত করে।
সীমাবদ্ধতা: যদি ডেটাসেট ছোট হয় বা ক্যাটেগরি বেশি থাকে, তাহলে Overfitting হতে পারে।

৪. Frequency Encoding

কীভাবে কাজ করে: প্রতিটি ক্যাটেগরিকে তাদের ফ্রিকোয়েন্সি বা কতবার তারা ডেটাসেটে উপস্থিত আছে তার উপর ভিত্তি করে একটি সংখ্যা দ্বারা প্রতিস্থাপন করা হয়।
উদাহরণ:
- ফিচার: "Category" = ["A", "A", "B", "C", "A", "B"]
- Frequency Encoding:

A -> 3
B -> 2
C -> 1

কেন ব্যবহার করা হয়: এটি একটি সহজ পদ্ধতি এবং ক্যাটেগরিকাল ভ্যারিয়েবলগুলোর তুলনা এবং সংখ্যা নির্ধারণে কার্যকর।
সীমাবদ্ধতা: এটি তখনই কাজ করে যখন ক্যাটেগরি এবং টার্গেটের মধ্যে লজিক্যাল সম্পর্ক থাকে, না হলে এটি কার্যকর নাও হতে পারে।

৫. Ordinal Encoding (শুধুমাত্র ক্রমানুসারে ফিচারগুলির জন্য)

কীভাবে কাজ করে: ক্যাটেগরিকাল ফিচার যদি ক্রমানুসারে সাজানো থাকে (যেমন: "Low", "Medium", "High"), তাহলে প্রতিটি স্তরকে ক্রমানুসারে সংখ্যা দিয়ে রিপ্রেজেন্ট করা হয়।
উদাহরণ:
- ফিচার: "Size" = ["Small", "Medium", "Large"]
- Ordinal Encoding:

Small  -> 0
Medium -> 1
Large  -> 2

কেন ব্যবহার করা হয়: এটি বিশেষভাবে কার্যকর যখন ক্যাটেগরি ক্রমানুসার নির্ভর করে এবং এই ক্রমানুসারকে মডেল শিখতে পারে।
সীমাবদ্ধতা: যদি ক্যাটেগরিকাল ফিচারের মধ্যে ক্রমানুসার না থাকে, তাহলে এটি ভুল ফলাফল দিতে পারে।

৬. CatBoost Encoding

কীভাবে কাজ করে: CatBoost Encoding একটি উন্নত পদ্ধতি, যেখানে প্রতিটি ক্যাটেগরি এবং টার্গেটের ভিত্তিতে সম্ভাব্যতা হিসাব করা হয়। এটি ট্রেনিং এবং টেস্ট ডেটা বিভক্ত করে এবং প্রতিটি ক্যাটেগরি একাধিক স্তরের মাধ্যমে এনকোড করা হয়।
কেন ব্যবহার করা হয়: এটি Overfitting কমাতে সাহায্য করে এবং কার্যকারিতা বৃদ্ধি করে।

সারসংক্ষেপ

XGBoost এ ক্যাটেগরিকাল ফিচার হ্যান্ডেল করার জন্য প্রচলিত পদ্ধতিগুলি হলো:

One-Hot Encoding: ছোট ক্যাটেগরিকাল ফিচারের জন্য ভালো।
Label Encoding: সহজ কিন্তু সতর্কতার সাথে ব্যবহার করা উচিত।
Target Encoding: টার্গেট ভ্যারিয়েবলের সাথে সম্পর্ক থাকলে কার্যকর।
Frequency এবং Ordinal Encoding: সহজ ও কার্যকর তবে নির্ভর করে ডেটার ধরণের উপর।
CatBoost Encoding: উন্নত এবং Overfitting কমানোর ক্ষমতা রয়েছে।

XGBoost মডেল তৈরি করার সময় আপনার ডেটাসেট এবং ক্যাটেগরিকাল ফিচারগুলোর বৈশিষ্ট্য অনুযায়ী উপযুক্ত পদ্ধতি নির্বাচন করা গুরুত্বপূর্ণ।

Content added By

Md. Nasir Uddin (Raju)

উদাহরণসহ Missing Values এবং Categorical Features Management

343

XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার ম্যানেজমেন্ট খুবই গুরুত্বপূর্ণ, কারণ বাস্তব ডেটাসেটে এই দুটি চ্যালেঞ্জ প্রায়ই পাওয়া যায়। XGBoost স্বয়ংক্রিয়ভাবে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার ম্যানেজ করতে সক্ষম। নিচে উদাহরণসহ এই বিষয়গুলো কিভাবে হ্যান্ডেল করা যায় তা দেখানো হয়েছে।

উদাহরণ: XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করা

আমরা এখানে একটি কাস্টম ডেটাসেট ব্যবহার করব যেখানে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার রয়েছে। উদাহরণটি দেখাবে কিভাবে XGBoost দিয়ে এগুলো ম্যানেজ করা যায়।

১. প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা

pip install xgboost pandas scikit-learn

import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

২. ডেটাসেট তৈরি করা

আমরা একটি কাস্টম ডেটাসেট তৈরি করব, যেখানে মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার থাকবে।

# কাস্টম ডেটাসেট তৈরি করা
data = {
    'feature1': [1, 2, None, 4, 5],
    'feature2': ['A', 'B', 'B', None, 'A'],
    'feature3': [10, None, 30, 40, 50],
    'label': [0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)

# ক্যাটেগোরিক্যাল ফিচার এনকোড করা (Label Encoding)
df['feature2'] = df['feature2'].astype('category').cat.codes

# ডেটা এবং লেবেল আলাদা করা
X = df[['feature1', 'feature2', 'feature3']]
y = df['label']

৩. ডেটা ট্রেন-টেস্ট স্প্লিট করা

# ডেটা ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

৪. XGBoost ডেটা ম্যাট্রিক্স তৈরি করা

# ডেটা ম্যাট্রিক্স তৈরি করা
dtrain = xgb.DMatrix(X_train, label=y_train, missing=None)  # None মিসিং ভ্যালু হিসেবে উল্লেখ করা
dtest = xgb.DMatrix(X_test, label=y_test, missing=None)

৫. মডেল ট্রেনিং করা

# XGBoost প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',  # বাইনারি ক্লাসিফিকেশন
    'eval_metric': 'logloss'  # লগ লস মেট্রিক
}

# মডেল ট্রেনিং করা
num_rounds = 10
model = xgb.train(params, dtrain, num_rounds)

৬. প্রেডিকশন এবং মডেল ইভ্যালুয়েশন

# টেস্ট সেটে প্রেডিকশন করা
y_pred = model.predict(dtest)
y_pred = [1 if i > 0.5 else 0 for i in y_pred]  # থ্রেশোল্ডিং করা

# একুরেসি স্কোর গণনা করা
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

পুরো কোড

import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# কাস্টম ডেটাসেট তৈরি করা
data = {
    'feature1': [1, 2, None, 4, 5],
    'feature2': ['A', 'B', 'B', None, 'A'],
    'feature3': [10, None, 30, 40, 50],
    'label': [0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)

# ক্যাটেগোরিক্যাল ফিচার এনকোড করা (Label Encoding)
df['feature2'] = df['feature2'].astype('category').cat.codes

# ডেটা এবং লেবেল আলাদা করা
X = df[['feature1', 'feature2', 'feature3']]
y = df['label']

# ডেটা ট্রেন এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# ডেটা ম্যাট্রিক্স তৈরি করা
dtrain = xgb.DMatrix(X_train, label=y_train, missing=None)
dtest = xgb.DMatrix(X_test, label=y_test, missing=None)

# XGBoost প্যারামিটার সেট করা
params = {
    'objective': 'binary:logistic',  # বাইনারি ক্লাসিফিকেশন
    'eval_metric': 'logloss'  # লগ লস মেট্রিক
}

# মডেল ট্রেনিং করা
num_rounds = 10
model = xgb.train(params, dtrain, num_rounds)

# টেস্ট সেটে প্রেডিকশন করা
y_pred = model.predict(dtest)
y_pred = [1 if i > 0.5 else 0 for i in y_pred]

# একুরেসি স্কোর গণনা করা
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

ব্যাখ্যা

মিসিং ভ্যালু ম্যানেজমেন্ট: XGBoost স্বয়ংক্রিয়ভাবে মিসিং ভ্যালু হ্যান্ডেল করতে পারে। ডেটাসেট তৈরির সময় আমরা None দিয়ে মিসিং ভ্যালু উল্লেখ করেছি এবং ডেটা ম্যাট্রিক্স তৈরি করার সময় missing=None ব্যবহার করেছি।

ক্যাটেগোরিক্যাল ফিচার ম্যানেজমেন্ট: PyTorch-এর মত XGBoost নিজে থেকে ক্যাটেগোরিক্যাল ভ্যালু এনকোড করতে পারে না, তাই আমরা Label Encoding ব্যবহার করে ক্যাটেগোরিক্যাল ভ্যালু এনকোড করেছি। এখানে আমরা প্যান্ডাসের .cat.codes ব্যবহার করেছি যা ক্যাটেগোরিক্যাল ভ্যালুকে কোডে পরিণত করে।

সারসংক্ষেপ

XGBoost মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করতে সক্ষম এবং এই উদাহরণটি দেখায় কিভাবে আপনি সহজেই এটি প্রয়োগ করতে পারেন। Regularization এবং অন্যান্য প্যারামিটার ঠিকমত সেট করে মডেল ইভ্যালুয়েশনের মাধ্যমে মডেলটির কার্যকারিতা নিশ্চিত করতে পারেন।

Content added By

Md. Nasir Uddin (Raju)

XGBoost এর বেসিক ধারণা XGBoost পরিচিতি Boosting Techniques এবং XGBoost XGBoost ইন্সটলেশন এবং সেটআপ মডেল ট্রেনিং এবং প্রেডিকশন

Missing Values এবং Categorical Features

XGBoost এ Missing Values এবং Categorical Features

Missing Values হ্যান্ডেল করা

উদাহরণ

কাস্টম মিসিং ভ্যালু (Missing Value Indicator)

Categorical Features হ্যান্ডেল করা

১. Label Encoding

২. One-Hot Encoding

৩. Ordinal Encoding

নতুন XGBoost সংস্করণে ক্যাটেগরিকাল ফিচার সাপোর্ট

সারসংক্ষেপ

Missing Values এর প্রভাব এবং তাদের প্রক্রিয়াকরণ

XGBoost এ মিসিং ভ্যালু এর প্রভাব

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণ (Handling Missing Values)

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণের সুবিধা:

XGBoost এ মিসিং ভ্যালু সেট করার পদ্ধতি:

উদাহরণ: XGBoost এ মিসিং ভ্যালু হ্যান্ডলিং

মিসিং ভ্যালু হ্যান্ডলিং কৌশলসমূহ:

সারসংক্ষেপ

XGBoost এর In-built Handling Technique

XGBoost এ মিসিং ভ্যালু এর প্রভাব

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণ (Handling Missing Values)

XGBoost এ মিসিং ভ্যালু প্রক্রিয়াকরণের সুবিধা:

XGBoost এ মিসিং ভ্যালু সেট করার পদ্ধতি:

উদাহরণ: XGBoost এ মিসিং ভ্যালু হ্যান্ডলিং

মিসিং ভ্যালু হ্যান্ডলিং কৌশলসমূহ:

সারসংক্ষেপ

Categorical Features কীভাবে XGBoost হ্যান্ডেল করে

১. One-Hot Encoding

২. Label Encoding

৩. Target Encoding / Mean Encoding

৪. Frequency Encoding

৫. Ordinal Encoding (শুধুমাত্র ক্রমানুসারে ফিচারগুলির জন্য)

৬. CatBoost Encoding

সারসংক্ষেপ

উদাহরণসহ Missing Values এবং Categorical Features Management

উদাহরণ: XGBoost-এ মিসিং ভ্যালু এবং ক্যাটেগোরিক্যাল ফিচার হ্যান্ডেল করা

১. প্রয়োজনীয় লাইব্রেরি ইমপোর্ট করা

২. ডেটাসেট তৈরি করা

৩. ডেটা ট্রেন-টেস্ট স্প্লিট করা

৪. XGBoost ডেটা ম্যাট্রিক্স তৈরি করা

৫. মডেল ট্রেনিং করা

৬. প্রেডিকশন এবং মডেল ইভ্যালুয়েশন

পুরো কোড

ব্যাখ্যা

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!