Gradient Boosting এবং XGBoost

Machine Learning - মেশিন লার্নিং (Machine Learning) - Ensemble Learning

500

Gradient Boosting এবং XGBoost হল দুইটি অত্যন্ত জনপ্রিয় এবং শক্তিশালী এনসেম্বল লার্নিং (Ensemble Learning) অ্যালগরিদম যা মেশিন লার্নিংয়ে বিশেষ করে ক্লাসিফিকেশন এবং রিগ্রেশন সমস্যা সমাধানে ব্যাপকভাবে ব্যবহৃত হয়। এই দুটি অ্যালগরিদমের মাধ্যমে অনেকগুলো সহজ মডেলকে একত্রিত করে একটি শক্তিশালী এবং সঠিক মডেল তৈরি করা হয়।

১. Gradient Boosting:

Gradient Boosting একটি শক্তিশালী এনসেম্বল অ্যালগরিদম যা বুথিং (Boosting) পদ্ধতির উপর কাজ করে। এই অ্যালগরিদমটি শ্রেণীবদ্ধকরণের সমস্যা বা রিগ্রেশন সমস্যা সমাধান করতে ব্যবহৃত হয়, এবং এতে প্রতিটি নতুন মডেল পূর্ববর্তী মডেলের ভুলগুলি সংশোধন করে উন্নতি ঘটায়।

Gradient Boosting এর কাজের পদ্ধতি:

এটি একটি সিরিজ অব লিনিয়ার মডেল তৈরি করে, যেখানে প্রথম মডেলটি ডেটা থেকে একটি প্রাথমিক ভবিষ্যদ্বাণী করে।
অল রেসিডুয়াল (Residuals) বা ভুলগুলি ধরে রেখে পরবর্তী মডেলটি তৈরি হয়, যাতে ভুলের পরিমাণ আরও কমানো যায়।
প্রতিটি মডেল একটি নির্দিষ্ট ওজন নিয়ে যুক্ত হয় যাতে পূর্ববর্তী মডেলের ভুলের উপর গুরুত্ব দেওয়া যায়।
প্রতিটি মডেল যতক্ষণ না পর্যন্ত তার পূর্ববর্তী ভুলগুলি পুরোপুরি সংশোধন করতে পারে, ততক্ষণ পর্যন্ত নতুন মডেল তৈরি হতে থাকে।

Gradient Boosting এর সুবিধা:

শক্তিশালী পারফরম্যান্স।
উচ্চ মাত্রায় সঠিকতা প্রদান করতে সক্ষম।
কোন প্রিপ্রসেসিং ছাড়াই কাজ করতে সক্ষম।

Gradient Boosting এর অসুবিধা:

প্রশিক্ষণের সময় বেশি সময় নেয়।
অধিক K বা মডেলের সংখ্যা বাছাই করলে ওভারফিটিংয়ের সম্ভাবনা থাকে।

কোড উদাহরণ:

from sklearn.ensemble import GradientBoostingClassifier

# মডেল তৈরি
gb_model = GradientBoostingClassifier(n_estimators=100)

# মডেল প্রশিক্ষণ
gb_model.fit(X_train, y_train)

# মডেল পরীক্ষা
accuracy = gb_model.score(X_test, y_test)
print(f"Accuracy: {accuracy * 100:.2f}%")

২. XGBoost (Extreme Gradient Boosting):

XGBoost হলো Gradient Boosting এর একটি উন্নত সংস্করণ। এটি একটি জনপ্রিয় এবং অধিক কার্যকরী অ্যালগরিদম যা বিশেষভাবে বড় ডেটাসেট এবং প্রতিযোগিতামূলক মেশিন লার্নিং কন্টেস্টে ব্যাপকভাবে ব্যবহৃত হয়। XGBoost মূলত Gradient Boosting অ্যালগরিদমের উপর ভিত্তি করে তৈরি, তবে এতে কিছু অতিরিক্ত সুবিধা এবং অপ্টিমাইজেশন রয়েছে যা এটিকে আরও শক্তিশালী করে তোলে।

XGBoost এর প্রধান বৈশিষ্ট্যসমূহ:

প্রতিটি মডেলকে ত্বরান্বিত করার জন্য একটি বিশেষ অ্যালগরিদম ব্যবহার করা হয়। এটি ডিপথ লিমিটেশন, লিনিয়ার বুস্টিং এবং রেগুলারাইজেশন এর মাধ্যমে কার্যকারিতা উন্নত করে।
রেগুলারাইজেশন: XGBoost মডেলে লিনিয়ার রেগুলারাইজেশন (L1 ও L2) ব্যবহার করে, যা overfitting রোধে সহায়ক। এটি বিশেষ করে মডেলটির সাধারণীকরণ ক্ষমতা বৃদ্ধি করে।
সামঞ্জস্যপূর্ণ পারফরম্যান্স: XGBoost তে এমপিরিক্যাল আপডেট এবং পরিমাপের জন্য সঠিক অপ্টিমাইজেশন স্ট্রাটেজি প্রয়োগ করা হয়, ফলে এটি দ্রুত এবং অধিক কার্যকরী।
হ্যান্ডলিং মিসিং ভ্যালু: XGBoost মিসিং ডেটা হ্যান্ডল করতে সক্ষম, যেটি Gradient Boosting তে সাধারণত হ্যান্ডল করতে হয়।

XGBoost এর সুবিধা:

দ্রুত প্রশিক্ষণ।
উচ্চ সঠিকতা এবং সেরা কর্মক্ষমতা প্রদান।
বৈশিষ্ট্য নির্বাচন এবং রেগুলারাইজেশন সহ উন্নত কার্যকারিতা।
বিভিন্ন সমস্যা সমাধান করার জন্য ফাইন টিউন করা যায়।

XGBoost এর অসুবিধা:

প্রশিক্ষণের জন্য বেশি রিসোর্সের প্রয়োজন।
কিছু ক্ষেত্রে সেটিংস বা হাইপারপ্যারামিটার অপটিমাইজেশন করতে হয়।

কোড উদাহরণ:

import xgboost as xgb

# DMatrix তে ডেটা প্রস্তুতি
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test)

# হাইপারপ্যারামিটার সেটিংস
params = {
    'objective': 'binary:logistic',
    'max_depth': 3,
    'learning_rate': 0.1,
    'silent': 1
}

# মডেল প্রশিক্ষণ
model = xgb.train(params, dtrain, num_boost_round=100)

# মডেল পরীক্ষা
y_pred = model.predict(dtest)