Categorical Features এবং Missing Values

Latest Technologies - লাইটজিবিএম (LightGBM)

173

Categorical Features এবং Missing Values

মেশিন লার্নিং মডেল তৈরির সময়, ক্যাটেগরিক্যাল ফিচার এবং মিসিং ভ্যালু দুইটি গুরুত্বপূর্ণ দিক। সঠিকভাবে এই দুটি বিষয় পরিচালনা করা হলে মডেলের কার্যকারিতা উল্লেখযোগ্যভাবে বৃদ্ধি পেতে পারে। নিচে ক্যাটেগরিক্যাল ফিচার এবং মিসিং ভ্যালু সম্পর্কে বিস্তারিত আলোচনা করা হলো।

১. Categorical Features

ক্যাটেগরিক্যাল ফিচার কি?

ক্যাটেগরিক্যাল ফিচারগুলি হলো সেই বৈশিষ্ট্যগুলি যা একটি নির্দিষ্ট শ্রেণী বা গ্রুপকে নির্দেশ করে। এগুলি সাধারণত টেক্সট বা লেবেল আকারে থাকে এবং গাণিতিকভাবে প্রক্রিয়া করা যায় না।

উদাহরণ:

লিঙ্গ (পুরুষ/মহিলা)
রঙ (লাল, নীল, সবুজ)
শহর (ঢাকা, কলকাতা, মুম্বাই)

ক্যাটেগরিক্যাল ফিচারকে পরিচালনা করা:

ক্যাটেগরিক্যাল ফিচারগুলিকে মেশিন লার্নিং মডেলে ব্যবহার করার জন্য সংখ্যা বা ভেক্টরে রূপান্তর করতে হয়। এখানে কিছু সাধারণ পদ্ধতি:

Label Encoding:

প্রতিটি ক্যাটেগরি একটি সংখ্যা দ্বারা প্রতিনিধিত্ব করা হয়।
উদাহরণ: পুরুষ = 0, মহিলা = 1

One-Hot Encoding:

প্রতিটি ক্যাটেগরি জন্য একটি নতুন বাইনারি ফিচার তৈরি করা হয়।
উদাহরণ: রঙের জন্য (লাল, নীল, সবুজ) তিনটি নতুন ফিচার তৈরি হয়।

import pandas as pd

# উদাহরণ ডেটাসেট
data = pd.DataFrame({'Gender': ['Male', 'Female', 'Female', 'Male'],
                     'Color': ['Red', 'Blue', 'Green', 'Blue']})

# One-Hot Encoding
data_encoded = pd.get_dummies(data, columns=['Gender', 'Color'])
print(data_encoded)

২. Missing Values

মিসিং ভ্যালু কি?

মিসিং ভ্যালু হলো সেই ডেটা পয়েন্ট যা কোন কারণে ডেটাসেটে উপস্থিত নয়। মিসিং ভ্যালু মডেলের কার্যকারিতা এবং সঠিকতাকে প্রভাবিত করতে পারে।

উদাহরণ:

একজন ব্যবহারকারীর বয়স জানানো না থাকলে, সেটি একটি মিসিং ভ্যালু।

মিসিং ভ্যালুকে পরিচালনা করা:

মিসিং ভ্যালুগুলিকে পরিচালনা করার জন্য বিভিন্ন পদ্ধতি রয়েছে:

Drop Missing Values:

যদি মিসিং ভ্যালুর সংখ্যা খুবই কম হয়, তবে সেই রেকর্ডগুলো বাদ দেওয়া যেতে পারে।

data.dropna(inplace=True)

Fill Missing Values:

মিসিং ভ্যালুগুলিকে একটি মান দিয়ে পূরণ করা, যেমন গড়, মিডিয়ান, মোড, অথবা পূর্ববর্তী/পরবর্তী মান।

data.fillna(data.mean(), inplace=True)

Interpolation:

মিসিং ভ্যালু গুলিকে বিভিন্ন গণনা করে পূরণ করা।

data.interpolate(method='linear', inplace=True)

Advanced Imputation Techniques:

বিশেষ লাইব্রেরি ব্যবহার করে যেমন sklearn.impute.SimpleImputer বা fancyimpute.

from sklearn.impute import SimpleImputer

# উদাহরণ ডেটাসেট
data = pd.DataFrame({'Age': [25, 30, None, 22, 28]})

# মিসিং ভ্যালু পূরণ করা
imputer = SimpleImputer(strategy='mean')
data['Age'] = imputer.fit_transform(data[['Age']])
print(data)

সারসংক্ষেপ

ক্যাটেগরিক্যাল ফিচার এবং মিসিং ভ্যালু মডেল তৈরির সময় গুরুত্বপূর্ণ বিষয়। ক্যাটেগরিক্যাল ফিচারগুলি সাধারণত টেক্সট বা লেবেল আকারে থাকে এবং সেগুলি গাণিতিকভাবে প্রক্রিয়া করার জন্য রূপান্তর করতে হয়। মিসিং ভ্যালু হলো ডেটা পয়েন্ট যা অনুপস্থিত, এবং সেগুলিকে বিভিন্ন কৌশল ব্যবহার করে পরিচালনা করতে হবে। সঠিকভাবে এই দুটি বিষয় পরিচালনা করা হলে মডেলের কার্যকারিতা উল্লেখযোগ্যভাবে বৃদ্ধি পেতে পারে।

Content added By

Md. Nasir Uddin (Raju)

Categorical Features কীভাবে LightGBM হ্যান্ডেল করে

129

LightGBM ক্যাটাগরীক্যাল ফিচারগুলোকে খুব কার্যকরভাবে হ্যান্ডেল করে, যা এই মডেলকে একটি বিশেষ সুবিধা দেয়। LightGBM ক্যাটাগরীক্যাল ফিচারগুলির জন্য অন্তর্নির্মিত সমর্থন প্রদান করে এবং সেগুলিকে প্রশিক্ষণের সময় কার্যকরভাবে পরিচালনা করে। নিচে ক্যাটাগরীক্যাল ফিচার হ্যান্ডেল করার প্রক্রিয়া এবং LightGBM-এর সুবিধাগুলো ব্যাখ্যা করা হলো।

ক্যাটাগরীক্যাল ফিচারগুলি কী?

ক্যাটাগরীক্যাল ফিচার হল এমন ফিচার বা বৈশিষ্ট্য যেগুলি নির্দিষ্ট শ্রেণীর প্রতিনিধিত্ব করে, যেমন লিঙ্গ (পুরুষ/মহিলা), রঙ (লাল/নীল/সবুজ), বা শহর নাম (ঢাকা/কলকাতা/মুম্বাই)। এই ধরনের ফিচার সাধারণত সংখ্যা দ্বারা প্রতিনিধিত্ব করা হয় না এবং তাদের বিশেষভাবে প্রক্রিয়াকৃত করা প্রয়োজন।

LightGBM-এর ক্যাটাগরীক্যাল ফিচার হ্যান্ডেলিং

অন্তর্নির্মিত সমর্থন:

LightGBM ক্যাটাগরীক্যাল ফিচারগুলির জন্য অন্তর্নির্মিত সমর্থন প্রদান করে। এটি ক্যাটাগরীক্যাল ফিচারগুলিকে সংখ্যা হিসেবে ব্যবহার করার প্রয়োজন ছাড়াই তাদের কার্যকরভাবে প্রশিক্ষণ করতে সক্ষম।

ক্যাটাগরীক্যাল এনকোডিং:

LightGBM ব্যবহারকারীকে ক্যাটাগরীক্যাল ফিচারগুলিকে ইনপুট করার সময় সেগুলি ক্যাটাগরী টাইপ হিসাবে চিহ্নিত করতে দেয়। উদাহরণস্বরূপ, একটি DataFrame-এ category ডেটা টাইপ ব্যবহার করা।

গতি এবং মেমরি কার্যকারিতা:

ক্যাটাগরীক্যাল ফিচারগুলিকে LightGBM-এ প্রক্রিয়া করার ফলে মডেলটি দ্রুত এবং মেমরি-সাশ্রয়ী হয়। এটি ডেটার মাত্রা কমায় এবং প্রশিক্ষণের সময় দ্রুত গতি প্রদান করে।

বিভিন্ন শ্রেণীর জন্য একটি ক্লাসিফায়ার:

LightGBM ক্যাটাগরীক্যাল ফিচারগুলির শ্রেণীকে বোঝার জন্য একটি ক্লাসিফায়ার তৈরি করে এবং বিভিন্ন শ্রেণীর মধ্যে বিভাজন করতে সহায়তা করে।

অতি-ফিটিং নিয়ন্ত্রণ:

ক্যাটাগরীক্যাল ফিচারগুলির কার্যকর ব্যবহারের মাধ্যমে LightGBM অতি-ফিটিং (overfitting) কমাতে পারে, কারণ এটি উপলব্ধ তথ্যের ভিত্তিতে শ্রেণীর সম্পর্কের ভিত্তিতে গাছের সিদ্ধান্ত গ্রহণ করে।

LightGBM-এ ক্যাটাগরীক্যাল ফিচার ব্যবহারের উদাহরণ

নিচে একটি উদাহরণ রয়েছে যেখানে LightGBM ব্যবহার করে ক্যাটাগরীক্যাল ফিচার হ্যান্ডেল করা হচ্ছে:

import lightgbm as lgb
import pandas as pd

# উদাহরণ ডেটাসেট তৈরি
data = {
    'color': ['red', 'blue', 'green', 'blue', 'red'],
    'size': ['S', 'M', 'L', 'L', 'M'],
    'label': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

# ক্যাটাগরীক্যাল ফিচার সেট করা
df['color'] = df['color'].astype('category')
df['size'] = df['size'].astype('category')

# প্রশিক্ষণ এবং টেস্ট সেট বিভাজন
X = df[['color', 'size']]
y = df['label']

# LightGBM ডেটা সেট তৈরি
train_data = lgb.Dataset(X, label=y, categorical_feature=['color', 'size'])

# LightGBM মডেল প্রশিক্ষণ
params = {
    'objective': 'binary',
    'metric': 'binary_logloss',
}

model = lgb.train(params, train_data)

# পূর্বাভাস করা
predictions = model.predict(X)

উপসংহার

LightGBM ক্যাটাগরীক্যাল ফিচারগুলোকে দক্ষতার সাথে হ্যান্ডেল করতে পারে, যা মডেলের প্রশিক্ষণ এবং কার্যকারিতা বৃদ্ধি করে। ক্যাটাগরীক্যাল ফিচারগুলির জন্য অন্তর্নির্মিত সমর্থন এবং কার্যকর ব্যবহারের কারণে LightGBM মডেলগুলি প্রশিক্ষণের সময় দ্রুত এবং মেমরি সাশ্রয়ী হয়। এই কারণে, LightGBM একটি জনপ্রিয় পছন্দ হয়ে উঠেছে বিশেষ করে ক্লাসিফিকেশন সমস্যার ক্ষেত্রে।

Content added By

Md. Nasir Uddin (Raju)

Missing Values এর প্রভাব এবং তাদের প্রক্রিয়াকরণ

158

Missing Values (অনুপস্থিত মান) একটি সাধারণ সমস্যা যা ডেটা বিশ্লেষণ এবং মেশিন লার্নিংয়ে অনেক সময় দেখা দেয়। এগুলি ডেটাসেটে অসংখ্য কারণে উপস্থিত হতে পারে, যেমন ডেটা সংগ্রহের সময় ত্রুটি, তথ্য অনুপলব্ধতা, অথবা ব্যবহারকারীর তথ্য প্রদান না করা।

Missing Values এর প্রভাব

মডেলের সঠিকতা: মডেলে অনুপস্থিত মান থাকলে এটি ফলাফলকে ভুল বা বিভ্রান্তিকরভাবে প্রভাবিত করতে পারে। মডেলটি সঠিকভাবে কাজ নাও করতে পারে এবং এর পারফরম্যান্স কমে যেতে পারে।

ডেটা বিশ্লেষণ: ডেটা বিশ্লেষণের সময়, অনুপস্থিত মান বিশ্লেষণের জন্য একটি অশুদ্ধ এবং অসম্পূর্ণ চিত্র তৈরি করতে পারে, যা সঠিক সিদ্ধান্ত গ্রহণে বাধা দেয়।

গবেষণার মান: গবেষণার ফলাফলগুলি অনুপস্থিত মানের কারণে ভুল হতে পারে, যা ফলস্বরূপ ভুল সিদ্ধান্ত এবং নীতিমালার ভুল ব্যাখ্যা ঘটাতে পারে।

সামাজিক এবং অর্থনৈতিক প্রভাব: ডেটা বিশ্লেষণ থেকে উৎপন্ন ফলাফলগুলি যদি সঠিক না হয়, তাহলে সামাজিক ও অর্থনৈতিক নীতিতে নেতিবাচক প্রভাব পড়তে পারে।

Missing Values এর প্রক্রিয়াকরণ

Missing values এর প্রক্রিয়াকরণের জন্য কিছু সাধারণ পদ্ধতি রয়েছে:

১. Deletion (মুছে ফেলা)

Listwise Deletion: যে সব সারিতে কোনো missing value রয়েছে সেগুলি পুরোপুরি মুছে ফেলা হয়। এই পদ্ধতি সহজ কিন্তু ডেটা হারানোর ঝুঁকি বাড়ায়।

Pairwise Deletion: বিশ্লেষণ বা পরিসংখ্যানের জন্য প্রয়োজনীয় মানগুলির ওপর ভিত্তি করে, কিছু সারি মুছে ফেলা হয়, যাতে ডেটার আরো তথ্য সংরক্ষণ করা যায়।

২. Imputation (প্রতিস্থাপন)

Mean/Median/Mode Imputation:

Mean: সংখ্যামূলক মানগুলির জন্য গড় ব্যবহার করা।
Median: মিসিং ভ্যালুর জন্য মধ্যম মান ব্যবহার করা, যা আউটলায়ার দ্বারা প্রভাবিত হয় না।
Mode: ক্যাটেগরিকাল ভ্যালুর জন্য সবচেয়ে প্রচলিত মান ব্যবহার করা।

K-Nearest Neighbors (KNN) Imputation: KNN ব্যবহার করে অনুরূপ নজরদারি ভিত্তিক মান পূরণ করা। এটি ডেটার পারস্পরিক সম্পর্ক ব্যবহার করে।

Regression Imputation: মিসিং ভ্যালুকে পূরণের জন্য অন্য বৈশিষ্ট্যের সাহায্যে রিগ্রেশন মডেল তৈরি করা।

৩. Flagging Missing Values

Missing Indicator: নতুন একটি বাইনারি কলাম তৈরি করা, যা জানায় যে মূল মানটি মিসিং ছিল (1) নাকি উপস্থিত (0)। এটি মডেলটিকে সাহায্য করতে পারে যে কিছু তথ্য প্রয়োজনীয় ছিল না।

৪. Using Algorithms That Support Missing Values

কিছু মডেল এবং অ্যালগরিদম যেমন LightGBM এবং XGBoost, মিসিং ভ্যালুকে অটোমেটিক্যালি পরিচালনা করতে পারে। এই ধরনের মডেলগুলি অপূর্ণ ডেটার জন্য আরও কার্যকরী হতে পারে।

উপসংহার

Missing values ডেটা বিশ্লেষণ এবং মেশিন লার্নিংয়ে একটি সাধারণ এবং গুরুত্বপূর্ণ সমস্যা। সঠিকভাবে এই মানগুলির প্রক্রিয়াকরণ মডেলের কার্যকারিতা এবং সঠিকতার উপর উল্লেখযোগ্য প্রভাব ফেলে। উপযুক্ত কৌশল নির্বাচন করে এবং ডেটার প্রকৃতি ও বিশ্লেষণের উদ্দেশ্য অনুযায়ী সঠিক পদক্ষেপ গ্রহণ করে, আপনি মিসিং ভ্যালুগুলির প্রভাব কমাতে পারেন এবং আরো নির্ভরযোগ্য ফলাফল পেতে পারেন।

Content added By

Md. Nasir Uddin (Raju)

LightGBM এর In-built Handling Technique

155

LightGBM (Light Gradient Boosting Machine) একটি শক্তিশালী গ্রেডিয়েন্ট বুস্টিং ফ্রেমওয়ার্ক যা বিভিন্ন ধরনের ডেটার সাথে কাজ করার জন্য ইন-বিল্ট হ্যান্ডলিং টেকনিক সরবরাহ করে। এই প্রযুক্তিগুলি মডেলের কার্যকারিতা বাড়াতে এবং প্রশিক্ষণ প্রক্রিয়াকে সহজতর করতে সাহায্য করে। নিচে LightGBM-এর কিছু গুরুত্বপূর্ণ ইন-বিল্ট হ্যান্ডলিং প্রযুক্তি আলোচনা করা হলো।

1. ক্যাটেগোরিকাল বৈশিষ্ট্য সমর্থন

স্বয়ংক্রিয় ক্যাটেগোরিকাল বৈশিষ্ট্য হ্যান্ডলিং: LightGBM ক্যাটেগোরিকাল বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে শনাক্ত এবং পরিচালনা করতে পারে। ব্যবহারকারীকে ক্যাটেগোরিকাল বৈশিষ্ট্যগুলিকে আলাদাভাবে প্রিপ্রসেস করার প্রয়োজন হয় না।
ক্যাটেগোরিকাল ফিচারের ইনডেক্স: ক্যাটেগোরিকাল বৈশিষ্ট্যগুলির ইনডেক্স তৈরি করে এবং তাদের ওপর ভিত্তি করে গাণিতিকভাবে উপযুক্ত ট্রি তৈরি করে।

2. হ্যান্ডলিং মিসিং ভ্যালু

মিসিং ভ্যালুর অটোমেটিক হ্যান্ডলিং: LightGBM মডেল প্রশিক্ষণের সময় মিসিং ভ্যালু হ্যান্ডল করার জন্য স্বয়ংক্রিয়ভাবে ব্যবস্থা গ্রহণ করে। এটি মিসিং ভ্যালু থাকার সময় তাদের উপেক্ষা করতে পারে অথবা একটি পৃথক গন্তব্য হিসাবে ব্যবহৃত হতে পারে।
প্রতিক্রিয়া ব্যবস্থা: মডেলটি অন্যান্য বৈশিষ্ট্যের মানের উপর ভিত্তি করে মিসিং ভ্যালুর জন্য উপযুক্ত প্রতিক্রিয়া বের করতে সক্ষম।

3. ভারী ডেটাসেটের সাথে কাজ

হিস্টোগ্রাম ভিত্তিক প্রশিক্ষণ: LightGBM হিষ্টোগ্রাম ভিত্তিক প্রশিক্ষণ পদ্ধতি ব্যবহার করে যা মডেল ট্রেনিংয়ের সময় দ্রুততার সাথে কার্যকরী তথ্য তৈরি করে। এটি মেমরি ব্যবহারে সাশ্রয়ী হয় এবং প্রশিক্ষণ প্রক্রিয়াকে দ্রুততর করে।
গ্রিড-সার্চ সমর্থন: মডেল প্রশিক্ষণ দ্রুত এবং কার্যকরভাবে চালানোর জন্য LightGBM বিভিন্ন হাইপারপ্যারামিটার এবং কনফিগারেশন মেনু প্রদান করে।

4. গতি এবং স্কেলেবিলিটি

বিকাশকারী পরিবেশ: LightGBM একটি ডিস্ট্রিবিউটেড ফ্রেমওয়ার্ক, তাই এটি বহু-কোর সিস্টেম এবং ক্লাস্টারগুলিতে প্রশিক্ষণ চালানোর জন্য উপযোগী।
গতি বৃদ্ধি: লার্জ স্কেল ডেটাসেট এবং কম্পিউটিং সক্ষমতা অনুসারে মডেল ট্রেনিং দ্রুততর হয়।

5. ফিচার ইঞ্জিনিয়ারিং

বৈশিষ্ট্য নির্বাচন: LightGBM অটোমেটিক্যালি ফিচার ইম্পরটেন্স বের করে, যা অপ্রয়োজনীয় বৈশিষ্ট্য বাদ দিতে সাহায্য করে এবং মডেলকে দ্রুত প্রশিক্ষণ দেয়।
অর্থনৈতিক ট্রেনিং: এটি কম্পিউটেশনে সাশ্রয় করে এবং মডেলের কার্যকারিতা উন্নত করতে সহায়তা করে।

উপসংহার

LightGBM-এর ইন-বিল্ট হ্যান্ডলিং প্রযুক্তিগুলি মডেল প্রশিক্ষণকে কার্যকরী এবং দ্রুততর করতে সহায়ক। ক্যাটেগোরিকাল বৈশিষ্ট্যগুলির স্বয়ংক্রিয় পরিচালনা, মিসিং ভ্যালু হ্যান্ডলিং, এবং দ্রুত প্রশিক্ষণ পদ্ধতি LightGBM কে ডেটা বিজ্ঞানীদের জন্য একটি শক্তিশালী টুল করে তোলে। এই ফিচারগুলো ব্যবহার করে, LightGBM ব্যবহারকারীরা তাদের মডেলগুলিকে কার্যকরভাবে প্রশিক্ষিত ও উন্নত করতে পারেন।

Content added By

Md. Nasir Uddin (Raju)

উদাহরণসহ Missing Values Management

149

Missing values management একটি গুরুত্বপূর্ণ ধাপ যা মেশিন লার্নিং প্রকল্পে ডেটার গুণমান এবং নির্ভুলতা উন্নত করতে সাহায্য করে। হারানো মানগুলি ডেটা বিশ্লেষণ এবং মডেল প্রশিক্ষণে সমস্যার সৃষ্টি করতে পারে, তাই সেগুলি সঠিকভাবে পরিচালনা করা প্রয়োজন। এখানে একটি উদাহরণের মাধ্যমে হারানো মানের ব্যবস্থাপনা প্রক্রিয়া আলোচনা করা হলো।

উদাহরণ: বাড়ির মূল্য ডেটাসেট

আমরা একটি বাড়ির মূল্য ডেটাসেট ব্যবহার করবো যেখানে কিছু কোলামে হারানো মান রয়েছে।

ডেটাসেট উদাহরণ (housing_data.csv)

ID,Price,Bedrooms,Bathrooms,Square_Feet,Yard_Size
1,250000,3,2,1500,500
2,300000,4,3,2000,
3,150000,2,,900,300
4,400000,4,3,2500,700
5,,2,1,1200,200

ধাপ ১: লাইব্রেরি লোড করা

import pandas as pd

# ডেটাসেট লোড করা
data = pd.read_csv('housing_data.csv')

# ডেটা দেখুন
print(data.head())

ধাপ ২: হারানো মান বিশ্লেষণ

# হারানো মানের পরিমাণ দেখা
missing_values = data.isnull().sum()
print("Missing values in each column:")
print(missing_values)

ধাপ ৩: হারানো মানের ব্যবস্থাপনা

হারানো মানগুলির বিভিন্ন ব্যবস্থাপনা কৌশল রয়েছে। নিচে কিছু সাধারণ পদ্ধতি আলোচনা করা হলো।

১. হারানো মান সরিয়ে ফেলা

যদি হারানো মানের পরিমাণ খুব কম হয়, তবে সেগুলি সরিয়ে ফেলা যায়।

# হারানো মান সম্পূর্ণ সারি সরানো
data_cleaned = data.dropna()
print("Data after dropping missing values:")
print(data_cleaned)

২. হারানো মান পূরণ করা

হারানো মান পূরণ করার জন্য বিভিন্ন পদ্ধতি ব্যবহার করা যেতে পারে:

মিডিয়ান/মিন/মোড ব্যবহার করা:

# Bathrooms কলামের হারানো মান পূরণ করা
data['Bathrooms'].fillna(data['Bathrooms'].median(), inplace=True)

# Price কলামের হারানো মান পূরণ করা
data['Price'].fillna(data['Price'].mean(), inplace=True)

print("Data after filling missing values:")
print(data.head())

ফরওয়ার্ড/ব্যাকওয়ার্ড ফিলিং:

# ফরওয়ার্ড ফিলিং ব্যবহার করে হারানো মান পূরণ করা
data['Square_Feet'].fillna(method='ffill', inplace=True)

print("Data after forward filling missing values:")
print(data.head())

৩. মডেলিং পদ্ধতি ব্যবহার করা

হারানো মানের জন্য একটি মডেল ব্যবহার করা, যেমন রিগ্রেশন মডেল, হারানো মান পূর্বাভাস করার জন্য ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, আপনি Price কলামের জন্য একটি মডেল তৈরি করতে পারেন।

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# টার্গেট এবং ফিচার নির্ধারণ করা
X = data[['Bedrooms', 'Bathrooms', 'Square_Feet', 'Yard_Size']]
y = data['Price'].dropna()

# Price কলামের হারানো মান পূরণের জন্য মডেল তৈরি
X_train, X_val, y_train, y_val = train_test_split(X.dropna(), y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

# নতুন ডেটা দিয়ে হারানো মান পূরণ করা
missing_index = data[data['Price'].isnull()].index
for i in missing_index:
    data.loc[i, 'Price'] = model.predict(data.loc[i, ['Bedrooms', 'Bathrooms', 'Square_Feet', 'Yard_Size']].values.reshape(1, -1))

print("Data after predicting missing values:")
print(data.head())

সারসংক্ষেপ

এই উদাহরণে, আমরা একটি ডেটাসেট থেকে হারানো মান পরিচালনা করার জন্য বিভিন্ন কৌশল ব্যবহার করেছি, যেমন হারানো মান সরিয়ে ফেলা, মিডিয়ান বা মিন ব্যবহার করে পূরণ করা, এবং মডেলিং পদ্ধতি ব্যবহার করে পূর্বাভাস করা। সঠিকভাবে হারানো মান পরিচালনা করা ডেটার গুণমান এবং মডেলের কার্যকারিতা বাড়াতে গুরুত্বপূর্ণ।

Content added By

Md. Nasir Uddin (Raju)

LightGBM পরিচিতি Boosting Techniques এবং LightGBM LightGBM ইন্সটলেশন এবং সেটআপ LightGBM এর বেসিক ব্যবহার মডেল ট্রেনিং এবং প্রেডিকশন

Categorical Features এবং Missing Values