Missing Data Handle করা (Mean, Median, Mode Imputation)

Machine Learning - মেশিন লার্নিং (Machine Learning) - Data Preprocessing এবং Feature Engineering

429

মেশিন লার্নিং এবং ডেটা সায়েন্সে মিসিং ডেটা বা অনুপস্থিত ডেটা একটি সাধারণ সমস্যা। যেহেতু ডেটা বিশ্লেষণ বা মডেল ট্রেনিংয়ের জন্য পূর্ণাঙ্গ এবং বিশুদ্ধ ডেটা প্রয়োজন, মিসিং ডেটা ঠিক করা অত্যন্ত গুরুত্বপূর্ণ। মিসিং ডেটা হ্যান্ডল করার জন্য বিভিন্ন কৌশল ব্যবহৃত হয়, তার মধ্যে Mean Imputation, Median Imputation, এবং Mode Imputation অন্যতম।

এই কৌশলগুলি মূলত ঐ কলামের মিসিং ভ্যালুগুলিকে সঠিকভাবে পূর্ণ করতে ব্যবহৃত হয়।

১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

Mean Imputation হল মিসিং ভ্যালু গুলিকে ঐ কলামের গড় (Mean) দিয়ে পূর্ণ করার পদ্ধতি। এটি সবচেয়ে সহজ এবং প্রচলিত পদ্ধতি যেখানে, মিসিং ডেটার জন্য ঐ কলামের গড় মান ব্যবহার করা হয়।

কিভাবে কাজ করে:

ঐ কলামের সমস্ত মানের যোগফল বের করা হয়।
তারপর সংখ্যার মোট পরিমাণ দ্বারা যোগফল ভাগ করা হয় (এটা কলামের গড় বের করার পদ্ধতি)।
এরপর, মিসিং ভ্যালুগুলি গড় মান দিয়ে প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এখন, গড় মান হবে: (1 + 2 + 3 + 4 + 6) / 5 = 3.2
তাহলে, NaN ভ্যালুটির পরিবর্তে 3.2 রাখা হবে।

সুবিধা:

খুবই সহজ এবং দ্রুত পদ্ধতি।
সংখ্যাসূচক ডেটার জন্য কার্যকরী।

অসুবিধা:

যদি ডেটা সিমেট্রিক না হয়, বা আউটলাইয়ার (Outliers) থাকলে গড় মান খুব নির্ভরযোগ্য নাও হতে পারে।
এটি মূল বৈচিত্র্য বা প্যাটার্ন হারাতে পারে।

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

Median Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের মধ্যম (Median) মান দিয়ে পূর্ণ করার পদ্ধতি। এটি গড়ের তুলনায় বেশ কার্যকরী যখন ডেটা অনেকটাই স্কewed (বাঁকা) বা আউটলাইয়ার থাকে।

কিভাবে কাজ করে:

ঐ কলামের সমস্ত মান সাজানো হয়।
তারপর, কলামের মাঝের মান (Median) বের করা হয়।
মিসিং ভ্যালু গুলি ঐ মধ্যম মান দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এই ডেটা সাজানো হলে: [1, 2, 3, 4, 6]
এখানে মধ্যম মান হল 3।
তাহলে, NaN ভ্যালুটির পরিবর্তে 3 রাখা হবে।

সুবিধা:

স্কিউড বা আউটলাইয়ার-ভিত্তিক ডেটাতে কার্যকরী।
গড়ের তুলনায় মধ্যম মান ডেটার বৈচিত্র্য বেশি রাখে।

অসুবিধা:

কিছু পরিস্থিতিতে গড়ের চেয়ে কম তথ্যপূর্ণ হতে পারে।
খুব ছোট ডেটাসেটে এটি ব্যবহার করা কঠিন হতে পারে।

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

Mode Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের Mode (সবচেয়ে সাধারণ বা প্রায়ই আসা মান) দিয়ে পূর্ণ করার পদ্ধতি। এটি সাধারণত ক্যাটেগোরিকাল (Categorical) ডেটার জন্য ব্যবহৃত হয়, যেখানে সংখ্যা বা লেবেল পুনরায় আসতে থাকে।

কিভাবে কাজ করে:

ঐ কলামের মানগুলির মধ্যে যে মানটি সবচেয়ে বেশি বার আসে, সেটিই Mode হিসেবে নির্বাচিত হয়।
মিসিং ভ্যালুগুলি Mode দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [Red, Blue, Green, Green, NaN, Green]
এখানে NaN হল মিসিং মান।
এখানে Mode হচ্ছে Green, কারণ এটি সবচেয়ে বেশি বার এসেছে।
তাহলে, NaN ভ্যালুটির পরিবর্তে Green রাখা হবে।

সুবিধা:

ক্যাটেগোরিকাল ডেটার জন্য খুবই কার্যকরী।
আউটলাইয়ারের প্রভাব কম হয়।

অসুবিধা:

যদি অনেক ভিন্ন ভিন্ন মান থাকে এবং কোন স্পষ্ট Mode না থাকে, তাহলে এটি ঠিকভাবে কাজ নাও করতে পারে।
Mode তেমন বৈচিত্র্যপূর্ণ তথ্য দিতে নাও পারে।

সারসংক্ষেপ

মিসিং ডেটা হ্যান্ডলিংয়ের তিনটি সাধারণ পদ্ধতি:

Mean Imputation: গড় মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি সংখ্যাসূচক ডেটার জন্য কার্যকরী, তবে আউটলাইয়ার বা স্কিউড ডেটার ক্ষেত্রে ফলস্বরূপ সঠিক নাও হতে পারে।
Median Imputation: মধ্যম মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি স্কিউড বা আউটলাইয়ার ডেটা বিশ্লেষণে কার্যকর।
Mode Imputation: ফ্রিকোয়েন্ট মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি ক্যাটেগোরিকাল ডেটার জন্য উপযুক্ত।

মিসিং ডেটা হ্যান্ডলিংয়ের জন্য যে পদ্ধতিটি ব্যবহার করবেন, তা নির্ভর করবে ডেটার প্রকৃতি (সংখ্যাসূচক, ক্যাটেগোরিকাল) এবং ডেটার বিভাজন (স্কিউড, আউটলাইয়ারস ইত্যাদি) এর উপর।

Content added By

SATT Academy

Data Collection এবং Cleaning Techniques Feature Scaling (Normalization, Standardization) Feature Encoding (One-Hot Encoding, Label Encoding)

Missing Data Handle করা (Mean, Median, Mode Imputation)

১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

Missing Data Handle করা (Mean, Median, Mode Imputation)

১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!