Missing Data Handle করা (Mean, Median, Mode Imputation)

Machine Learning - মেশিন লার্নিং (Machine Learning) - Data Preprocessing এবং Feature Engineering
427

মেশিন লার্নিং এবং ডেটা সায়েন্সে মিসিং ডেটা বা অনুপস্থিত ডেটা একটি সাধারণ সমস্যা। যেহেতু ডেটা বিশ্লেষণ বা মডেল ট্রেনিংয়ের জন্য পূর্ণাঙ্গ এবং বিশুদ্ধ ডেটা প্রয়োজন, মিসিং ডেটা ঠিক করা অত্যন্ত গুরুত্বপূর্ণ। মিসিং ডেটা হ্যান্ডল করার জন্য বিভিন্ন কৌশল ব্যবহৃত হয়, তার মধ্যে Mean Imputation, Median Imputation, এবং Mode Imputation অন্যতম।

এই কৌশলগুলি মূলত ঐ কলামের মিসিং ভ্যালুগুলিকে সঠিকভাবে পূর্ণ করতে ব্যবহৃত হয়।


১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

Mean Imputation হল মিসিং ভ্যালু গুলিকে ঐ কলামের গড় (Mean) দিয়ে পূর্ণ করার পদ্ধতি। এটি সবচেয়ে সহজ এবং প্রচলিত পদ্ধতি যেখানে, মিসিং ডেটার জন্য ঐ কলামের গড় মান ব্যবহার করা হয়।

কিভাবে কাজ করে:

  • ঐ কলামের সমস্ত মানের যোগফল বের করা হয়।
  • তারপর সংখ্যার মোট পরিমাণ দ্বারা যোগফল ভাগ করা হয় (এটা কলামের গড় বের করার পদ্ধতি)।
  • এরপর, মিসিং ভ্যালুগুলি গড় মান দিয়ে প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এখন, গড় মান হবে: (1 + 2 + 3 + 4 + 6) / 5 = 3.2
তাহলে, NaN ভ্যালুটির পরিবর্তে 3.2 রাখা হবে।

সুবিধা:

  • খুবই সহজ এবং দ্রুত পদ্ধতি।
  • সংখ্যাসূচক ডেটার জন্য কার্যকরী।

অসুবিধা:

  • যদি ডেটা সিমেট্রিক না হয়, বা আউটলাইয়ার (Outliers) থাকলে গড় মান খুব নির্ভরযোগ্য নাও হতে পারে।
  • এটি মূল বৈচিত্র্য বা প্যাটার্ন হারাতে পারে।

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

Median Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের মধ্যম (Median) মান দিয়ে পূর্ণ করার পদ্ধতি। এটি গড়ের তুলনায় বেশ কার্যকরী যখন ডেটা অনেকটাই স্কewed (বাঁকা) বা আউটলাইয়ার থাকে।

কিভাবে কাজ করে:

  • ঐ কলামের সমস্ত মান সাজানো হয়।
  • তারপর, কলামের মাঝের মান (Median) বের করা হয়।
  • মিসিং ভ্যালু গুলি ঐ মধ্যম মান দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এই ডেটা সাজানো হলে: [1, 2, 3, 4, 6]
এখানে মধ্যম মান হল 3।
তাহলে, NaN ভ্যালুটির পরিবর্তে 3 রাখা হবে।

সুবিধা:

  • স্কিউড বা আউটলাইয়ার-ভিত্তিক ডেটাতে কার্যকরী।
  • গড়ের তুলনায় মধ্যম মান ডেটার বৈচিত্র্য বেশি রাখে।

অসুবিধা:

  • কিছু পরিস্থিতিতে গড়ের চেয়ে কম তথ্যপূর্ণ হতে পারে।
  • খুব ছোট ডেটাসেটে এটি ব্যবহার করা কঠিন হতে পারে।

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

Mode Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের Mode (সবচেয়ে সাধারণ বা প্রায়ই আসা মান) দিয়ে পূর্ণ করার পদ্ধতি। এটি সাধারণত ক্যাটেগোরিকাল (Categorical) ডেটার জন্য ব্যবহৃত হয়, যেখানে সংখ্যা বা লেবেল পুনরায় আসতে থাকে।

কিভাবে কাজ করে:

  • ঐ কলামের মানগুলির মধ্যে যে মানটি সবচেয়ে বেশি বার আসে, সেটিই Mode হিসেবে নির্বাচিত হয়।
  • মিসিং ভ্যালুগুলি Mode দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [Red, Blue, Green, Green, NaN, Green]
এখানে NaN হল মিসিং মান।
এখানে Mode হচ্ছে Green, কারণ এটি সবচেয়ে বেশি বার এসেছে।
তাহলে, NaN ভ্যালুটির পরিবর্তে Green রাখা হবে।

সুবিধা:

  • ক্যাটেগোরিকাল ডেটার জন্য খুবই কার্যকরী।
  • আউটলাইয়ারের প্রভাব কম হয়।

অসুবিধা:

  • যদি অনেক ভিন্ন ভিন্ন মান থাকে এবং কোন স্পষ্ট Mode না থাকে, তাহলে এটি ঠিকভাবে কাজ নাও করতে পারে।
  • Mode তেমন বৈচিত্র্যপূর্ণ তথ্য দিতে নাও পারে।

সারসংক্ষেপ

মিসিং ডেটা হ্যান্ডলিংয়ের তিনটি সাধারণ পদ্ধতি:

  • Mean Imputation: গড় মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি সংখ্যাসূচক ডেটার জন্য কার্যকরী, তবে আউটলাইয়ার বা স্কিউড ডেটার ক্ষেত্রে ফলস্বরূপ সঠিক নাও হতে পারে।
  • Median Imputation: মধ্যম মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি স্কিউড বা আউটলাইয়ার ডেটা বিশ্লেষণে কার্যকর।
  • Mode Imputation: ফ্রিকোয়েন্ট মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি ক্যাটেগোরিকাল ডেটার জন্য উপযুক্ত।

মিসিং ডেটা হ্যান্ডলিংয়ের জন্য যে পদ্ধতিটি ব্যবহার করবেন, তা নির্ভর করবে ডেটার প্রকৃতি (সংখ্যাসূচক, ক্যাটেগোরিকাল) এবং ডেটার বিভাজন (স্কিউড, আউটলাইয়ারস ইত্যাদি) এর উপর।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...