Missing Data Handle করা

Time Series Data Preprocessing - টাইম সিরিজ (Time Series) - Machine Learning

296

টাইম সিরিজ ডেটায় মিসিং ডেটা একটি সাধারণ সমস্যা। মিসিং ডেটা থাকার কারণে ডেটার বিশ্লেষণ বা মডেলিং প্রক্রিয়া প্রভাবিত হতে পারে, তাই মিসিং ডেটা সঠিকভাবে হ্যান্ডল করা অত্যন্ত গুরুত্বপূর্ণ। মিসিং ডেটা হ্যান্ডলিংয়ের বিভিন্ন পদ্ধতি রয়েছে, যা নির্ভর করে ডেটার প্রকৃতি, মিসিং ভ্যালুর পরিমাণ এবং গবেষণার উদ্দেশ্যের উপর।

নিচে মিসিং ডেটা হ্যান্ডলিংয়ের কিছু সাধারণ পদ্ধতি আলোচনা করা হলো:

১. ফরওয়ার্ড ফিলিং (Forward Filling)

বর্ণনা: ফরওয়ার্ড ফিলিং হল এমন একটি পদ্ধতি যেখানে মিসিং ভ্যালু পূর্ণ করার জন্য পূর্ববর্তী পরিমাপ বা মানটি ব্যবহার করা হয়। অর্থাৎ, মিসিং ভ্যালু আগে থাকা ডেটা দিয়ে পূর্ণ করা হয়।

পদ্ধতি:

মিসিং ভ্যালুর জন্য আগের ভ্যালু (previous value) পূর্ণ করা।

উদাহরণ:

import pandas as pd

# Sample data with missing values
data = {'Date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05'],
        'Value': [100, None, 120, None, 130]}
df = pd.DataFrame(data)

# Forward fill to handle missing values
df['Value'] = df['Value'].fillna(method='ffill')
print(df)

২. ব্যাকওয়ার্ড ফিলিং (Backward Filling)

বর্ণনা: ব্যাকওয়ার্ড ফিলিং হল একটি পদ্ধতি যেখানে মিসিং ভ্যালু পূর্ণ করার জন্য পরবর্তী পরিমাপ বা মানটি ব্যবহার করা হয়। অর্থাৎ, মিসিং ভ্যালুর জন্য পরবর্তী ডেটা দিয়ে পূর্ণ করা হয়।

পদ্ধতি:

মিসিং ভ্যালুর জন্য পরবর্তী ডেটার মানটি ব্যবহার করা।

উদাহরণ:

# Backward fill to handle missing values
df['Value'] = df['Value'].fillna(method='bfill')
print(df)

৩. গড় (Mean), মধ্যম (Median), বা মোড (Mode) দিয়ে ইম্পুটেশন

বর্ণনা: এই পদ্ধতিতে মিসিং ভ্যালু পূর্ণ করার জন্য ডেটার গড় (mean), মধ্যম (median), বা মোড (mode) মান ব্যবহার করা হয়। এটি সাধারণত তখন ব্যবহার করা হয় যখন মিসিং ভ্যালুর পরিমাণ কম এবং ডেটার মধ্যে কোনও বিশেষ ট্রেন্ড না থাকে।

পদ্ধতি:

মিসিং ভ্যালু পূর্ণ করার জন্য পুরো ডেটার গড়, মধ্যম বা মোড ব্যবহার করা।

উদাহরণ:

# Impute missing values with mean
df['Value'] = df['Value'].fillna(df['Value'].mean())
print(df)

৪. ইন্টারপোলেশন (Interpolation)

বর্ণনা: ইন্টারপোলেশন হল একটি প্রক্রিয়া যেখানে মিসিং ভ্যালুর জন্য দুটি পরিচিত মানের মধ্যে একটি অনুমানিত মান নির্ধারণ করা হয়। এটি বিভিন্ন পদ্ধতির মাধ্যমে করা যেতে পারে, যেমন লিনিয়ার ইন্টারপোলেশন বা পলিনোমিয়াল ইন্টারপোলেশন।

পদ্ধতি:

সাধারণত লিনিয়ার ইন্টারপোলেশন ব্যবহার করা হয়, যেখানে দুটি সমান্তরাল ডেটার মধ্যে একটি সরল রেখা দিয়ে ভ্যালু পূর্ণ করা হয়।

উদাহরণ:

# Interpolation to handle missing values
df['Value'] = df['Value'].interpolate(method='linear')
print(df)

৫. ডেটা সরানো (Removing Data)

বর্ণনা: যখন মিসিং ভ্যালুর পরিমাণ অত্যধিক এবং তা ইম্পুটেশন বা ফিলিং পদ্ধতিতে পূর্ণ করা সম্ভব নয়, তখন এই ভ্যালুগুলো সরিয়ে ফেলা হয়। এটি সাধারণত তখন করা হয় যখন মিসিং ভ্যালুর কারণে ডেটার গুণমান প্রভাবিত হয়।

পদ্ধতি:

মিসিং ভ্যালু সম্বলিত সারি বা কলাম মুছে ফেলা।

উদাহরণ:

# Remove rows with missing values
df = df.dropna()
print(df)

৬. মডেল ভিত্তিক ইম্পুটেশন (Model-Based Imputation)

বর্ণনা: এই পদ্ধতিতে, একটি পরিসংখ্যানিক মডেল বা মেশিন লার্নিং মডেল ব্যবহার করে মিসিং ভ্যালু পূর্ণ করা হয়। মডেলটি ডেটার অন্যান্য বৈশিষ্ট্য ব্যবহার করে মিসিং ভ্যালুর জন্য অনুমান তৈরি করে।

পদ্ধতি:

যেমন, K-Nearest Neighbors (KNN) বা Regressions ব্যবহার করে মিসিং ভ্যালু পূর্ণ করা।

সারাংশ

মিসিং ডেটা হ্যান্ডলিং হল একটি গুরুত্বপূর্ণ ধাপ টাইম সিরিজ ডেটা বিশ্লেষণ এবং মডেলিংয়ের ক্ষেত্রে। বিভিন্ন পদ্ধতির মাধ্যমে মিসিং ডেটাকে সঠিকভাবে পূর্ণ করা যায়, যেমন ফরওয়ার্ড/ব্যাকওয়ার্ড ফিলিং, ইম্পুটেশন (গড়, মধ্যম), ইন্টারপোলেশন, বা মডেল ভিত্তিক ইম্পুটেশন। এটি ডেটার গুণমান এবং মডেলিংয়ের কার্যকারিতা বাড়াতে সহায়ক।

Content added By

Azizar Rahman Aziz

Data Transformation Techniques (Log Transformation, Differencing) Data Smoothing Techniques (Moving Average, Exponential Smoothing) Time Series Data Shifting এবং Lag Features তৈরি করা

Missing Data Handle করা

১. ফরওয়ার্ড ফিলিং (Forward Filling)

২. ব্যাকওয়ার্ড ফিলিং (Backward Filling)

৩. গড় (Mean), মধ্যম (Median), বা মোড (Mode) দিয়ে ইম্পুটেশন

৪. ইন্টারপোলেশন (Interpolation)

৫. ডেটা সরানো (Removing Data)

৬. মডেল ভিত্তিক ইম্পুটেশন (Model-Based Imputation)

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Missing Data Handle করা

১. ফরওয়ার্ড ফিলিং (Forward Filling)

২. ব্যাকওয়ার্ড ফিলিং (Backward Filling)

৩. গড় (Mean), মধ্যম (Median), বা মোড (Mode) দিয়ে ইম্পুটেশন

৪. ইন্টারপোলেশন (Interpolation)

৫. ডেটা সরানো (Removing Data)

৬. মডেল ভিত্তিক ইম্পুটেশন (Model-Based Imputation)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!