Time Series Analysis এবং Forecasting

টেন্সরফ্লো (TensorFlow) - Machine Learning

361

টাইম সিরিজ বিশ্লেষণ (Time Series Analysis) এবং ফোরকাস্টিং (Forecasting) হলো এমন একটি প্রক্রিয়া যেখানে সময়ের উপর ভিত্তি করে ডেটার প্রবণতা, প্যাটার্ন, মৌসুমী পরিবর্তন এবং অন্যান্য বৈশিষ্ট্য বিশ্লেষণ করা হয়, এবং এর মাধ্যমে ভবিষ্যতে কী ঘটতে পারে তা পূর্বাভাস দেওয়া হয়। এটি বিভিন্ন ক্ষেত্রে যেমন অর্থনীতি, আবহাওয়া, স্টক মার্কেট, উৎপাদন, বিক্রি ইত্যাদিতে ব্যবহৃত হয়।

টাইম সিরিজ বিশ্লেষণ (Time Series Analysis)

টাইম সিরিজ বিশ্লেষণের মাধ্যমে এমন ডেটা প্যাটার্ন চিহ্নিত করা হয় যা সময়ের সাথে পরিবর্তিত হয়। এই ধরনের ডেটাতে সাধারণত সময়ের সাথে সাথে ডেটা নথিভুক্ত করা হয় (যেমন, প্রতি ঘণ্টায় বা প্রতি দিন, মাসে একবার ডেটা নেওয়া হয়)। টাইম সিরিজ ডেটার বিভিন্ন উপাদান আছে যেগুলিকে বিশ্লেষণ করা হয়:

টাইম সিরিজ উপাদানসমূহ:

ট্রেন্ড (Trend):
এটি সময়ের সাথে ডেটার দীর্ঘমেয়াদী পরিবর্তন বা প্রবণতাকে বোঝায়। উদাহরণস্বরূপ, কোনো দেশের জিডিপি (GDP) বা কোনো প্রতিষ্ঠানের বিক্রি যদি এক্সপোনেনশিয়ালি বৃদ্ধি পায়, তবে এটি একটি ট্রেন্ড।
সিজনালিটি (Seasonality):
কিছু ডেটাতে নির্দিষ্ট সময়ের মধ্যে নিয়মিত ওঠানামা দেখা যায়, যেমন গ্রীষ্মকালে পর্যটন বাড়ানো বা শীতকালে বিদ্যুৎ চাহিদা বৃদ্ধি পাওয়া। এই ওঠানামাকে সিজনালিটি বলা হয়।
সাইক্লিক্যাল ফ্লাকচুয়েশন (Cyclical Fluctuations):
সিজনালিটির মতো, তবে এটি দীর্ঘমেয়াদী প্রবণতা যা নির্দিষ্ট সময়ের মধ্যে ঘটে না। অর্থাৎ, এটি সরাসরি সময়ের সঙ্গে সম্পর্কিত নয়, বরং এর সঙ্গে অর্থনৈতিক চক্র বা বাজারের অবস্থা সম্পর্কিত।
র্যান্ডম ভেরিয়েশন (Random Variation):
এই উপাদানটি অপ্রত্যাশিত এবং অস্থির ঘটনা বা প্রভাবকে বোঝায় যা ডেটাতে এলোমেলোভাবে ঘটতে থাকে। এটি কোনও নিদিষ্ট প্যাটার্ন বা নিয়মের অধীনে থাকে না এবং ভবিষ্যদ্বাণী করা খুবই কঠিন।

টাইম সিরিজ বিশ্লেষণের পদ্ধতিগত প্রক্রিয়া:

ডেটা সংগ্রহ:
প্রথমে আপনার আগ্রহের ক্ষেত্রের উপর ভিত্তি করে টাইম সিরিজ ডেটা সংগ্রহ করতে হবে, যেমন দিনের বেলা স্টক মার্কেটের দাম, মাসের বিক্রির পরিমাণ ইত্যাদি।
ডেটার পরিসংখ্যান বিশ্লেষণ:
বিভিন্ন পরিসংখ্যানগত পরীক্ষা যেমন সেন্ট্রাল টেনডেন্সি (mean, median, mode) এবং ডিস্ট্রিবিউশন বিশ্লেষণ করে ডেটা প্রক্রিয়াকরণ করা হয়।
ডেটার সিজনাল এবং ট্রেন্ড প্যাটার্ন চিহ্নিত করা:
ডেটাতে সিজনালিটি এবং ট্রেন্ড শনাক্ত করতে সিজনাল ডিট্রেন্ডিং পদ্ধতি ব্যবহার করা হয়। এটি ভবিষ্যতের পূর্বাভাসের জন্য অত্যন্ত গুরুত্বপূর্ণ।
মডেলিং:
টাইম সিরিজ বিশ্লেষণের জন্য বিভিন্ন মডেল ব্যবহার করা হয়, যেমন ARIMA, SARIMA, Exponential Smoothing, Seasonal Decomposition ইত্যাদি।
ভ্যালিডেশন এবং পারফরম্যান্স চেক:
মডেল তৈরি হওয়ার পরে, মডেলের কার্যকারিতা এবং পূর্বাভাসের সঠিকতা যাচাই করা হয়। বিভিন্ন মেট্রিকস (যেমন RMSE, MAE) ব্যবহার করে মডেল ভ্যালিডেশন করা হয়।

টাইম সিরিজ ফোরকাস্টিং (Forecasting)

টাইম সিরিজ ফোরকাস্টিং হলো ভবিষ্যতে কোনো ভেরিয়েবলের মান পূর্বাভাস করা। এর মাধ্যমে আমরা যে প্রবণতাগুলো বা প্যাটার্নগুলো ইতিমধ্যে শনাক্ত করেছি, সেগুলোর উপর ভিত্তি করে ভবিষ্যত সম্পর্কে অনুমান করতে পারি। এটি একটি গুরুত্বপূর্ণ মেথড যা ব্যবসায়িক সিদ্ধান্ত গ্রহণে, পরিকল্পনা তৈরিতে, এবং ঝুঁকি মূল্যায়নে সহায়ক।

টাইম সিরিজ ফোরকাস্টিং মডেল:

ARIMA (AutoRegressive Integrated Moving Average): ARIMA মডেলটি একটি সাধারণ টাইম সিরিজ মডেল যা অটোরিগ্রেসিভ (AR), ইন্টিগ্রেটেড (I), এবং মুভিং এভারেজ (MA) কম্পোনেন্ট সমন্বয়ে কাজ করে। এটি ডেটার ট্রেন্ড, সিজনাল প্যাটার্ন এবং র্যান্ডম ভেরিয়েশনকে মডেল করে।
SARIMA (Seasonal ARIMA): SARIMA হল ARIMA মডেলের উন্নত সংস্করণ, যা সিজনাল উপাদানগুলোকেও মডেল করে। এটি যখন ডেটাতে সিজনাল প্যাটার্ন থাকে তখন ব্যবহৃত হয়।
Exponential Smoothing (ETS): এই পদ্ধতি অতীত ডেটার একটি এক্সপোনেনশিয়াল ওয়েটেড অডজাস্টমেন্টের মাধ্যমে ভবিষ্যৎ মান পূর্বাভাস করতে সহায়ক।
Facebook Prophet: Facebook Prophet একটি ওপেন সোর্স টুল যা টাইম সিরিজ ডেটার জন্য বিশেষভাবে তৈরি করা হয়েছে এবং এটি বিভিন্ন মৌসুমী প্রবণতা ও বিশেষ ঘটনা (holidays) সহ ডেটা বিশ্লেষণ করতে সাহায্য করে।
Long Short Term Memory (LSTM): LSTM হল একটি প্রকারের রিকারেন্ট নিউরাল নেটওয়ার্ক (RNN) যা টাইম সিরিজ ফোরকাস্টিংয়ের জন্য ব্যবহার করা হয়। এটি বিশেষভাবে দীর্ঘমেয়াদী প্রাসঙ্গিক তথ্য ধরে রাখতে সক্ষম এবং বড় ডেটাসেটের জন্য খুবই কার্যকরী।

টাইম সিরিজ ফোরকাস্টিং প্রক্রিয়া:

ডেটার বিশ্লেষণ:
ডেটার প্যাটার্ন এবং মৌসুমী পরিবর্তনগুলি চিহ্নিত করার জন্য ডেটা বিশ্লেষণ করুন। এর মধ্যে সিজনালিটি, ট্রেন্ড, এবং র্যান্ডম ভেরিয়েশন থাকতে পারে।
মডেল নির্বাচন:
ডেটার বৈশিষ্ট্যের ওপর ভিত্তি করে একটি ফোরকাস্টিং মডেল নির্বাচন করুন (যেমন ARIMA, Prophet, বা LSTM)।
মডেল ট্রেনিং:
নির্বাচিত মডেলটি অতীত ডেটার উপর ট্রেন করুন, যাতে মডেলটি ভবিষ্যৎ পূর্বাভাস দিতে সক্ষম হয়।
ফোরকাস্টিং:
ট্রেনিংয়ের পর, মডেলটি ব্যবহার করে ভবিষ্যত সময়ে ডেটার মান পূর্বাভাস করুন।
ভ্যালিডেশন:
পূর্বাভাসের সঠিকতা যাচাই করার জন্য মডেলটি বাস্তব ডেটার সাথে তুলনা করুন এবং সঠিকতা নির্ধারণ করুন।

সারাংশ

টাইম সিরিজ বিশ্লেষণ এবং ফোরকাস্টিং হলো একটি শক্তিশালী প্রক্রিয়া যা ডেটার সময়ের সাথে পরিবর্তনগুলি বুঝতে এবং ভবিষ্যতে কী ঘটতে পারে তা পূর্বাভাস করতে সাহায্য করে। টাইম সিরিজ মডেলগুলি ব্যবসা, অর্থনীতি, আবহাওয়া, স্বাস্থ্যসেবা ইত্যাদি বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়। ARIMA, SARIMA, এবং LSTM মডেলগুলি টাইম সিরিজ ফোরকাস্টিংয়ের জন্য জনপ্রিয় পদ্ধতি, যা ডেটার প্যাটার্ন এবং প্রবণতাগুলি বিশ্লেষণ করে ভবিষ্যত সম্পর্কে প্রেডিকশন তৈরি করতে সহায়ক।

Content added By

Azizar Rahman Aziz

Time Series Data Preprocessing Techniques

314

টাইম সিরিজ ডেটা প্রিপ্রসেসিং মডেল তৈরির একটি অত্যন্ত গুরুত্বপূর্ণ পদক্ষেপ, যেখানে টাইম সিরিজ ডেটা (যেমন স্টক মার্কেট ডেটা, আবহাওয়ার তথ্য, ইত্যাদি) বিভিন্ন ধাপের মাধ্যমে প্রস্তুত করা হয় যাতে এটি মডেল ট্রেনিংয়ের জন্য উপযুক্ত হয়। টাইম সিরিজ ডেটার সাথে কাজ করার সময় বিশেষ কিছু চ্যালেঞ্জ থাকে, যেমন ট্রেন্ড, মৌসুমিতা, এবং সিজনালিটি। সঠিক প্রিপ্রসেসিং মডেলকে আরও কার্যকর এবং নির্ভুল করে তোলে।

এখানে টাইম সিরিজ ডেটার জন্য কিছু সাধারণ প্রিপ্রসেসিং টেকনিক্স আলোচনা করা হলো:

1. ডেটা লোডিং এবং ফরম্যাটিং

টাইম সিরিজ ডেটা প্রিপ্রসেসিংয়ের প্রথম ধাপ হল সঠিকভাবে ডেটা লোড করা এবং টাইমস্ট্যাম্প সহ ডেটাটিকে সঠিক ফরম্যাটে রূপান্তরিত করা।

import pandas as pd

# ডেটা লোড করা
data = pd.read_csv('time_series_data.csv', parse_dates=['date'], index_col='date')

# টাইমস্ট্যাম্প ফরম্যাট যাচাই করা
print(data.head())

এখানে parse_dates কলাম টাইমস্ট্যাম্প হিসাবে পার্স করা হচ্ছে এবং index_col টাইমস্ট্যাম্প কলামকে ইনডেক্স হিসাবে সেট করা হচ্ছে।

2. মিসিং ভ্যালু (Missing Values)

টাইম সিরিজ ডেটাতে মিসিং ভ্যালু সাধারণত ঘটে থাকে। মিসিং ভ্যালু পূর্ণ করার বিভিন্ন পদ্ধতি রয়েছে, যেমন ফিল ফরওয়ার্ড (forward fill), ফিল ব্যাকওয়ার্ড (backward fill), বা ইন্টারপোলেশন।

# ফিল ফরওয়ার্ড মেথডে মিসিং ভ্যালু পূর্ণ করা
data.fillna(method='ffill', inplace=True)

# ইন্টারপোলেশন মেথড ব্যবহার
data.interpolate(method='linear', inplace=True)

3. ডেটা রিসাম্পলিং (Data Resampling)

টাইম সিরিজ ডেটাকে নিয়মিত সময়ে রিসাম্পল করা প্রয়োজন হতে পারে (যেমন, দৈনিক ডেটাকে সাপ্তাহিক বা মাসিক ডেটাতে রূপান্তরিত করা)। রিসাম্পলিংয়ের মাধ্যমে আপনি ডেটাকে উপযুক্ত সময় ফ্রেমে রূপান্তরিত করতে পারবেন।

# মাসিক গড় বের করা
monthly_data = data.resample('M').mean()

# সাপ্তাহিক গড় বের করা
weekly_data = data.resample('W').mean()

এখানে resample('M') মাসিক রিসাম্পলিং এবং mean() গড় বের করার জন্য ব্যবহৃত হচ্ছে।

4. ট্রেন্ড এবং সিজনালিটি রিমুভাল

টাইম সিরিজ ডেটাতে অনেক সময় একটি স্পষ্ট ট্রেন্ড বা সিজনালিটি দেখা দেয়। ট্রেন্ড এবং সিজনালিটি মডেল ট্রেনিংয়ের জন্য অপ্রয়োজনীয় হতে পারে, তাই এগুলো সরিয়ে ফেলা উচিত।

ডিট্রেন্ডিং (Detrending): এটি ট্রেন্ড সরানোর একটি প্রক্রিয়া।
ডিফারেন্সিং (Differencing): এটি মূল ডেটার পার্থক্য (difference) নিয়ে আসবে, যা ট্রেন্ড সরাতে সাহায্য করে।

# ডিফারেন্সিং ব্যবহার করা
data_diff = data.diff().dropna()

# সিজনালিটি সরানোর জন্য লোগ রিপ্রেজেন্টেশন
data_log = np.log(data)

5. ডেটা স্কেলিং (Data Scaling)

টাইম সিরিজ ডেটা অনেক সময় বড় ভ্যারিয়েশন সহ থাকে। মডেল প্রশিক্ষণের জন্য ডেটাকে স্কেল করা খুবই গুরুত্বপূর্ণ, কারণ ডিপ লার্নিং মডেল সাধারণত স্কেলড ডেটায় ভালো কাজ করে।

from sklearn.preprocessing import MinMaxScaler

# MinMax স্কেলিং
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)

# Standardization (Z-score Normalization)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

6. স্টেশনারিটি চেক (Stationarity Check)

টাইম সিরিজ ডেটা স্টেশনারি হওয়া উচিত, অর্থাৎ, ডেটার গড় এবং ভ্যারিয়েন্স সময়ের সাথে পরিবর্তন করা উচিত নয়। স্টেশনারিটি চেকের জন্য Augmented Dickey-Fuller (ADF) টেস্ট ব্যবহার করা হয়।

from statsmodels.tsa.stattools import adfuller

# ADF টেস্টের মাধ্যমে স্টেশনারিটি চেক করা
result = adfuller(data['column_name'])
print('ADF Statistic:', result[0])
print('p-value:', result[1])

যদি p-value 0.05 এর চেয়ে ছোট হয়, তবে ডেটা স্টেশনারি।

7. ফিচার ইঞ্জিনিয়ারিং (Feature Engineering)

টাইম সিরিজ ডেটার জন্য ফিচার ইঞ্জিনিয়ারিং অপরিহার্য, যেখানে আপনি নতুন ফিচার তৈরি করতে পারেন, যেমন সময়ের সিজনাল উপাদান বা অতীতের মান ব্যবহার করে ভবিষ্যতের পূর্বাভাস।

# সিজনাল ফিচার তৈরি
data['month'] = data.index.month
data['day_of_week'] = data.index.dayofweek
data['quarter'] = data.index.quarter

# পূর্ববর্তী মান থেকে ফিচার তৈরি
data['lag_1'] = data['column_name'].shift(1)
data['lag_2'] = data['column_name'].shift(2)

8. অ্যাডভান্সড মেথড (Advanced Methods)

কিছু পরিস্থিতিতে আরো অ্যাডভান্সড প্রিপ্রসেসিং মেথড ব্যবহৃত হতে পারে, যেমন:

টাইম সিরিজ ডিকমপোজিশন: এতে ডেটাকে ট্রেন্ড, সিজনাল এবং রেসিডুয়াল কম্পোনেন্টে ভাগ করা হয়।
ওয়েভলেট ট্রান্সফর্ম: এটি ডেটার কমপ্লেক্স বৈশিষ্ট্যগুলি আরও ভালোভাবে বিশ্লেষণ করতে সাহায্য করে।

সারাংশ

টাইম সিরিজ ডেটা প্রিপ্রসেসিং গুরুত্বপূর্ণ পদক্ষেপ যা ডেটার গুণগত মান উন্নত করতে সাহায্য করে। ডেটা লোডিং, মিসিং ভ্যালু ফিলিং, রিসাম্পলিং, ট্রেন্ড এবং সিজনালিটি রিমুভাল, স্কেলিং এবং স্টেশনারিটি চেকিং সহ বিভিন্ন প্রিপ্রসেসিং পদ্ধতি মডেলটির পারফরম্যান্স উন্নত করতে সহায়ক। সঠিক প্রিপ্রসেসিং মডেলকে আরও কার্যকরী এবং নির্ভুল করে তোলে।

Content added By

Azizar Rahman Aziz

RNN/LSTM ব্যবহার করে Time Series Forecasting

380

RNN (Recurrent Neural Networks) এবং LSTM (Long Short-Term Memory) হল বিশেষ ধরনের নিউরাল নেটওয়ার্ক যা সিকুয়েনশিয়াল ডেটা যেমন টাইম সিরিজ (Time Series) ডেটা প্রক্রিয়া করতে ব্যবহৃত হয়। টাইম সিরিজ ফোরকাস্টিংয়ে ভবিষ্যতের ডেটা পূর্বাভাস করতে, RNN বা LSTM এর মতো মডেলগুলি অতীত ডেটার নির্ভরশীলতা এবং প্যাটার্ন শিখে ভবিষ্যতের মান অনুমান করতে সাহায্য করে। টাইম সিরিজ ডেটা যেখানে সময়ের সাথে পরিবর্তিত তথ্য থাকে (যেমন স্টক প্রাইস, আবহাওয়া ডেটা, বিক্রয় সংখ্যা ইত্যাদি), RNN এবং LSTM কার্যকর মডেল হতে পারে।

টাইম সিরিজ ফোরকাস্টিংয়ের জন্য RNN/LSTM ব্যবহারের ধাপসমূহ

1. ডেটা প্রস্তুত করা

টাইম সিরিজ ডেটাকে মডেলের জন্য প্রস্তুত করা প্রথম ধাপ। এখানে ডেটাকে সিকুয়েন্স আকারে পরিণত করতে হবে, কারণ RNN এবং LSTM গুলি সিকুয়েনশিয়াল ডেটার উপর কাজ করে।

উদাহরণ:

import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# টাইম সিরিজ ডেটা লোড করা
df = pd.read_csv('time_series_data.csv')

# শুধুমাত্র 'Value' কলাম ব্যবহার করা
data = df['Value'].values.reshape(-1, 1)

# ডেটা স্কেলিং (MinMaxScaler)
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(data)

2. সিকুয়েন্স তৈরি করা

RNN এবং LSTM মডেলগুলি পূর্ববর্তী টাইম স্ট্যাম্পগুলির উপর ভিত্তি করে ভবিষ্যতের মান অনুমান করে। তাই, আপনি সময়ের সাথে সাথে সিকুয়েন্স তৈরি করতে হবে।

# সিকুয়েন্স তৈরি করার ফাংশন
def create_dataset(data, time_step=1):
    X, Y = [], []
    for i in range(len(data) - time_step - 1):
        X.append(data[i:(i + time_step), 0])
        Y.append(data[i + time_step, 0])
    return np.array(X), np.array(Y)

# টাইম স্টেপের জন্য সিকুয়েন্স তৈরি করা
time_step = 100
X, Y = create_dataset(scaled_data, time_step)

# X কে 3D আকারে পুনঃশিক্ষিত করা (num_samples, time_step, features)
X = X.reshape(X.shape[0], X.shape[1], 1)

3. LSTM মডেল তৈরি করা

এখন RNN বা LSTM মডেল তৈরি করতে হবে। এখানে, আমরা Keras ব্যবহার করে একটি LSTM মডেল তৈরি করব।

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

# LSTM মডেল তৈরি করা
model = Sequential()

# LSTM লেয়ার
model.add(LSTM(units=50, return_sequences=True, input_shape=(X.shape[1], 1)))
model.add(Dropout(0.2))

# আরেকটি LSTM লেয়ার
model.add(LSTM(units=50, return_sequences=False))
model.add(Dropout(0.2))

# আউটপুট লেয়ার
model.add(Dense(units=1))

# মডেল কম্পাইল করা
model.compile(optimizer='adam', loss='mean_squared_error')

4. মডেল ট্রেনিং

এখন মডেলটি প্রশিক্ষণ (training) করা হবে। সাধারণত, আমরা ডেটাকে ট্রেনিং এবং টেস্ট সেটে ভাগ করি।

# মডেল প্রশিক্ষণ (Training)
model.fit(X, Y, epochs=50, batch_size=32)

5. ভবিষ্যদ্বাণী করা

মডেল প্রশিক্ষণ শেষে, নতুন ডেটার উপর পূর্বাভাস করা যেতে পারে।

# ভবিষ্যদ্বাণী করা
predictions = model.predict(X)

# পূর্বাভাস স্কেল পরিবর্তন করা
predictions = scaler.inverse_transform(predictions)

# আসল ডেটাও স্কেল পরিবর্তন করা
Y_actual = scaler.inverse_transform(Y.reshape(-1, 1))

6. ফলাফল মূল্যায়ন

মডেলটির পারফরম্যান্স মূল্যায়ন করা প্রয়োজন, এবং আমরা সাধারণত Mean Squared Error (MSE) বা Root Mean Squared Error (RMSE) ব্যবহার করি।

from sklearn.metrics import mean_squared_error
import math

# RMSE হিসাব করা
rmse = math.sqrt(mean_squared_error(Y_actual, predictions))
print(f'Root Mean Squared Error: {rmse}')

7. ভবিষ্যতের পূর্বাভাস

মডেলটি এখন ভবিষ্যতের ডেটার জন্য পূর্বাভাস করতে সক্ষম। আপনি ভবিষ্যতের সময় স্ট্যাম্পগুলির জন্য পূর্বাভাস করার জন্য পূর্ববর্তী ডেটার একটি উইন্ডো ব্যবহার করতে পারেন।

# ভবিষ্যত ডেটার জন্য পূর্বাভাস
new_data = scaled_data[-time_step:].reshape(1, -1)
new_data = new_data.reshape((new_data.shape[0], new_data.shape[1], 1))
future_prediction = model.predict(new_data)
future_prediction = scaler.inverse_transform(future_prediction)
print(f'Future Prediction: {future_prediction}')

সারাংশ

RNN এবং LSTM হল টাইম সিরিজ ডেটা এবং সিকুয়েন্সিয়াল ডেটার জন্য অত্যন্ত কার্যকরী মডেল। RNN সহজ হলেও LSTM মডেল দীর্ঘমেয়াদী ডিপেনডেন্সি শিখতে সক্ষম হওয়ায় টাইম সিরিজ ফোরকাস্টিংয়ের জন্য আরও উপযোগী। LSTM মডেলগুলো বিভিন্ন ধরণের সমস্যার জন্য যেমন স্টক প্রাইস প্রেডিকশন, আবহাওয়া পূর্বাভাস, বিক্রয় পূর্বাভাস ইত্যাদিতে ব্যবহৃত হয়।

Content added By

Azizar Rahman Aziz

Sliding Window এবং Rolling Forecast Techniques

251

Sliding Window এবং Rolling Forecast দুটি জনপ্রিক প্রযুক্তি যা মেশিন লার্নিং এবং টাইম সিরিজ অ্যানালাইসিস (Time Series Analysis) এর ক্ষেত্রে ব্যবহৃত হয়। এই পদ্ধতিগুলি ডেটা প্রক্রিয়াকরণ ও ভবিষ্যদ্বাণী তৈরিতে সাহায্য করে, বিশেষত যখন ডেটার পরিমাণ বড় হয় এবং সিস্টেমকে সাম্প্রতিক ডেটার উপর মনোযোগ দিতে হয়। এগুলি দীর্ঘমেয়াদী পূর্বাভাসের ক্ষেত্রে খুবই কার্যকরী।

১. Sliding Window Technique

Sliding Window পদ্ধতিটি মূলত টাইম সিরিজ ডেটা প্রক্রিয়াকরণে ব্যবহৃত হয়, যেখানে একটি নির্দিষ্ট আকারের উইন্ডো একাধিক সময় পয়েন্টের উপর চলে। এই পদ্ধতিতে, উইন্ডোটি সময়ের সাথে ধীরে ধীরে স্লাইড (হল) হয় এবং প্রতিটি স্লাইডে মডেলটি নতুন ডেটার উপর প্রশিক্ষিত হয়। স্লাইডিং উইন্ডো প্রযুক্তি প্রধানত পূর্ববর্তী কিছু সময়ের ডেটাকে ব্যবহার করে ভবিষ্যদ্বাণী তৈরি করে এবং প্রতিবার নতুন ডেটা অন্তর্ভুক্ত করার জন্য উইন্ডোটি স্লাইড হয়।

উদাহরণ:

ধরা যাক, আমাদের কাছে ১০০ দিনের ডেটা রয়েছে এবং আমরা ৩০ দিনের ডেটা ব্যবহার করে ভবিষ্যদ্বাণী করতে চাই। প্রথমে, উইন্ডোটি ১ থেকে ৩০ দিন পর্যন্ত ডেটা নিয়ে মডেলটি তৈরি হবে, তারপর উইন্ডোটি একদিন এগিয়ে ২-৩১ দিন পর্যন্ত স্লাইড হবে, এবং প্রতিটি স্লাইডে নতুন ভবিষ্যদ্বাণী তৈরি হবে।

মূল বৈশিষ্ট্য:

ফিক্সড উইন্ডো সাইজ: উইন্ডোর আকার স্থির থাকে।
ডায়নামিক প্রক্রিয়া: উইন্ডো চলমান সময়ের উপর ভিত্তি করে পরিবর্তিত হয়।
অভ্যন্তরীণ ডেটার পরিবর্তন: সময়ের সাথে সাথে নতুন তথ্য অন্তর্ভুক্ত হয় এবং পুরনো তথ্য বাদ পড়ে।

২. Rolling Forecast Technique

Rolling Forecast পদ্ধতিটি একটি ভবিষ্যদ্বাণী পদ্ধতি যেখানে পূর্ববর্তী সময়ের ডেটার উপর ভিত্তি করে ভবিষ্যত পূর্বাভাস তৈরি হয়, এবং পূর্ববর্তী ডেটা প্রতি সময়কাল পরবর্তী পূর্বাভাসের জন্য সংশোধন করা হয়। এটি একটি চলমান প্রক্রিয়া যেখানে নতুন ডেটা দিয়ে পূর্বাভাস আপডেট করা হয়, তবে পুরনো পূর্বাভাসগুলো কখনোই হারিয়ে যায় না।

Rolling Forecast সাধারণত একটি নির্দিষ্ট সময়কালের জন্য পূর্বাভাস তৈরি করে, তারপর পরবর্তী সময়কালে পূর্বাভাসটি পুনরায় গণনা করা হয়, প্রতিবারই আগের পূর্বাভাসে নতুন ডেটা যোগ হয় এবং সংশোধিত হয়। এটি সাধারণত স্ট্যাটিস্টিক্যাল বা মেশিন লার্নিং মডেলের দ্বারা পরিচালিত হয়।

উদাহরণ:

ধরা যাক, আমরা ৬ মাস পরবর্তী বিক্রয় পূর্বাভাস করতে চাই, এবং প্রতি মাসে একটি আপডেট চাচ্ছি। প্রথমে, মডেলটি প্রথম মাসের ডেটার ওপর ভিত্তি করে পূর্বাভাস তৈরি করবে। এরপর পরবর্তী মাসে, সেই পূর্বাভাস আপডেট হবে এবং আগের মাসের ডেটা যোগ করা হবে।

মূল বৈশিষ্ট্য:

চলমান পূর্বাভাস: সময়ের সাথে সাথে পূর্বাভাস আপডেট হয়।
স্থির সময়কাল: পূর্বাভাসের জন্য নির্দিষ্ট সময়কাল থাকে, তবে এটি প্রক্রিয়ার মধ্যে চলতে থাকে।
ডেটার রিফ্রেশ: পূর্বাভাসগুলোর জন্য নতুন ডেটা অন্তর্ভুক্ত করা হয় এবং পূর্ববর্তী ফলাফলগুলো সংশোধন করা হয়।

Sliding Window এবং Rolling Forecast এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Sliding Window	Rolling Forecast
উইন্ডো সাইজ	নির্দিষ্ট (ফিক্সড) উইন্ডো সাইজ	সাধারণত চলমান (ডায়নামিক) পূর্বাভাসের জন্য আপডেট করা হয়
ডেটা আপডেট	পূর্ববর্তী উইন্ডো সাইজ অনুযায়ী স্লাইড হয়	প্রতি সময়কালে নতুন ডেটার সাথে পূর্বাভাস আপডেট হয়
পূর্বাভাসের রিফ্রেশ	ডেটা উইন্ডো স্লাইড হওয়ার সাথে সাথে নতুন পূর্বাভাস তৈরি হয়	পূর্বাভাসে নতুন ডেটা অন্তর্ভুক্ত হয়ে আপডেট হয়
পূর্বাভাসের জন্য সময়কাল	স্থির সময়কাল (উইন্ডো সাইজের উপর নির্ভর করে)	চলমান সময়কাল (যতটুকু সময়ের পূর্বাভাস দরকার)

সারাংশ

Sliding Window হল একটি পদ্ধতি যেখানে পূর্ববর্তী কিছু সময়ের ডেটা নিয়ে ভবিষ্যদ্বাণী তৈরি করা হয় এবং প্রতিবার নতুন ডেটা যোগ করা হলে উইন্ডোটি স্লাইড হয়।
Rolling Forecast হল একটি চলমান পূর্বাভাস পদ্ধতি, যেখানে পূর্ববর্তী সময়ের ডেটার ওপর ভিত্তি করে পূর্বাভাস তৈরি হয় এবং পরবর্তী সময়ে সেগুলি আপডেট হয়।

Content added By

Azizar Rahman Aziz

Model Evaluation এবং Forecasting Accuracy

242

মডেল মূল্যায়ন (Model Evaluation)

মডেল মূল্যায়ন হলো একটি গুরুত্বপূর্ণ পদক্ষেপ যেখানে মডেলটি কতটা কার্যকর তা পরিমাপ করা হয়। মডেল ট্রেনিংয়ের পর, এটি বিভিন্ন মেট্রিক্স দ্বারা মূল্যায়িত হয় যাতে আমরা তার পারফরম্যান্স বুঝতে পারি এবং তার পরবর্তী উন্নতির জন্য সিদ্ধান্ত নিতে পারি। মডেল মূল্যায়নের সময় যে প্রধান মেট্রিক্সগুলো ব্যবহার করা হয় তা বিভিন্ন ধরনের সমস্যা, যেমন রিগ্রেশন, ক্লাসিফিকেশন, বা টাইম সিরিজ প্রেডিকশন অনুযায়ী পরিবর্তিত হয়।

ক্লাসিফিকেশন মডেল মূল্যায়ন

ক্লাসিফিকেশন মডেলগুলোর জন্য বিভিন্ন ধরনের মূল্যায়ন মেট্রিক্স রয়েছে, যেগুলি মডেলের পারফরম্যান্স মূল্যায়ন করতে সহায়ক। এই মেট্রিক্সগুলির মধ্যে অন্যতম হল:

অ্যাকিউরেসি (Accuracy):
এটি মডেলের সঠিকতা পরিমাপ করে, বা সঠিকভাবে পূর্বাভাস করা ক্লাসের শতাংশ।
$\text{Accuracy} = \frac{\text{সঠিক পূর্বাভাসের সংখ্যা}}{\text{মোট ডেটা পয়েন্টের সংখ্যা}}$
প্রিসিশন (Precision):
এটি পরিমাপ করে কত শতাংশ পূর্বাভাস সঠিকভাবে পজিটিভ ছিল।
$\text{Precision} = \frac{\text{True Positives}}{\text{True Positives + False Positives}}$
রিকল (Recall):
এটি পরিমাপ করে কত শতাংশ বাস্তব পজিটিভ ক্লাস সঠিকভাবে পূর্বাভাস করা হয়েছে।
$\text{Recall} = \frac{\text{True Positives}}{\text{True Positives + False Negatives}}$
ফ-স্কোর (F1 Score):
এটি প্রিসিশন এবং রিকলের হার্মনিক গড়।
$F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision + Recall}}$
কনফিউশন ম্যাট্রিক্স (Confusion Matrix):
এটি একটি টেবিল যা ক্লাসিফিকেশন মডেলের পূর্বাভাস এবং প্রকৃত আউটপুটের মধ্যে সম্পর্ক প্রদর্শন করে।

উদাহরণ: কনফিউশন ম্যাট্রিক্স এবং মেট্রিক্স পরিমাপ

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# প্রকৃত আউটপুট এবং পূর্বাভাসের তুলনা
y_true = [0, 1, 0, 1, 1, 0, 1, 0]
y_pred = [0, 1, 0, 0, 1, 0, 1, 1]

# কনফিউশন ম্যাট্রিক্স
conf_matrix = confusion_matrix(y_true, y_pred)
print("Confusion Matrix:\n", conf_matrix)

# মেট্রিক্স পরিমাপ
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

রিগ্রেশন মডেল মূল্যায়ন

রিগ্রেশন মডেলগুলোতে আউটপুট ধারাবাহিক বা কন্টিনিউয়াস থাকে, সুতরাং তাদের মূল্যায়ন করার জন্য বেশ কিছু বিশেষ মেট্রিক্স ব্যবহার করা হয়:

মিন স্কোয়ারড এরর (Mean Squared Error - MSE):
এটি একটি সাধারণ মেট্রিক যা পূর্বাভাস এবং প্রকৃত মানের মধ্যে ত্রুটির বর্গের গড়।
$MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y_i})^2$
যেখানে $y_i$ হলো প্রকৃত মান এবং $\hat{y_i}$ হলো পূর্বাভাস করা মান।
রুট মিন স্কোয়ারড এরর (Root Mean Squared Error - RMSE):
এটি MSE এর স্কোয়ার রুট, যা সাধারণত আরও ব্যাখ্যাযোগ্য কারণ এটি একই এককগুলিতে ফলাফল দেয়।
$RMSE = \sqrt{MSE}$
মিন অ্যাবসলিউট এরর (Mean Absolute Error - MAE):
এটি পূর্বাভাস এবং প্রকৃত মানের মধ্যে গড় অ্যাবসলিউট ত্রুটি পরিমাপ করে।
$MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y_i}|$
R² স্কোর (R-squared):
এটি একটি পরিমাপ যা মডেলের সঠিকতা বোঝায়, এবং এটি ১-এর কাছাকাছি থাকলে মডেলটি খুব ভালো।
$R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y_i})^2}{\sum_{i=1}^n (y_i - \bar{y})^2}$
যেখানে $\bar{y}$ হলো প্রকৃত মানের গড়।

উদাহরণ: রিগ্রেশন মেট্রিক্স পরিমাপ

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# প্রকৃত আউটপুট এবং পূর্বাভাস
y_true = [3.5, 2.1, 4.2, 5.5, 6.3]
y_pred = [3.4, 2.0, 4.1, 5.6, 6.2]

# MSE, MAE, RMSE এবং R2 Score
mse = mean_squared_error(y_true, y_pred)
mae = mean_absolute_error(y_true, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_true, y_pred)

print(f"MSE: {mse}")
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"R² Score: {r2}")

ফোরকাস্টিং একিউরেসি (Forecasting Accuracy)

ফোরকাস্টিং বা টাইম সিরিজ প্রেডিকশনে, মডেলের সঠিকতা পরিমাপ করা একটি বিশেষ চ্যালেঞ্জ হতে পারে। এখানে আমরা কিছু সাধারণ মেট্রিক্স ব্যবহার করি, যা ভবিষ্যতের মূল্য পূর্বাভাস করার জন্য কার্যকরী।

মিন অ্যাবসলিউট পারসেন্টেজ এরর (MAPE): এটি একটি জনপ্রিয় মেট্রিক যা পূর্বাভাস এবং প্রকৃত মানের মধ্যে গড় পারসেন্টেজ ত্রুটি পরিমাপ করে।
$MAPE = \frac{1}{n} \sum_{i=1}^n \left|\frac{y_i - \hat{y_i}}{y_i}\right| \times 100$
Symmetric MAPE (sMAPE):
এটি MAPE এর আরও উন্নত সংস্করণ যেখানে উভয় প্রকৃত এবং পূর্বাভাস মানের গড়ের সাথে ভাগ করা হয়।
$sMAPE = \frac{1}{n} \sum_{i=1}^n \frac{|y_i - \hat{y_i}|}{\frac{|y_i| + |\hat{y_i}|}{2}} \times 100$

উদাহরণ: ফোরকাস্টিং একিউরেসি

def mape(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

# প্রকৃত এবং পূর্বাভাস
y_true = [200, 220, 250, 270, 300]
y_pred = [210, 215, 240, 265, 295]

# MAPE
forecast_accuracy = mape(y_true, y_pred)
print(f"MAPE: {forecast_accuracy}%")

সারাংশ

মডেল মূল্যায়ন: মডেল মূল্যায়নের জন্য বিভিন্ন মেট্রিক্স ব্যবহার করা হয়, যেমন Accuracy, Precision, Recall, F1 Score, MSE, RMSE, R² Score এবং আরও অনেক।
ফোরকাস্টিং একিউরেসি: টাইম সিরিজ বা ফোরকাস্টিং প্রেডিকশনের জন্য MAPE এবং sMAPE মেট্রিক্স ব্যবহৃত হয়।
মডেল পারফরম্যান্স উন্নত করা: এই মেট্রিক্সগুলির মাধ্যমে আমরা মডেলের পারফরম্যান্স মূল্যায়ন করতে পারি এবং মডেলটিকে আরও কার্যকরী করার জন্য পদক্ষেপ নিতে পারি।

Content added By

Azizar Rahman Aziz

TensorFlow পরিচিতি TensorFlow ইনস্টলেশন এবং সেটআপ TensorFlow এর মৌলিক ধারণা TensorFlow তে Data Preprocessing TensorFlow তে বেসিক মডেল তৈরি

Time Series Analysis এবং Forecasting

টাইম সিরিজ বিশ্লেষণ (Time Series Analysis)

টাইম সিরিজ উপাদানসমূহ:

টাইম সিরিজ বিশ্লেষণের পদ্ধতিগত প্রক্রিয়া:

টাইম সিরিজ ফোরকাস্টিং (Forecasting)

টাইম সিরিজ ফোরকাস্টিং মডেল:

টাইম সিরিজ ফোরকাস্টিং প্রক্রিয়া:

সারাংশ

Time Series Data Preprocessing Techniques

1. ডেটা লোডিং এবং ফরম্যাটিং

2. মিসিং ভ্যালু (Missing Values)

3. ডেটা রিসাম্পলিং (Data Resampling)

4. ট্রেন্ড এবং সিজনালিটি রিমুভাল

5. ডেটা স্কেলিং (Data Scaling)

6. স্টেশনারিটি চেক (Stationarity Check)

7. ফিচার ইঞ্জিনিয়ারিং (Feature Engineering)

8. অ্যাডভান্সড মেথড (Advanced Methods)

সারাংশ

RNN/LSTM ব্যবহার করে Time Series Forecasting

টাইম সিরিজ ফোরকাস্টিংয়ের জন্য RNN/LSTM ব্যবহারের ধাপসমূহ

1. ডেটা প্রস্তুত করা

2. সিকুয়েন্স তৈরি করা

3. LSTM মডেল তৈরি করা

4. মডেল ট্রেনিং

5. ভবিষ্যদ্বাণী করা

6. ফলাফল মূল্যায়ন

7. ভবিষ্যতের পূর্বাভাস

সারাংশ

Sliding Window এবং Rolling Forecast Techniques

১. Sliding Window Technique

উদাহরণ:

মূল বৈশিষ্ট্য:

২. Rolling Forecast Technique

উদাহরণ:

মূল বৈশিষ্ট্য:

Sliding Window এবং Rolling Forecast এর মধ্যে পার্থক্য

সারাংশ

Model Evaluation এবং Forecasting Accuracy

মডেল মূল্যায়ন (Model Evaluation)

ক্লাসিফিকেশন মডেল মূল্যায়ন

উদাহরণ: কনফিউশন ম্যাট্রিক্স এবং মেট্রিক্স পরিমাপ

রিগ্রেশন মডেল মূল্যায়ন

উদাহরণ: রিগ্রেশন মেট্রিক্স পরিমাপ

ফোরকাস্টিং একিউরেসি (Forecasting Accuracy)

উদাহরণ: ফোরকাস্টিং একিউরেসি

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!