Time Series Analysis এবং Forecasting

Machine Learning - সাইকিট-লার্ন (Scikit-Learn)

269

Time Series Analysis (টাইম সিরিজ বিশ্লেষণ) এবং Forecasting (পূর্বাভাস) হলো দুটি গুরুত্বপূর্ণ ধারণা যা সময়ের সাথে পরিবর্তনশীল ডেটা বিশ্লেষণ করতে ব্যবহৃত হয়। এটি পরবর্তী সময়ে কিভাবে ডেটা পরিবর্তিত হতে পারে তা পূর্বানুমান করতে সাহায্য করে এবং বিভিন্ন ক্ষেত্র যেমন অর্থনীতি, ব্যবসা, আবহাওয়া এবং বিজ্ঞান ইত্যাদিতে প্রয়োগ করা হয়।

Time Series Analysis (টাইম সিরিজ বিশ্লেষণ)

Time Series Analysis হলো একটি ডেটাসেটের বিশ্লেষণ প্রক্রিয়া যা সময়ের সাথে পরিবর্তিত হয়। টাইম সিরিজ ডেটা সাধারণত একটি নির্দিষ্ট সময়ের মধ্যে নির্দিষ্ট সময়ান্তরে (যেমন, মিনিট, ঘণ্টা, দিন, মাস, বছর) সংগৃহীত হয়।

Time Series Data এর বৈশিষ্ট্য:

Trend (প্রবণতা):
- Trend হলো টাইম সিরিজের দীর্ঘমেয়াদী ওঠানামা বা পরিবর্তন। এটি ডেটার সাধারণ গতিবিধি, যেমন সময়ের সাথে সঙ্গে দাম বৃদ্ধি বা হ্রাস।
Seasonality (মৌসুমীতা):
- Seasonality হলো টাইম সিরিজের মধ্যে নির্দিষ্ট সময়ে পুনরাবৃত্তি ঘটে এমন ওঠানামা। উদাহরণস্বরূপ, গ্রীষ্মকালে পর্যটন খাতের বৃদ্ধি, বা শীতকালে গরম কাপড়ের চাহিদা।
Cyclic Patterns (চক্রবৃত্তি):
- Cyclic Patterns হলো টাইম সিরিজের মধ্যে যেসব ওঠানামা ঘটে যা মৌসুমী নয়, কিন্তু দীর্ঘমেয়াদী অর্থনৈতিক পরিবর্তন বা অন্যান্য কারণে সময়ের সাথে পরিবর্তিত হয়।
Noise (শব্দ):
- Noise হলো অপ্রত্যাশিত এবং এলোমেলো ফ্লাকচুয়েশন বা অস্থিরতা, যা ডেটাতে কোনো স্পষ্ট প্যাটার্ন সৃষ্টি করে না।

Time Series Analysis এর উদ্দেশ্য:

Pattern Identification: টাইম সিরিজে প্রবণতা, মৌসুমীতা বা চক্রবৃত্তি চিহ্নিত করা।
Decomposition: টাইম সিরিজের উপাদানগুলো আলাদা করা (প্রবণতা, মৌসুমীতা, এবং শব্দ)।
Modeling: ভবিষ্যতের জন্য সঠিক মডেল তৈরি করা।

Time Series Forecasting (টাইম সিরিজ পূর্বাভাস)

Time Series Forecasting হলো ভবিষ্যতের মান বা ডেটা পয়েন্ট পূর্বানুমান করার প্রক্রিয়া, যেটি সময়ের সাথে চলতে থাকে। এর মাধ্যমে আমরা ভবিষ্যতের প্রবণতা বা আচরণ সম্পর্কিত পূর্বাভাস তৈরি করতে পারি।

Time Series Forecasting এর উদ্দেশ্য:

Future Prediction: সময়ের সাথে সম্পর্কিত ডেটা ব্যবহার করে ভবিষ্যতের পরিবর্তন বা চাহিদা পূর্বানুমান করা।
Business Planning: উৎপাদন, বিক্রয়, স্টক মার্কেট, প্রাকৃতিক সম্পদ ব্যবস্থাপনা ইত্যাদির জন্য সঠিক পরিকল্পনা তৈরি করা।
Policy Making: সরকারী নীতিমালা বা গবেষণা প্রতিষ্ঠানগুলোর জন্য কার্যকরী সিদ্ধান্ত গ্রহণ করা।

Forecasting Techniques (পূর্বাভাস কৌশল):

Naive Method:
- সোজা এবং সহজ কৌশল যেখানে পূর্ববর্তী সময়ের মানকে ভবিষ্যতের জন্য পূর্বাভাস হিসেবে নেওয়া হয়।
Moving Average (গড় চলমান):
- পূর্ববর্তী কিছু পিরিয়ডের গড় নিয়ে ভবিষ্যতের মান পূর্বাভাস করা হয়। এটি ট্রেন্ড বা মৌসুমীতা কমানোর জন্য ব্যবহৃত হয়।
Exponential Smoothing (এক্সপোনেনশিয়াল স্মুথিং):
- পূর্বের সময়ের মানের উপর কিছুটা বেশি গুরুত্ব দেয়া হয়। এতে ট্রেন্ড এবং মৌসুমীতা ধরা হয়, তবে এটি আরও সোজা এবং দ্রুত কাজ করতে সক্ষম।
Autoregressive Integrated Moving Average (ARIMA):
- ARIMA মডেলটি টাইম সিরিজ পূর্বাভাসের জন্য সবচেয়ে জনপ্রিয় এবং শক্তিশালী মডেল। এটি তিনটি উপাদান থেকে তৈরি:
  - AR (AutoRegressive): পূর্ববর্তী সময়ের মান ব্যবহার করে ভবিষ্যৎ পূর্বাভাস।
  - I (Integrated): ডেটার ট্রেন্ড হালকা করার জন্য ব্যবহৃত।
  - MA (Moving Average): চলমান গড় ব্যবহার করে পূর্বাভাস।
Seasonal ARIMA (SARIMA):
- এটি ARIMA মডেলের উন্নত সংস্করণ, যেখানে মৌসুমীতা (seasonality) এবং চক্রবৃত্তি (cyclic patterns) অন্তর্ভুক্ত থাকে।
Exponential Smoothing State Space Model (ETS):
- এটি Exponential Smoothing এর একটি উন্নত সংস্করণ, যা অস্থিরতা বা noise কমাতে সহায়ক।
Prophet:
- Prophet হল ফেসবুক কর্তৃক তৈরি একটি শক্তিশালী পূর্বাভাস টুল, যা সিজনালিটি, ট্রেন্ড এবং ছুটির দিনগুলোর প্রভাবের ভিত্তিতে টাইম সিরিজ ডেটার উপর ভিত্তি করে পূর্বাভাস তৈরি করে।

PCA এবং Time Series Analysis

Principal Component Analysis (PCA) টাইম সিরিজ বিশ্লেষণে ডাইমেনশনালিটি রিডাকশন করতে সহায়ক। যখন টাইম সিরিজে অনেক বৈশিষ্ট্য থাকে, তখন PCA ব্যবহার করে ডেটার মাত্রা কমিয়ে ডেটার সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলো চিহ্নিত করা যেতে পারে। এটি ডেটাকে ছোট আকারে বিশ্লেষণ করা এবং মডেল ট্রেনিংয়ের জন্য সহজ করতে সহায়ক।

Time Series Analysis এবং Forecasting Tools

Python Libraries:

pandas: টাইম সিরিজ ডেটা ম্যানিপুলেশন ও বিশ্লেষণ।
statsmodels: ARIMA, SARIMA, এবং অন্যান্য মডেল তৈরির জন্য ব্যবহৃত।
scikit-learn: টাইম সিরিজ পূর্বাভাসের জন্য বিভিন্ন কৌশল।
Prophet: ফেসবুকের তৈরি একটি শক্তিশালী টাইম সিরিজ পূর্বাভাস টুল।

সারাংশ

Time Series Analysis হলো একটি প্রক্রিয়া যার মাধ্যমে সময়ের সাথে পরিবর্তনশীল ডেটা বিশ্লেষণ করা হয়, যেমন প্রবণতা, মৌসুমীতা, এবং চক্রবৃত্তি চিহ্নিত করা।
Time Series Forecasting ভবিষ্যতের পরিবর্তন বা মান পূর্বানুমান করার জন্য ব্যবহৃত হয়, যেমন ব্যবসায়িক চাহিদা, স্টক মার্কেটের পূর্বাভাস বা আবহাওয়া পূর্বাভাস।
PCA টাইম সিরিজ ডেটার ডাইমেনশনালিটি রিডাকশন করতে সহায়ক, যা বিশ্লেষণ সহজ করে এবং মডেলকে আরও কার্যকরী করে তোলে।

Content added By

SATT Academy

Time Series Data এর ধারণা এবং ব্যবহার

181

Time Series Data হলো এমন ধরনের ডেটা যা সময়ের সাথে পরিবর্তিত হয় এবং প্রতিটি ডেটা পয়েন্ট একটি নির্দিষ্ট সময়ে সংগৃহীত হয়। Time Series Data সাধারণত ধারাবাহিক এবং পর্যায়ক্রমে সংগৃহীত তথ্যের সমষ্টি। উদাহরণস্বরূপ, স্টক মার্কেটের দামের পরিবর্তন, তাপমাত্রার পরিবর্তন, সেলস বা উৎপাদন পরিসংখ্যান, এই ধরনের ডেটা time series ডেটা হিসেবে গণ্য হয়।

Time Series ডেটার বৈশিষ্ট্য হলো, এটি একটি নির্দিষ্ট সময়ের মধ্যে বিভিন্ন ঘটনা বা পরিমাপের পরিবর্তন শো করে। এটি পূর্ববর্তী সময়ের তথ্যের ভিত্তিতে ভবিষ্যৎ পরিবর্তন পূর্বাভাস করতে ব্যবহৃত হয়।

Time Series Data এর বৈশিষ্ট্য

ধারাবাহিকতা (Continuity):
Time series ডেটা ধারাবাহিকভাবে সময়ের সাথে সংগৃহীত হয়। সাধারণত এটি একটি নির্দিষ্ট সময়ের মধ্যে (যেমন: ঘণ্টা, দিন, মাস, বছর) থাকে।
সিজনালিটি (Seasonality):
Time series ডেটাতে মৌসুমি বা ঋতুভিত্তিক পরিবর্তন থাকতে পারে। উদাহরণস্বরূপ, গ্রীষ্মকালে এয়ারকন্ডিশনারের বিক্রি বাড়ে, যা সিজনালিটি নির্দেশ করে।
ট্রেন্ড (Trend):
এটি একটি দীর্ঘমেয়াদী পরিবর্তন বা দিক নির্দেশনা দেখায়, যেমন একটি কোম্পানির মোট বিক্রির পরিমাণ সময়ের সাথে বৃদ্ধি বা হ্রাস পেতে পারে।
চক্কর (Cyclic):
Time series ডেটা চক্রের ভিত্তিতে পরিবর্তিত হতে পারে, যেমন অর্থনৈতিক সঙ্কট বা ব্যবসায়িক চক্র।
অস্থিরতা (Volatility):
সময়ের মধ্যে অস্থিরতা বা পরিবর্তনশীলতা থাকতে পারে, যা ডেটার বড় পরিবর্তন বা ঝুঁকি দেখায়।

Time Series Data এর ব্যবহার

Time Series Data বিভিন্ন ক্ষেত্রেই ব্যাপকভাবে ব্যবহৃত হয়। কিছু গুরুত্বপূর্ণ ব্যবহার ক্ষেত্র হলো:

1. অর্থনৈতিক এবং স্টক মার্কেট বিশ্লেষণ

Time series ডেটা স্টক মার্কেট, মুদ্রার মূল্য, বা আর্থিক সূচক যেমন ডিএজিএক্স, S&P 500 ইত্যাদির পর্যবেক্ষণের জন্য ব্যবহৃত হয়। এ ধরনের ডেটার সাহায্যে বাজারের প্রবণতা (trend) এবং ভবিষ্যৎ পূর্বাভাস (forecasting) করা হয়।

উদাহরণ: স্টক প্রাইস বা শেয়ারের মূল্য সময়ের সাথে পরিবর্তিত হতে থাকে এবং তার পূর্বের পারফরম্যান্স দেখে ভবিষ্যতের মূল্য অনুমান করা যেতে পারে।

2. বাজার বিশ্লেষণ এবং চাহিদা পূর্বাভাস

ব্যবসায়িক ক্ষেত্রে, বিভিন্ন পণ্যের চাহিদা এবং বিক্রির ডেটা বিশ্লেষণ করে ভবিষ্যৎ চাহিদা বা বিক্রির পূর্বাভাস তৈরি করা হয়। এই ধরনের বিশ্লেষণটি বিশেষভাবে গুরুত্বপূর্ণ মৌসুমী পণ্য বা সিজনাল পণ্য বিক্রির ক্ষেত্রে।

উদাহরণ: গ্রীষ্মকালে আইসক্রিম বিক্রি বৃদ্ধি পায়, এবং শীতকালে হিটার বিক্রি বাড়ে, এই ধরনের সিজনাল পরিবর্তন ভবিষ্যদ্বাণী করতে Time Series Data ব্যবহৃত হয়।

3. জলবায়ু এবং আবহাওয়া পূর্বাভাস

Time Series Data আবহাওয়ার পূর্বাভাসে ব্যবহৃত হয়, যেমন তাপমাত্রা, আর্দ্রতা, বৃষ্টিপাত, এবং বাতাসের গতি। এর মাধ্যমে পূর্ববর্তী ঋতুর তাপমাত্রা বা বৃষ্টিপাতের ভিত্তিতে ভবিষ্যৎ আবহাওয়া পূর্বাভাস করা সম্ভব।

উদাহরণ: তাপমাত্রার পরিবর্তন অনুসরণ করে ভবিষ্যতের আবহাওয়া পূর্বাভাস তৈরি করা হয়।

4. স্বাস্থ্যসেবা এবং রোগ প্রতিরোধ

Time series ডেটা স্বাস্থ্যসেবা সংক্রান্ত পূর্বাভাস যেমন রোগের বিস্তার, হাসপাতালে ভর্তি হওয়া রোগীর সংখ্যা, বা ভ্যাক্সিনেশন রেট নির্ধারণ করতে ব্যবহৃত হয়।

উদাহরণ: মহামারী বা রোগের প্রাদুর্ভাবের সময় এটি ভবিষ্যতের ঝুঁকি বা রোগের বিস্তার কেমন হবে তা পূর্বাভাস করতে সহায়ক।

5. ব্যবসায়িক পারফরম্যান্স মনিটরিং

Time Series Data ব্যবসায়িক পারফরম্যান্স পর্যবেক্ষণ করতে ব্যবহৃত হয়, যেমন বিক্রয়, লাভ, বা উৎপাদন পরিসংখ্যানের সময়কাল ভিত্তিক পর্যবেক্ষণ।

উদাহরণ: একটি কোম্পানি সময়ের সাথে তাদের বিক্রয় বৃদ্ধির ডেটা বিশ্লেষণ করে ভবিষ্যতে বিক্রয় পরিকল্পনা তৈরি করতে পারে।

6. এনার্জি এবং শক্তির চাহিদা পূর্বাভাস

শক্তির চাহিদার পূর্বাভাসও time series ডেটা ব্যবহার করে করা হয়, যেমন বিদ্যুৎ বা গ্যাসের চাহিদা পূর্বাভাস।

উদাহরণ: বিদ্যুৎ চাহিদার পূর্বাভাস সময়ের সাথে ডেটা বিশ্লেষণ করে প্রদান করা হয়।

Time Series Analysis এর পদ্ধতি

ট্রেন্ড অ্যানালাইসিস:
Time series ডেটাতে দীর্ঘমেয়াদী পরিবর্তন বা ট্রেন্ড শনাক্ত করার প্রক্রিয়া।
সিজনালিটি অ্যানালাইসিস:
সময়ের মধ্যে মৌসুমি বা ঋতুভিত্তিক পরিবর্তন শনাক্ত করা।
ফোরকাস্টিং (Forecasting):
ভবিষ্যতের মান বা ফলাফল পূর্বাভাস করতে Time Series মডেল ব্যবহার করা।
- উদাহরণ: ARIMA (AutoRegressive Integrated Moving Average) মডেলটি ভবিষ্যতের পূর্বাভাসের জন্য জনপ্রিয়।
ডেকম্পোজিশন:
Time series ডেটাকে বিভিন্ন উপাদানে ভাগ করা: ট্রেন্ড, সিজনালিটি, র্যান্ডম ফ্লাকচুয়েশন (Noise) ইত্যাদি।

Time Series Data এর উদাহরণ

স্টক মার্কেটের মূল্য: একটি নির্দিষ্ট কোম্পানির শেয়ারের মূল্য দিনের পর দিন বা মাসের পর মাস পরিবর্তিত হয়।
তাপমাত্রার পরিবর্তন: একটি নির্দিষ্ট শহরের দৈনিক তাপমাত্রার পরিবর্তন।
বিক্রয় ডেটা: দোকানের দৈনিক বা মাসিক বিক্রয় পরিসংখ্যান।
আবহাওয়া: শহরের মাসিক বৃষ্টিপাত, তাপমাত্রা বা আর্দ্রতার পরিসংখ্যান।

সারাংশ

Time Series Data এমন ডেটা যা সময়ের সাথে পরিবর্তিত হয় এবং পূর্ববর্তী সময়ের তথ্য ব্যবহার করে ভবিষ্যত পরিস্থিতি পূর্বাভাস করা হয়। এটি অনেক ক্ষেত্রেই গুরুত্বপূর্ণ, যেমন অর্থনীতি, স্বাস্থ্যসেবা, আবহাওয়া, ব্যবসা, এবং শক্তি চাহিদা পূর্বাভাসে ব্যবহৃত হয়। Time Series Analysis এর মাধ্যমে ডেটাতে থাকা ট্রেন্ড, সিজনালিটি এবং অন্যান্য প্যাটার্ন চিহ্নিত করে ভবিষ্যত সম্পর্কে নির্ভুল পূর্বাভাস তৈরি করা সম্ভব হয়।

Content added By

SATT Academy

ARIMA এবং SARIMA মডেল

233

ARIMA (AutoRegressive Integrated Moving Average) এবং SARIMA (Seasonal ARIMA) মডেলগুলি টাইম সিরিজ ডেটা বিশ্লেষণ এবং পূর্বাভাসের জন্য ব্যবহৃত জনপ্রিয় মডেল। টাইম সিরিজ ডেটা হলো এমন ডেটা যা নির্দিষ্ট সময়ের মধ্যে একটি সিকোয়েন্সে সংগৃহীত হয়, যেমন দৈনিক, মাসিক, বা বার্ষিক ডেটা। ARIMA এবং SARIMA মডেলগুলি টাইম সিরিজ ডেটাতে লুকানো প্যাটার্ন বা সম্পর্ক শিখে ভবিষ্যতের মান পূর্বাভাস দিতে সহায়ক।

ARIMA মডেল (AutoRegressive Integrated Moving Average)

ARIMA মডেল হলো একটি টাইম সিরিজ পূর্বাভাস মডেল যা তিনটি মূল উপাদান নিয়ে গঠিত:

AutoRegressive (AR) অংশ:
AR অংশটি পূর্ববর্তী মানের উপর ভিত্তি করে বর্তমান মান পূর্বাভাস করে। এটি একটি লিনিয়ার সম্পর্ক তৈরি করে, যেখানে পূর্ববর্তী মান (lagged values) বর্তমান মানকে প্রভাবিত করে।
ফর্মুলা:
$Y_t = \alpha + \sum_{i=1}^{p} \phi_i Y_{t-i} + \epsilon_t$
যেখানে $p$ হলো অর্ডার, এবং $\phi_i$ হলো AR কোঅফিশিয়েন্ট।
Integrated (I) অংশ:
এটি টাইম সিরিজ ডেটার স্টেশনারিটি অর্জন করতে ব্যবহৃত হয়। স্টেশনারিটি মানে হচ্ছে, ডেটার পরিসংখ্যান বৈশিষ্ট্য (যেমন গড়, ভ্যারিয়েন্স) সময়ের সাথে পরিবর্তিত হয় না। এই অংশটি ডেটাকে "ডিফারেন্স" (difference) করে স্টেশনারি করার জন্য ব্যবহৃত হয়।
ফর্মুলা:
$Y_t^{'} = Y_t - Y_{t-1}$
যদি ডেটা প্রথমে স্টেশনারি না হয়, তবে এই ধাপটি পুনরাবৃত্তি করা হতে পারে।
Moving Average (MA) অংশ:
MA অংশটি পূর্ববর্তী ত্রুটি (error) এর উপর ভিত্তি করে বর্তমান মান পূর্বাভাস করে। এটি পূর্ববর্তী সময়ে ত্রুটির উপর ভিত্তি করে একটি লিনিয়ার রিলেশন তৈরি করে।
ফর্মুলা:
$Y_t = \alpha + \sum_{i=1}^{q} \theta_i \epsilon_{t-i} + \epsilon_t$
যেখানে $q$ হলো MA অর্ডার এবং $\theta_i$ হলো MA কোঅফিশিয়েন্ট।

ARIMA মডেল ফর্মুলা:

$ARIMA(p, d, q)$

এখানে:

p হলো AR অংশের অর্ডার (পূর্ববর্তী সময়ের মানের সংখ্যা),
d হলো ডিফারেন্সের সংখ্যা (স্টেশনারি ডেটা তৈরি করতে),
q হলো MA অংশের অর্ডার (ত্রুটির পূর্বাভাসের সংখ্যা)।

SARIMA মডেল (Seasonal ARIMA)

SARIMA হলো ARIMA মডেলের একটি সম্প্রসারিত সংস্করণ যা মৌসুমি (seasonal) উপাদানগুলো অন্তর্ভুক্ত করে। যখন টাইম সিরিজ ডেটাতে মৌসুমি প্রভাব থাকে (যেমন, মাসিক বা ত্রৈমাসিক পরিবর্তন), তখন SARIMA মডেল ব্যবহার করা হয়। এটি মৌসুমি উপাদানগুলিকে যথাযথভাবে মডেলিং করতে সাহায্য করে।

SARIMA মডেলটি ARIMA মডেলের মৌসুমি উপাদান যুক্ত করে। এর মধ্যে অতিরিক্ত মৌসুমি অংশের জন্য ৩টি প্যারামিটার থাকে: $P, D, Q$ , এবং $m$ (মৌসুমি ধাপের সংখ্যা)।

SARIMA মডেল ফর্মুলা:

$SARIMA(p, d, q)(P, D, Q)_m$

এখানে:

p, d, q হলো ARIMA মডেলের অর্ডার,
P, D, Q হলো মৌসুমি AR, I, MA অংশের অর্ডার,
m হলো মৌসুমি সাইকেলের দৈর্ঘ্য (যেমন 12 মাস, 4 ট্রাইমেস্টার ইত্যাদি)।

SARIMA মডেলের উপাদান:

Seasonal AR (P): মৌসুমি ডেটার পূর্ববর্তী মান।
Seasonal I (D): মৌসুমি ডেটার ডিফারেন্স।
Seasonal MA (Q): মৌসুমি ত্রুটির গড়।

ARIMA এবং SARIMA এর মধ্যে পার্থক্য

বৈশিষ্ট্য	ARIMA	SARIMA
মৌসুমি উপাদান	নেই (non-seasonal data)	মৌসুমি উপাদান অন্তর্ভুক্ত (seasonal data)
প্যারামিটার	ARIMA(p, d, q)	SARIMA(p, d, q)(P, D, Q)_m
ব্যবহার	স্টেশনারি ডেটা, মৌসুমি প্রভাব ছাড়া	মৌসুমি প্রভাব এবং সিজনাল প্যাটার্ন বিশ্লেষণ

ARIMA এবং SARIMA এর ব্যবহার ক্ষেত্র

ARIMA মডেল ব্যবহার করা হয় যখন ডেটা স্টেশনারি থাকে এবং মৌসুমি বা নির্দিষ্ট সিজনাল প্রভাবের প্রয়োজন হয় না। এটি ব্যবসায়, অর্থনীতি, এবং বিজ্ঞান ক্ষেত্রের জন্য উপযুক্ত, যেখানে ভবিষ্যতের পূর্বাভাসের জন্য প্রাথমিক প্রবণতা এবং প্যাটার্নগুলি নির্ধারণ করা প্রয়োজন।
SARIMA মডেল ব্যবহার করা হয় যখন টাইম সিরিজ ডেটাতে মৌসুমি প্রভাব রয়েছে (যেমন, মাসিক বা ত্রৈমাসিক ডেটা) এবং এটি ব্যবসায়িক পূর্বাভাস, উৎপাদন, বিক্রয় এবং আবহাওয়ার পূর্বাভাসের জন্য কার্যকরী।

সারাংশ

ARIMA হলো একটি টাইম সিরিজ পূর্বাভাস মডেল, যা ডেটার অপ্রত্যাশিত পরিবর্তন বা প্রবণতা মডেল করে এবং মৌসুমি প্রভাব বিবেচনায় নেয় না।
SARIMA হলো ARIMA মডেলের মৌসুমি সংস্করণ, যা মৌসুমি উপাদানগুলি যোগ করে টাইম সিরিজ ডেটার মৌসুমি প্যাটার্ন বা গঠন বুঝতে সহায়ক।

ARIMA এবং SARIMA মডেলগুলি টাইম সিরিজ ডেটার ভবিষ্যৎ পূর্বাভাসের জন্য খুবই গুরুত্বপূর্ণ এবং বিশেষত ব্যবসায়িক সিদ্ধান্ত গ্রহণে সহায়ক।

Content added By

SATT Academy

Lag Features এবং Rolling Windows

203

Lag Features এবং Rolling Windows হলো টেম্পোরাল ডেটা বা টাইম সিরিজ ডেটা বিশ্লেষণে ব্যবহৃত দুটি গুরুত্বপূর্ণ কৌশল। এগুলি ডেটার প্যাটার্ন বা সম্পর্ক শনাক্ত করতে এবং ভবিষ্যৎ পূর্বাভাস (forecasting) উন্নত করতে সহায়ক।

1. Lag Features (ল্যাগ ফিচার)

Lag Features হলো পূর্ববর্তী সময়ের ডেটা (lagged data) ব্যবহার করে নতুন বৈশিষ্ট্য তৈরি করা। এটি মূলত টাইম সিরিজ ডেটা-তে ব্যবহৃত হয়, যেখানে পূর্বের সময়ের (lagged) মানগুলি বর্তমান সময়ের পূর্বাভাসের জন্য ব্যবহৃত হয়। একে সাধারণত "shifted features" বা "lagged values" বলা হয়।

ফিচার তৈরির পদ্ধতি:

যদি আপনার কাছে টাইম সিরিজ ডেটা থাকে, যেমন, Stock Prices, Weather Data বা Sales Data, তবে আপনি একটি সময়ের পূর্বের মান (lag) ব্যবহার করতে পারেন ভবিষ্যতের মান (future value) ভবিষ্যদ্বাণী করতে।

উদাহরণ:

ধরা যাক, আপনার কাছে একটি স্টক প্রাইসের ডেটা আছে:

Date          Price
2023-01-01    100
2023-01-02    102
2023-01-03    101
2023-01-04    105

এখানে আপনি lag feature তৈরি করতে পারেন, যেমন:

Lag 1: 2023-01-02 তে স্টক প্রাইস = 102 (এটি 2023-01-01 এর প্রাইস হবে),
Lag 2: 2023-01-03 তে স্টক প্রাইস = 101 (এটি 2023-01-01 এবং 2023-01-02 এর প্রাইস হবে)।

Lag Feature তৈরি করার মাধ্যমে, আপনি ভবিষ্যত প্রাইসের পূর্বাভাস করার জন্য পূর্বের দিনের প্রাইস ব্যবহার করতে পারবেন।

ব্যবহার:

Stock Price Prediction: পূর্বের দিনের স্টক প্রাইস ব্যবহার করে বর্তমান বা ভবিষ্যতের প্রাইস পূর্বাভাস করা।
Sales Forecasting: পূর্ববর্তী মাসের বা সপ্তাহের বিক্রয় সংখ্যা ব্যবহার করে পরবর্তী মাসের বা সপ্তাহের বিক্রয় পূর্বাভাস করা।

কীভাবে তৈরি করা যায় (Python উদাহরণ):

import pandas as pd

# ডেটাসেট তৈরি করা
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
        'Price': [100, 102, 101, 105]}
df = pd.DataFrame(data)

# Lag ফিচার তৈরি করা
df['Lag_1'] = df['Price'].shift(1)
df['Lag_2'] = df['Price'].shift(2)

print(df)

আউটপুট:

         Date  Price  Lag_1  Lag_2
0  2023-01-01    100    NaN    NaN
1  2023-01-02    102  100.0    NaN
2  2023-01-03    101  102.0  100.0
3  2023-01-04    105  101.0  102.0

এখানে, Lag_1 হলো আগের দিনের দাম এবং Lag_2 হলো আগের দুই দিনের দাম।

2. Rolling Windows (রোলিং উইন্ডোজ)

Rolling Windows হলো একটি কৌশল যা আপনাকে ডেটার একটি চলমান উইন্ডো ব্যবহার করতে দেয়। এটি টাইম সিরিজ ডেটাতে একটি নির্দিষ্ট উইন্ডো (যেমন 3 দিন বা 7 দিন) ব্যবহার করে ডেটার উপর গাণিতিক অপারেশন সম্পাদন করে। এই উইন্ডোটি ডেটার উপর সরানো হয় এবং বিভিন্ন সময়ের জন্য গাণিতিক পরিসংখ্যান হিসাব করা হয়।

ফিচার তৈরির পদ্ধতি:

আপনি একটি চলমান উইন্ডো তৈরি করেন এবং প্রতি উইন্ডোতে গাণিতিক অপারেশন (যেমন, গড়, মোট, সর্বোচ্চ, সর্বনিম্ন ইত্যাদি) প্রয়োগ করেন।
এটি ডেটার ধ্রুবক পরিবর্তন বা মুভিং ট্রেন্ড দেখতে সহায়ক।

উদাহরণ:

ধরা যাক, আপনার কাছে একটি টাইম সিরিজ ডেটা রয়েছে এবং আপনি ৩ দিনের রোলিং গড় বের করতে চান:

Date          Price
2023-01-01    100
2023-01-02    102
2023-01-03    101
2023-01-04    105

এখানে আপনি ৩ দিনের রোলিং গড় তৈরি করতে পারেন:

2023-01-03 তে রোলিং গড় হবে $\frac{100 + 102 + 101}{3} = 101$
2023-01-04 তে রোলিং গড় হবে $\frac{102 + 101 + 105}{3} = 102.67$

কীভাবে তৈরি করা যায় (Python উদাহরণ):

import pandas as pd

# ডেটাসেট তৈরি করা
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
        'Price': [100, 102, 101, 105]}
df = pd.DataFrame(data)

# Rolling Windows (3 দিন)
df['Rolling_Mean'] = df['Price'].rolling(window=3).mean()

print(df)

আউটপুট:

         Date  Price  Rolling_Mean
0  2023-01-01    100           NaN
1  2023-01-02    102           NaN
2  2023-01-03    101     101.000000
3  2023-01-04    105     102.666667

এখানে, প্রথম দুটি সারি NaN (Not a Number) হবে কারণ ৩ দিনের উইন্ডোতে পর্যাপ্ত ডেটা নেই। পরবর্তী সারিতে ৩ দিনের গড় হিসাব করা হয়েছে।

ব্যবহার:

Stock Market Analysis: স্টক মার্কেটের মুভিং এভারেজ (MA) নির্ধারণে রোলিং উইন্ডো ব্যবহার করা হয়।
Weather Forecasting: আবহাওয়ার পূর্বাভাসের জন্য ৭ দিনের মুভিং গড় ব্যবহার করা।

Lag Features এবং Rolling Windows এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Lag Features	Rolling Windows
বিশ্লেষণ	পূর্ববর্তী দিনের বা সময়ের মান ব্যবহার করে।	একটি চলমান উইন্ডো ব্যবহার করে সাম্প্রতিক মানের পরিসংখ্যান।
ফিচার তৈরি	পূর্ববর্তী মান (Lag) ব্যবহার করে।	চলমান উইন্ডোতে গাণিতিক অপারেশন প্রয়োগ করে।
ব্যবহার	সময়সীমার পূর্বাভাসে এবং ডেটার ট্রেন্ডিং বা সময়ের সাপেক্ষে সম্পর্ক বুঝতে।	ডেটার পরিবর্তনশীলতা বা ধ্রুবক মুভিং ট্রেন্ড বিশ্লেষণ করতে।
এছাড়াও ব্যবহৃত	টাইম সিরিজ প্রেডিকশন বা স্টক প্রাইস প্রেডিকশন।	চলমান গড়, মোট, সর্বোচ্চ/নিম্ন বের করার জন্য।

সারাংশ

Lag Features এবং Rolling Windows হলো দুটি গুরুত্বপূর্ণ কৌশল যা টাইম সিরিজ ডেটা বিশ্লেষণে ব্যবহৃত হয়।
Lag Features পূর্ববর্তী মান ব্যবহার করে ফিচার তৈরি করে, যা পূর্ববর্তী সময়ের প্রভাব বোঝাতে সাহায্য করে।
Rolling Windows একটি চলমান উইন্ডো ব্যবহার করে ডেটার উপর গাণিতিক পরিসংখ্যান প্রয়োগ করে, যা ডেটার ট্রেন্ড বা পরিবর্তনশীলতা বিশ্লেষণ করতে সহায়ক।

Content added By

SATT Academy

Forecasting Techniques এবং Model Evaluation

213

Forecasting হল ভবিষ্যতের মান বা ঘটনা পূর্বাভাস করার প্রক্রিয়া, যা ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের একটি গুরুত্বপূর্ণ দিক। Forecasting টেকনিকগুলি ব্যবহৃত হয় বিভিন্ন প্রকার ডেটা প্যাটার্ন যেমন ট্রেন্ড, সিজনালিটি, এবং চক্রের উপর ভিত্তি করে ভবিষ্যৎ ঘটনার পূর্বাভাস করতে। এই প্রক্রিয়া ব্যাপকভাবে ব্যবসায়িক সিদ্ধান্ত গ্রহণ, অর্থনীতি, স্টক মার্কেট প্রেডিকশন, আবহাওয়া পূর্বাভাস, এবং আরও অনেক ক্ষেত্রে ব্যবহৃত হয়।

যেহেতু মডেলগুলি ভবিষ্যদ্বাণী করছে, তাদের পারফরম্যান্স সঠিকভাবে মাপা অত্যন্ত গুরুত্বপূর্ণ। Model Evaluation এর মাধ্যমে মডেলের কার্যকারিতা বিশ্লেষণ এবং অপ্টিমাইজেশন করা যায়।

Forecasting Techniques (ফরকাস্টিং টেকনিক)

Forecasting বিভিন্ন টেকনিক এবং মেথড ব্যবহার করে ভবিষ্যতের মান অনুমান করার চেষ্টা করে। এর মধ্যে কিছু জনপ্রিয় পদ্ধতি হল:

1. Time Series Forecasting (টাইম সিরিজ ফরকাস্টিং)

টাইম সিরিজ ডেটা এমন ডেটা যা সময়ের সাথে পরিবর্তিত হয় এবং ধারাবাহিকভাবে পরবর্তী সময়ে একটি মান পূর্বাভাস করতে পারে। টাইম সিরিজ ফরকাস্টিং মডেল ভবিষ্যতের মানের পূর্বাভাস করতে পূর্ববর্তী সময়ের ডেটার প্যাটার্ন ব্যবহার করে।

ARIMA (Auto-Regressive Integrated Moving Average): ARIMA মডেলটি টাইম সিরিজ ডেটার অটো রিগ্রেশন, ইন্টিগ্রেশন, এবং মুভিং এভারেজের উপর ভিত্তি করে ভবিষ্যৎ মান পূর্বাভাস করে।
- Auto-regressive (AR): পূর্ববর্তী সময়ের মান ব্যবহার করে ভবিষ্যত অনুমান।
- Moving Average (MA): পূর্ববর্তী ভুল পূর্বাভাসের ভিত্তিতে ভবিষ্যত অনুমান।
- Integration (I): ডেটার ডিফারেন্স ব্যবহার করে ট্রেন্ড দূর করা।
Exponential Smoothing (ETS): এই পদ্ধতি টাইম সিরিজ ডেটায় প্রবণতা এবং সিজনালিটি মডেল করার জন্য ব্যবহৃত হয়। এটি আগের পর্যবেক্ষণগুলির উপর বেশি ওজন দেয় এবং স্বল্পমেয়াদী পূর্বাভাস তৈরি করে।
Seasonal Decomposition of Time Series (STL): এটি টাইম সিরিজ ডেটার সিজনাল প্যাটার্ন, ট্রেন্ড এবং অবশেষ ভাগ করে, যার মাধ্যমে সিজনাল বৈশিষ্ট্য এবং ট্রেন্ড গুলি আলাদা করা যায়।

2. Machine Learning Models (মেশিন লার্নিং মডেল)

মেশিন লার্নিং মডেলগুলি টাইম সিরিজ ডেটার জন্য অধিক শক্তিশালী হয়ে উঠেছে, যেখানে Random Forest, Gradient Boosting, এবং XGBoost মডেলগুলি ব্যবহৃত হতে পারে।

Random Forest: টাইম সিরিজ ডেটার জন্য Random Forest একাধিক ডেসিশন ট্রি ব্যবহার করে একটি শক্তিশালী মডেল তৈরি করে। এটি ভবিষ্যত পূর্বাভাসের জন্য কার্যকরী হতে পারে, বিশেষ করে যখন ডেটার মধ্যে অনেক পরিবর্তনশীলতা থাকে।
XGBoost: এটি এক ধরনের gradient boosting মডেল যা দ্রুত এবং কার্যকরীভাবে ভবিষ্যত মান পূর্বাভাস করতে সক্ষম।

3. Neural Networks (নিউরাল নেটওয়ার্কস)

গভীর শিখন বা Deep Learning মডেলগুলি, বিশেষ করে LSTM (Long Short Term Memory) এবং GRU (Gated Recurrent Unit), টাইম সিরিজ ফরকাস্টিংয়ে ব্যাপকভাবে ব্যবহৃত হচ্ছে। এই মডেলগুলি ডেটার দীর্ঘ সময়ের সম্পর্ক এবং সিজনাল প্যাটার্ন শিখতে সক্ষম।

Model Evaluation (মডেল মূল্যায়ন)

মডেলের কার্যকারিতা মূল্যায়ন করার জন্য, এটি গুরুত্বপূর্ণ যে আমরা বিভিন্ন মেট্রিক ব্যবহার করি যা মডেলের সঠিকতা এবং নির্ভুলতা পরিমাপ করে। forecasting মডেলের জন্য কিছু প্রধান মূল্যায়ন মেট্রিক্স হল:

1. Mean Absolute Error (MAE)

MAE মেট্রিকটি মডেলের পূর্বাভাসের সঙ্গে প্রকৃত মানের গড় পার্থক্য দেখায়। এটি একটি সরল এবং জনপ্রিয় মেট্রিক যা সহজে ব্যাখ্যা করা যায়।

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

যেখানে:

$y_i$ প্রকৃত মান,
$\hat{y}_i$ পূর্বাভাস মান,
$n$ ডেটা পয়েন্টের সংখ্যা।

2. Mean Squared Error (MSE)

MSE হল মডেলের পূর্বাভাস এবং প্রকৃত মানের মধ্যে বর্গমূল পার্থক্য। এটি MAE এর মতো হলেও, বড় ভুলগুলির উপর বেশি গুরুত্ব দেয়, কারণ বড় ত্রুটির বর্গ অনেক বড় হয়ে ওঠে।

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

3. Root Mean Squared Error (RMSE)

RMSE হল MSE এর রুট, যা পূর্বাভাসের গড় ত্রুটির পরিমাণ বুঝতে সহায়ক। এটি সাধারণত এমএসই-এর চেয়ে আরও ব্যাখ্যাযোগ্য, কারণ এর একক প্রকৃত মানের সাথে মিল থাকে।

$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$

4. R-Squared (R²)

R-squared হল একটি পরিমাপ যা ডেটার মধ্যে মডেলটির ফিট কতটা ভাল তা দেখায়। এটি 0 থেকে 1 এর মধ্যে একটি মান প্রদান করে, যেখানে 1 মানে পুরোপুরি ফিট হওয়া এবং 0 মানে মডেলটি কোন কিছুই প্রেডিক্ট করতে পারছে না।

$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

যেখানে $\bar{y}$ হল প্রকৃত মানের গড়।

5. Mean Absolute Percentage Error (MAPE)

MAPE মেট্রিকটি পূর্বাভাসের পার্সেন্ট ত্রুটি গণনা করে। এটি ব্যবসায়িক সিদ্ধান্ত গ্রহণে অত্যন্ত কার্যকর, কারণ এটি সোজাসুজি আপেক্ষিক ত্রুটির মাপ প্রদান করে।

$MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100$

সারাংশ

Forecasting Techniques হল বিভিন্ন পদ্ধতি যা ব্যবহৃত হয় ভবিষ্যতের মান বা ঘটনাকে পূর্বাভাস করতে। এর মধ্যে Time Series Forecasting, Machine Learning Models, এবং Neural Networks অন্যতম। এই পদ্ধতিগুলি ডেটার প্যাটার্ন, ট্রেন্ড, সিজনালিটি এবং চক্রের উপর ভিত্তি করে ভবিষ্যৎ অনুমান করে।

মডেলটি কার্যকরী কিনা তা পরিমাপ করার জন্য Model Evaluation মেট্রিক্স যেমন MAE, MSE, RMSE, R², এবং MAPE ব্যবহৃত হয়। এগুলি মডেলের পূর্বাভাসের সঠিকতা, নির্ভুলতা এবং ফিট পরিমাপ করতে সহায়ক।

Content added By

SATT Academy

Scikit-Learn পরিচিতি Scikit-Learn ইনস্টলেশন এবং সেটআপ Scikit-Learn এর মৌলিক ধারণা Data Preprocessing Train-Test Split এবং Cross-Validation

Time Series Analysis এবং Forecasting

Time Series Analysis (টাইম সিরিজ বিশ্লেষণ)

Time Series Data এর বৈশিষ্ট্য:

Time Series Analysis এর উদ্দেশ্য:

Time Series Forecasting (টাইম সিরিজ পূর্বাভাস)

Time Series Forecasting এর উদ্দেশ্য:

Forecasting Techniques (পূর্বাভাস কৌশল):

PCA এবং Time Series Analysis

Time Series Analysis এবং Forecasting Tools

সারাংশ

Time Series Data এর ধারণা এবং ব্যবহার

Time Series Data এর বৈশিষ্ট্য

Time Series Data এর ব্যবহার

1. অর্থনৈতিক এবং স্টক মার্কেট বিশ্লেষণ

2. বাজার বিশ্লেষণ এবং চাহিদা পূর্বাভাস

3. জলবায়ু এবং আবহাওয়া পূর্বাভাস

4. স্বাস্থ্যসেবা এবং রোগ প্রতিরোধ

5. ব্যবসায়িক পারফরম্যান্স মনিটরিং

6. এনার্জি এবং শক্তির চাহিদা পূর্বাভাস

Time Series Analysis এর পদ্ধতি

Time Series Data এর উদাহরণ

সারাংশ

ARIMA এবং SARIMA মডেল

ARIMA মডেল (AutoRegressive Integrated Moving Average)

ARIMA মডেল ফর্মুলা:

SARIMA মডেল (Seasonal ARIMA)

SARIMA মডেল ফর্মুলা:

SARIMA মডেলের উপাদান:

ARIMA এবং SARIMA এর মধ্যে পার্থক্য

ARIMA এবং SARIMA এর ব্যবহার ক্ষেত্র

সারাংশ

Lag Features এবং Rolling Windows

1. Lag Features (ল্যাগ ফিচার)

ফিচার তৈরির পদ্ধতি:

উদাহরণ:

ব্যবহার:

কীভাবে তৈরি করা যায় (Python উদাহরণ):

2. Rolling Windows (রোলিং উইন্ডোজ)

ফিচার তৈরির পদ্ধতি:

উদাহরণ:

কীভাবে তৈরি করা যায় (Python উদাহরণ):

ব্যবহার:

Lag Features এবং Rolling Windows এর মধ্যে পার্থক্য

সারাংশ

Forecasting Techniques এবং Model Evaluation

Forecasting Techniques (ফরকাস্টিং টেকনিক)

1. Time Series Forecasting (টাইম সিরিজ ফরকাস্টিং)

2. Machine Learning Models (মেশিন লার্নিং মডেল)

3. Neural Networks (নিউরাল নেটওয়ার্কস)

Model Evaluation (মডেল মূল্যায়ন)

1. Mean Absolute Error (MAE)

2. Mean Squared Error (MSE)

3. Root Mean Squared Error (RMSE)

4. R-Squared (R²)

5. Mean Absolute Percentage Error (MAPE)

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!