ARIMA মডেলের Order (p, d, q) নির্বাচন

Autoregressive Integrated Moving Average (ARIMA) মডেল - টাইম সিরিজ (Time Series) - Machine Learning

279

ARIMA মডেল (AutoRegressive Integrated Moving Average) একটি অত্যন্ত জনপ্রিয় টাইম সিরিজ মডেল যা AR (AutoRegressive), I (Integrated), এবং MA (Moving Average) অংশগুলির সমন্বয়ে তৈরি। ARIMA মডেলের মূল সুবিধা হলো এটি ডেটার ট্রেন্ড এবং সিজনালিটি কাটিয়ে একটি স্টেশনারি টাইম সিরিজ মডেল তৈরি করতে সক্ষম।

ARIMA মডেলের তিনটি প্রধান প্যারামিটার থাকে, যেগুলো p, d, এবং q দ্বারা নির্দেশিত হয়। এই প্যারামিটারগুলো সঠিকভাবে নির্বাচন করা টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ পদক্ষেপ, যা মডেলের কার্যকারিতা এবং পূর্বাভাসের সঠিকতা নির্ধারণ করে।


ARIMA মডেলের প্যারামিটারসমূহ (p, d, q)

  1. p (AutoRegressive term):
    • p হলো অটো-রিগ্রেসিভ (AR) অংশের অর্ডার, যা বর্তমান মানের পূর্ববর্তী মানের উপর নির্ভরশীলতা নির্দেশ করে। এটি নির্ধারণ করে যে, কতগুলি পূর্ববর্তী পর্যবেক্ষণ (ল্যাগ) বর্তমান পর্যবেক্ষণের জন্য গুরুত্বপূর্ণ হবে।
    • p-এর মান নির্বাচনে অটো-কোর্লেশন প্লট (ACF) এবং পারশোনাল কোইফিশিয়েন্ট ব্যবহার করা হয়।
  2. d (Differencing term):
    • d হলো ডিফারেন্সিং (integration) এর সংখ্যা, যা টাইম সিরিজ ডেটাকে স্টেশনারি করার জন্য ব্যবহৃত হয়। এটি টাইম সিরিজের ট্রেন্ড এবং সিজনাল প্যাটার্ন সরাতে ব্যবহৃত হয়।
    • যদি ডেটা স্টেশনারি না হয়, তবে d এর মান সাধারণত ১ বা ২ হয়, যা পার্থক্য বের করে টাইম সিরিজকে স্টেশনারি করে।
  3. q (Moving Average term):
    • q হলো মুভিং অ্যাভারেজ (MA) অংশের অর্ডার, যা পূর্ববর্তী ত্রুটি বা রেসিডুয়ালদের উপর নির্ভরশীলতা নির্দেশ করে।
    • q-এর মান নির্বাচনে পার্থক্য দেখা যায়, এবং সাধারণত মুভিং অ্যাভারেজের প্যারামিটারটির জন্য অটো-কোর্লেশন ফাংশন (PACF) বা মুভিং অ্যাভারেজের বর্ণনা ব্যবহৃত হয়।

p, d, q নির্বাচন করার পদ্ধতি

ARIMA মডেলের p, d, এবং q নির্বাচন করতে নিচের ধাপগুলো অনুসরণ করা হয়:

১. ডেটার স্টেশনারিটি পরীক্ষা করা (d নির্বাচন)

প্রথমেই টাইম সিরিজের স্টেশনারিটি চেক করা হয়। যদি টাইম সিরিজে ট্রেন্ড থাকে, তবে d মান বৃদ্ধি করা হয়, যাতে ডেটা স্টেশনারি হয়। ADF (Augmented Dickey-Fuller) টেস্ট বা KPSS টেস্ট ব্যবহার করে স্টেশনারিটি পরীক্ষা করা হয়। সাধারণত:

  • d = 0: যদি ডেটা স্টেশনারি হয়।
  • d = 1: যদি ডেটা একটি পার্থক্য (first differencing) প্রয়োজন।
  • d = 2: যদি দ্বিতীয় পার্থক্য (second differencing) প্রয়োজন।

২. p এবং q নির্বাচন (ACF ও PACF গ্রাফের মাধ্যমে)

  • p নির্বাচন (AR part): PACF (Partial Autocorrelation Function) গ্রাফ ব্যবহার করে p নির্বাচন করা হয়। PACF গ্রাফে প্রথম আছড়ানো (significant spike) যেখানে ঘটে, সেখানে p এর মান নির্ধারণ করা হয়।
  • q নির্বাচন (MA part): ACF (Autocorrelation Function) গ্রাফ ব্যবহার করে q নির্বাচন করা হয়। ACF গ্রাফে প্রথম significant আছড়ানো যেখানে ঘটে, সেখানে q এর মান নির্ধারণ করা হয়।

৩. প্যারামিটার পছন্দের জন্য AIC এবং BIC টেস্ট

AIC (Akaike Information Criterion) এবং BIC (Bayesian Information Criterion) হল দুটি জনপ্রিয় মেট্রিক্স, যা মডেলটির দক্ষতা পরিমাপ করতে ব্যবহৃত হয়। কম AIC এবং BIC মান নির্দেশ করে যে মডেলটি ভালো কাজ করছে। বিভিন্ন p, d, এবং q কম্বিনেশন নিয়ে এই মানগুলোর তুলনা করা হয়।

৪. ভালো ARIMA মডেল নির্বাচন করা

শেষে, সঠিক ARIMA মডেলটি নির্বাচন করতে প্রয়োজনীয় প্যারামিটারগুলি নির্বাচন করা হয়, যেটি ডেটার উপর সর্বোচ্চ পূর্বাভাস ক্ষমতা প্রদান করে এবং কম AIC এবং BIC মান দেয়।


উদাহরণ:

ধরা যাক, আমাদের কাছে একটি টাইম সিরিজ ডেটা আছে এবং আমরা একটি ARIMA মডেল তৈরি করতে চাই।

  1. d নির্বাচন: যদি ডেটা ট্রেন্ড প্রদর্শন করে, তাহলে প্রথমে d = 1 নির্বাচন করা হয় এবং ADF টেস্ট দ্বারা স্টেশনারিটি পরীক্ষা করা হয়।
  2. p নির্বাচন: PACF গ্রাফ দেখে প্রথম significant lag চিহ্নিত করে p নির্বাচন করা হয়।
  3. q নির্বাচন: ACF গ্রাফ দেখে প্রথম significant lag চিহ্নিত করে q নির্বাচন করা হয়।

ধরা যাক, PACF এবং ACF থেকে আমরা p = 2 এবং q = 1 নির্বাচন করি। তাহলে, আমাদের ARIMA মডেল হবে ARIMA(2, 1, 1)।


সারাংশ

ARIMA মডেলের p, d, এবং q প্যারামিটারগুলি সঠিকভাবে নির্বাচন করা টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ পদক্ষেপ। ডেটার স্টেশনারিটি নিশ্চিত করতে d নির্বাচন করা হয়, এবং পূর্ববর্তী মান (AR) এবং ত্রুটি (MA) নির্ধারণ করতে p এবং q নির্বাচিত হয়। PACF, ACF, এবং AIC/BIC টেস্ট ব্যবহার করে এই প্যারামিটারগুলো নির্বাচন করা হয়।

Content added By
Promotion

Are you sure to start over?

Loading...