Autoregressive (AR) মডেল

টাইম সিরিজ (Time Series) - Machine Learning

316

অটো-রেগ্রেসিভ (AR) মডেল হল টাইম সিরিজ ডেটার একটি জনপ্রিয় পরিসংখ্যানিক মডেল, যা পূর্ববর্তী সময়ের মানগুলির উপর ভিত্তি করে ভবিষ্যতের মান অনুমান করার জন্য ব্যবহৃত হয়। অটো-রেগ্রেসিভ শব্দটি দুটি ভাগে বিভক্ত:

  • অটো (Auto): সময়ের সাথে সম্পর্কিত।
  • রেগ্রেসিভ (Regressive): পূর্ববর্তী মানগুলির উপর ভিত্তি করে ভবিষ্যৎ মানের পূর্বাভাস।

এই মডেলটি পূর্ববর্তী মানগুলির উপর ভিত্তি করে ভবিষ্যতের মান পূর্বাভাস দেয় এবং এটি একটি লিনিয়ার মডেল যা টাইম সিরিজের ভবিষ্যতের মান পূর্ববর্তী কিছু মানের একটি লিনিয়ার সংমিশ্রণ হিসেবে অনুমান করে।

AR মডেলের মৌলিক ধারণা

অটো-রেগ্রেসিভ (AR) মডেল একটি লিনিয়ার রিগ্রেশন মডেল যা টাইম সিরিজের নির্দিষ্ট পর্যবেক্ষণ বা ল্যাগ (lag) এর উপর ভিত্তি করে ভবিষ্যতের মানের পূর্বাভাস তৈরি করে। এটি AR(p) মডেল হিসেবে পরিচিত, যেখানে p হল ল্যাগ এর সংখ্যা বা পূর্ববর্তী পর্যবেক্ষণের সংখ্যা।

AR(p) মডেলের সাধারণ ফর্মুলা:

Yt=c+ϕ1Yt1+ϕ2Yt2++ϕpYtp+ϵtY_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \phi_p Y_{t-p} + \epsilon_t

এখানে,

  • YtY_t = বর্তমান সময়ের মান (যেমন: tt-তম পয়েন্ট)
  • cc = কনস্ট্যান্ট (মুল্য)
  • ϕ1,ϕ2,,ϕp\phi_1, \phi_2, \dots, \phi_p = অটো-রেগ্রেসিভ কোফিশিয়েন্ট, যা পূর্ববর্তী ল্যাগগুলির উপর ভিত্তি করে অনুমান করা হয়।
  • Yt1,Yt2,,YtpY_{t-1}, Y_{t-2}, \dots, Y_{t-p} = পূর্ববর্তী পর্যবেক্ষণ (ল্যাগ)
  • ϵt\epsilon_t = ত্রুটি বা র্যান্ডম শক, যা মডেলের ব্যতিক্রমী ভেরিয়েশন বা শকগুলোকে বোঝায়।

AR মডেলের প্রধান উপাদান

  1. ল্যাগ (Lag):
    • AR মডেলটি পূর্ববর্তী সময়ের পর্যবেক্ষণগুলি ব্যবহার করে বর্তমান সময়ের মান অনুমান করে।
    • p মানে হল যে মডেলটি কতগুলি পূর্ববর্তী সময়ের মান ব্যবহার করবে (যেমন, p=1p=1 হলে শুধু আগের মান ব্যবহার হবে)।
  2. অটো-কোর্লেশন (Autocorrelation):
    • AR মডেলটি টাইম সিরিজের পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যত পূর্বাভাস করতে থাকে, যেখানে অটো-কোর্লেশন পরীক্ষা করে কীভাবে দুটি পর্যবেক্ষণের মধ্যে সম্পর্ক (correlation) রয়েছে।
  3. অপেক্ষিকতা (Stationarity):
    • AR মডেল কার্যকরভাবে কাজ করতে হলে টাইম সিরিজটি স্টেশনারি হতে হবে। এর মানে হল যে ডেটার গড় এবং ভ্যারিয়েন্স সময়ের সাথে অপরিবর্তিত থাকতে হবে। স্টেশনারি না হলে ডেটা প্রিপ্রসেসিং করতে হবে (যেমন ডিফারেন্সিং বা ট্রান্সফরমেশন)।

AR মডেলের উদাহরণ

ধরা যাক আমাদের কাছে একটি স্টক মার্কেটের মূল্য রয়েছে এবং আমরা পূর্ববর্তী এক দিনের মান ব্যবহার করে আগামী দিনের মূল্য পূর্বাভাস করতে চাই। এই ক্ষেত্রে p=1p = 1 হবে, কারণ আমরা শুধুমাত্র গত দিনের স্টক মূল্যকে বর্তমান দিন অনুমান করতে ব্যবহার করব।

AR(1) মডেলের সাধারণ ফর্মুলা:

Yt=c+ϕ1Yt1+ϵtY_t = c + \phi_1 Y_{t-1} + \epsilon_t

এখানে,

  • YtY_t = বর্তমান দিনের স্টক মূল্য
  • Yt1Y_{t-1} = গত দিনের স্টক মূল্য
  • ϕ1\phi_1 = AR কোফিশিয়েন্ট, যা গত দিনের স্টক মূল্যের প্রভাব নির্ধারণ করবে
  • ϵt\epsilon_t = ত্রুটি বা শক

AR মডেল ব্যবহার করার জন্য ধাপসমূহ

  1. ডেটা সংগ্রহ: প্রথমে টাইম সিরিজ ডেটা সংগ্রহ করুন, যেমন প্রতিদিনের স্টক মার্কেট মূল্য বা মাসিক বিক্রয়।
  2. স্টেশনারিটি পরীক্ষা: টাইম সিরিজটি স্টেশনারি কিনা তা পরীক্ষা করুন (ADF টেস্ট বা KPSS টেস্ট ব্যবহার করা হয়)।
  3. ল্যাগ নির্বাচন: AR(p) মডেলটির জন্য উপযুক্ত ল্যাগ (pp) নির্বাচন করুন। এটি ACF (Auto Correlation Function) বা PACF (Partial Auto Correlation Function) গ্রাফের মাধ্যমে নির্ধারণ করা যায়।
  4. মডেল প্রশিক্ষণ: AR মডেলটি ফিট করুন এবং এর পারামিটারগুলো (যেমন ϕ1\phi_1) অনুমান করুন।
  5. পূর্বাভাস তৈরি: প্রশিক্ষিত মডেল ব্যবহার করে ভবিষ্যতের মান পূর্বাভাস তৈরি করুন।

সারাংশ

অটো-রেগ্রেসিভ (AR) মডেল একটি টাইম সিরিজ মডেল যা পূর্ববর্তী সময়ের মানের উপর ভিত্তি করে ভবিষ্যতের মান অনুমান করে। AR মডেলটি স্টেশনারি টাইম সিরিজের জন্য কার্যকর এবং এটি ল্যাগ ভিত্তিক পূর্বাভাস তৈরি করে। AR মডেল বিভিন্ন ধরণের টাইম সিরিজ ডেটা বিশ্লেষণ এবং পূর্বাভাসের জন্য ব্যবহৃত হয়, যেমন স্টক মার্কেট, বিক্রয় তথ্য, আবহাওয়া ইত্যাদি।

Content added By

অটো-রেগ্রেসিভ মডেল (AR) একটি টাইম সিরিজ মডেল যা বর্তমান মানের পূর্ববর্তী মানগুলোর উপর ভিত্তি করে ভবিষ্যত মানের পূর্বাভাস তৈরি করে। এই মডেলটি টাইম সিরিজ ডেটার অটো-কোর্লেশন বা স্ব-কোরেলেশন ব্যবহার করে, যার মাধ্যমে বর্তমান মান এবং অতীত মানের সম্পর্ক নির্ধারণ করা হয়। অটো-রেগ্রেসিভ মডেলটি মূলত লিনিয়ার এবং স্টেশনারি টাইম সিরিজ ডেটার জন্য ব্যবহৃত হয়।

AR মডেলের মূল ধারণা

অটো-রেগ্রেসিভ মডেল (AR) এমন একটি মডেল যা টাইম সিরিজের বর্তমান মানকে পূর্ববর্তী মানগুলোর একটি লিনিয়ার ফাংশন হিসেবে প্রকাশ করে। সাধারণভাবে, এটি বলা হয় যে একটি টাইম সিরিজের মান শুধুমাত্র তার পূর্ববর্তী কিছু মানের উপর নির্ভরশীল।

AR(p) মডেলটি টাইম সিরিজের বর্তমান মানকে পূর্ববর্তী p মানের উপর নির্ভরশীল করে। এটি নিচের রূপে লেখা যেতে পারে:

Xt=ϕ1Xt1+ϕ2Xt2+...+ϕpXtp+ϵtX_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + ... + \phi_p X_{t-p} + \epsilon_t

এখানে:

  • XtX_t হল বর্তমান সময় পয়েন্টের মান।
  • ϕ1,ϕ2,...,ϕp\phi_1, \phi_2, ..., \phi_p হল মডেলের প্যারামিটার বা কোইফিশিয়েন্ট।
  • Xt1,Xt2,...,XtpX_{t-1}, X_{t-2}, ..., X_{t-p} হল আগের pp সময় পয়েন্টের মান।
  • ϵt\epsilon_t হল ত্রুটি বা রেসিডুয়াল (error term), যা মডেল দ্বারা ব্যাখ্যা করা যায় না এমন অংশ।

AR(p) মডেল বোঝার জন্য কিছু উদাহরণ:

  • AR(1) মডেল: শুধুমাত্র একটি আগের সময় পয়েন্টের উপর নির্ভরশীল। অর্থাৎ, বর্তমান মান শুধুমাত্র আগের সময় পয়েন্টের মানের উপর নির্ভর করবে।

    Xt=ϕ1Xt1+ϵtX_t = \phi_1 X_{t-1} + \epsilon_t

  • AR(2) মডেল: বর্তমান মান পূর্ববর্তী দুইটি সময় পয়েন্টের উপর নির্ভরশীল হবে।

    Xt=ϕ1Xt1+ϕ2Xt2+ϵtX_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + \epsilon_t

AR মডেলের বৈশিষ্ট্য

  1. স্টেশনারিটি: AR মডেলটি স্টেশনারি টাইম সিরিজের জন্য সবচেয়ে কার্যকর। যদি টাইম সিরিজে ট্রেন্ড বা সিজনাল প্যাটার্ন থাকে, তবে সেগুলি সরিয়ে স্টেশনারি করার পর AR মডেলটি প্রয়োগ করা উচিত।
  2. অটো-কোর্লেশন: AR মডেলটি টাইম সিরিজের মধ্যে অটো-কোর্লেশন বা আত্মসম্বন্ধ চিহ্নিত করে। এটি বোঝায় যে বর্তমান মান পূর্ববর্তী মানের সাথে সম্পর্কিত থাকে।
  3. প্যারামিটার নির্বাচন: AR মডেলের জন্য আদর্শ প্যারামিটার সংখ্যা (p) নির্বাচন করতে আটচিসন ইনফর্মেশন ক্রাইটেরিয়া (AIC) বা বায়েসিয়ান ইনফর্মেশন ক্রাইটেরিয়া (BIC) ব্যবহার করা হয়।

AR মডেলের সুবিধা এবং অসুবিধা

সুবিধা:

  • সহজ এবং লিনিয়ার মডেল হওয়ায় বিশ্লেষণ সহজ।
  • পূর্ববর্তী সময় পয়েন্টের উপর নির্ভরশীলতা ভালোভাবে মডেল করতে সক্ষম।

অসুবিধা:

  • যদি টাইম সিরিজে অনেক লম্বা গতির প্যাটার্ন থাকে, তবে AR মডেলটি তা যথাযথভাবে মডেলিং করতে পারে না।
  • শুধুমাত্র স্টেশনারি টাইম সিরিজের জন্য কার্যকর।

সারাংশ

অটো-রেগ্রেসিভ (AR) মডেল হল একটি টাইম সিরিজ মডেল যা বর্তমান মানের পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যত মানের পূর্বাভাস তৈরি করে। এটি টাইম সিরিজের অটো-কোর্লেশন ব্যবহারে সক্ষম এবং সাধারণত স্টেশনারি ডেটার জন্য ব্যবহৃত হয়। AR মডেলটি একটি শক্তিশালী সরঞ্জাম, তবে এটি সঠিকভাবে কাজ করার জন্য টাইম সিরিজকে স্টেশনারি করতে হয় এবং এটি শুধুমাত্র লিনিয়ার সম্পর্কগুলির জন্য উপযুক্ত।

Content added By

AR মডেল (AutoRegressive Model) হলো টাইম সিরিজ বিশ্লেষণের একটি জনপ্রিয় মডেল, যা পূর্ববর্তী পর্যবেক্ষণের উপর ভিত্তি করে বর্তমান পর্যবেক্ষণকে অনুমান করতে ব্যবহৃত হয়। এটি AutoRegressive (অটো-রিগ্রেসিভ) নামের ভিত্তিতে কাজ করে, যেখানে "অটো" অর্থাৎ নিজস্ব পূর্ববর্তী মান ব্যবহার করা হয় এবং "রিগ্রেসিভ" অর্থাৎ একটি নির্দিষ্ট ল্যাগ (lag) ব্যবহৃত হয়।

AR মডেলটি মূলত টাইম সিরিজের মানগুলির সম্পর্ককে পর্যবেক্ষণ করে, অর্থাৎ একটি ডেটা পয়েন্ট পূর্ববর্তী সময়ের ডেটা পয়েন্টগুলির সাথে সম্পর্কিত হয়। AR মডেলটি লিনিয়ার রিগ্রেশন (Linear Regression) এর মতো কাজ করে, তবে এখানে বর্তমান মান পূর্ববর্তী মানের উপর নির্ভরশীল থাকে।


AR মডেলের সাধারণ ফর্মুলা

AR মডেলের সাধারণ ফর্মটি নিম্নরূপ:

Yt=c+ϕ1Yt1+ϕ2Yt2++ϕpYtp+ϵtY_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \cdots + \phi_p Y_{t-p} + \epsilon_t

এখানে:

  • YtY_t হলো বর্তমান সময়ের মান।
  • cc হলো কনস্ট্যান্ট বা স্বাভাবিক মান।
  • ϕ1,ϕ2,,ϕp\phi_1, \phi_2, \dots, \phi_p হলো মডেল প্যারামিটার, যা পূর্ববর্তী pp সময়ের ডেটার উপর প্রভাব ফেলে।
  • Yt1,Yt2,,YtpY_{t-1}, Y_{t-2}, \dots, Y_{t-p} হলো পূর্ববর্তী সময়ের মান (ল্যাগ ১ থেকে pp পর্যন্ত)।
  • ϵt\epsilon_t হলো হোয়াইট নয়েজ বা র্যান্ডম ত্রুটি (error term)।

AR মডেলটির কার্যপ্রণালী:

  1. ডেটার পূর্ববর্তী মানের উপর নির্ভরশীলতা: AR মডেলটি একটি নির্দিষ্ট ল্যাগ (lag) পিরিয়ডের জন্য পূর্ববর্তী সময়ের মানের ওপর ভিত্তি করে বর্তমান মানকে অনুমান করে। অর্থাৎ, টাইম সিরিজের প্যাটার্ন বা ট্রেন্ড পূর্ববর্তী মান দ্বারা প্রভাবিত হয়।
  2. প্যারামিটারগুলির অনুমান: AR মডেলের প্যারামিটারগুলি (যেমন ϕ1,ϕ2,,ϕp\phi_1, \phi_2, \dots, \phi_p) অনুমান করা হয়। এই প্যারামিটারগুলি মডেলের শক্তি এবং কার্যকারিতা নির্ধারণ করে। এগুলির মান সাধারণত অটোকরিলেশন (Autocorrelation) বা পার্সোনের কোএফিশিয়েন্ট (Pearson's Coefficient) এর মাধ্যমে নির্ধারণ করা হয়।
  3. হোয়াইট নয়েজ (White Noise): AR মডেল সাধারণত হোয়াইট নয়েজ উপাদান (ϵt\epsilon_t) অন্তর্ভুক্ত করে, যা র্যান্ডম ত্রুটি হিসেবে কাজ করে এবং মডেলের পূর্বাভাসে থাকা ত্রুটিকে ধারণ করে।

AR মডেলের উপকারিতা:

  • সহজ মডেল: AR মডেলটি তুলনামূলকভাবে সহজ এবং এর মাধ্যমে টাইম সিরিজের পূর্ববর্তী মানের সম্পর্ক বিশ্লেষণ করা যায়।
  • অল্প পরিমাণ ডেটার প্রয়োজন: AR মডেলটি ছোট ডেটা সেটেও কার্যকরভাবে কাজ করতে পারে, যদি ডেটা পূর্ববর্তী মানের সাথে সোজাসুজি সম্পর্কিত হয়।
  • প্রতিক্রিয়া সম্পর্ক বিশ্লেষণ: এটি একটি টাইম সিরিজের পূর্ববর্তী পয়েন্টগুলির মধ্যে সম্পর্কগুলি বুঝতে সাহায্য করে।

AR মডেলের সীমাবদ্ধতা:

  • লিনিয়ার সম্পর্ক: AR মডেলটি শুধুমাত্র লিনিয়ার সম্পর্ক বিশ্লেষণ করতে সক্ষম, তাই যদি টাইম সিরিজে নন-লিনিয়ার সম্পর্ক থাকে, তবে এটি ভালোভাবে কাজ নাও করতে পারে।
  • ট্রেন্ড এবং সিজনালিটি: AR মডেলটি সাধারণত ট্রেন্ড বা সিজনাল প্যাটার্ন বিশ্লেষণ করতে সক্ষম নয়। এই সমস্যাগুলির জন্য বিশেষভাবে SARIMA (Seasonal ARIMA) মডেল ব্যবহৃত হয়।
  • বহু ল্যাগের প্রয়োজন: কিছু ক্ষেত্রে টাইম সিরিজের জন্য অনেক ল্যাগ প্রয়োজন হতে পারে, যা মডেলকে জটিল করে তুলতে পারে এবং অতিরিক্ত প্যারামিটার অনুমান প্রয়োজন।

AR মডেলের উদাহরণ:

ধরা যাক, একটি কোম্পানির মাসিক বিক্রয় তথ্য রয়েছে, এবং আপনি এই বিক্রয় পরিসংখ্যানের জন্য AR মডেল প্রয়োগ করতে চান। আপনি যদি AR(1) মডেল ব্যবহার করেন, তবে বর্তমান বিক্রয় মানটি পূর্ববর্তী মাসের বিক্রয় মানের সাথে সম্পর্কিত হবে। এটি হতে পারে এমনভাবে:

Yt=c+ϕ1Yt1+ϵtY_t = c + \phi_1 Y_{t-1} + \epsilon_t

এখানে YtY_t বর্তমান মাসের বিক্রয়, এবং Yt1Y_{t-1} হলো পূর্ববর্তী মাসের বিক্রয়।


সারাংশ

AR (AutoRegressive) মডেলটি একটি টাইম সিরিজ মডেল যা পূর্ববর্তী মানের উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস তৈরি করে। এটি সাধারণত লিনিয়ার সম্পর্ক বিশ্লেষণ করে এবং সময়ের সাথে সম্পর্কিত ডেটাকে বিশ্লেষণ করতে ব্যবহৃত হয়। AR মডেলটি সহজ এবং কার্যকর হলেও, এটি কিছু সীমাবদ্ধতা রাখে, যেমন নন-লিনিয়ার সম্পর্ক এবং সিজনাল প্যাটার্ন বিশ্লেষণের ক্ষেত্রে সমস্যা হতে পারে।

Content added By

অটো-রিগ্রেসিভ মডেল (AR) হল টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ অংশ, যা পূর্ববর্তী সময় পয়েন্টগুলির উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস তৈরি করে। এটি একটি স্ট্যাটিস্টিক্যাল মডেল, যেখানে "p" হল অর্ডার, অর্থাৎ কতটি পূর্ববর্তী সময় পয়েন্টের উপর ভিত্তি করে বর্তমান মান পূর্বানুমান করা হবে।

একটি AR(p) মডেলে, বর্তমান মান yty_t পেছনের pটি মানের সমন্বয়ে গণনা করা হয়, এবং এটি নিচের রূপে লেখা হয়:

yt=ϕ1yt1+ϕ2yt2+...+ϕpytp+ϵty_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} + ... + \phi_p y_{t-p} + \epsilon_t

এখানে:

  • yty_t: বর্তমান সময় পয়েন্টের মান
  • ϕ1,ϕ2,...,ϕp\phi_1, \phi_2, ..., \phi_p: প্যারামিটার বা কোইফিসিয়েন্ট
  • ϵt\epsilon_t: ত্রুটি (error term)

অর্থাৎ, pp হল সময় পয়েন্টগুলির সংখ্যা, যার উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস করা হয়।

AR(p) অর্ডার নির্বাচন

AR(p) মডেলটি একটি টাইম সিরিজ ডেটার উপর মানানসই করার জন্য সঠিক অর্ডার নির্বাচন করা গুরুত্বপূর্ণ। সঠিক অর্ডার নির্বাচন না হলে মডেলটি ভালভাবে কাজ নাও করতে পারে, এবং অতিরিক্ত বা কম অর্ডার মডেল কার্যকর হতে পারে না।

নিম্নলিখিত পদ্ধতিগুলি AR(p) অর্ডার নির্বাচন করতে সহায়ক হতে পারে:


১. আটচি-কোশিন ইনফরমেশন ক্রাইটেরিয়া (AIC)

বর্ণনা: AIC একটি জনপ্রিয় ক্রাইটেরিয়া, যা একটি মডেলের সঠিকতা এবং কমপ্লেক্সিটির মধ্যে একটি ব্যালান্স খুঁজে পেতে সাহায্য করে। এটি মডেলটির ফিটিং গুণমান এবং প্যারামিটার সংখ্যা উভয়কে বিচার করে। ছোট AIC মান ভাল মডেল নির্দেশ করে।

AIC এর সূত্র:

AIC=ln(σ2)+2k/nAIC = \ln(\sigma^2) + 2k / n

এখানে:

  • σ2\sigma^2 হল ত্রুটির বৈচিত্র্য,
  • kk হল প্যারামিটার সংখ্যা,
  • nn হল ডেটা পয়েন্টের সংখ্যা।

যেভাবে ব্যবহার করবেন:

  • AIC এর মান কম হলে সেটি সর্বোত্তম মডেল নির্দেশ করে। একাধিক অর্ডার (p) এর জন্য AIC তুলনা করুন এবং কম AIC সহ মডেলটি নির্বাচন করুন।

২. বিক্রিয়া বা বিগ-ও (PACF) প্লট

বর্ণনা: PACF (Partial Autocorrelation Function) প্লটটি AR(p) মডেল তৈরির জন্য একটি কার্যকর উপায়। PACF প্লটটি প্রতিটি ল্যাগের জন্য অটো-কোর্লেশন দেখায় এবং নির্ধারণ করতে সহায়ক যে কোন পয়েন্টে অটো-কোর্লেশন হ্রাস পাচ্ছে।

PACF প্লট ব্যবহার:

  • PACF প্লটের মধ্যে যেখানে প্রথম অটো-কোর্সশন হ্রাস পায়, সেই ল্যাগটি সাধারণত AR(p) মডেলের জন্য নির্বাচিত অর্ডার (p) নির্দেশ করে।

৩. বিক্রিয়া (ACF) প্লট

বর্ণনা: ACF (Autocorrelation Function) প্লটটি টাইম সিরিজ ডেটার অটো-কোর্সশনের মাত্রা দেখায়। AR মডেলের জন্য ACF এবং PACF প্লট ব্যবহার করে অর্ডার নির্বাচন করা যায়।

ACF প্লট ব্যবহার:

  • যদি ACF প্লটের প্রথম কয়েকটি ল্যাগে উল্লেখযোগ্য অটো-কোর্সশন থাকে এবং এরপর সেগুলি দ্রুত শূন্যে চলে আসে, তবে তা AR মডেলকে নির্দেশ করতে পারে।

৪. ক্রস-ভ্যালিডেশন (Cross-Validation)

বর্ণনা: ক্রস-ভ্যালিডেশন হল একটি মডেল নির্বাচন পদ্ধতি যেখানে ডেটা সেটটিকে একাধিক ছোট অংশে বিভক্ত করা হয় এবং মডেলটি প্রতিটি অংশের জন্য পরীক্ষা করা হয়। এভাবে মডেলের পারফরম্যান্সের নির্ভরযোগ্য অনুমান করা যায়।

ক্রস-ভ্যালিডেশন ব্যবহার:

  • মডেলটি নির্বাচন করতে বিভিন্ন অর্ডার (p) এর জন্য ক্রস-ভ্যালিডেশন ব্যবহার করুন এবং যে অর্ডারটি সবচেয়ে ভাল পারফর্ম করবে সেটি নির্বাচন করুন।

৫. লগ-লাইক্লিহুড (Log-Likelihood)

বর্ণনা: লগ-লাইক্লিহুড হল একটি মেট্রিক যা মডেলের পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। এটি প্রতিটি প্যারামিটার সেটের জন্য কতটা সম্ভাব্য ডেটা ফিট হবে তা দেখায়। এটি AIC এর মতো আরও একটি মেট্রিক হিসেবে ব্যবহৃত হতে পারে।


সারাংশ

AR(p) অর্ডার নির্বাচন করা টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ অংশ। AIC, PACF প্লট, ACF প্লট, ক্রস-ভ্যালিডেশন এবং লগ-লাইক্লিহুডের মতো পদ্ধতিগুলি ব্যবহার করে সঠিক AR(p) অর্ডার নির্বাচন করা যায়। সঠিক অর্ডার নির্বাচন করলে মডেলটি টাইম সিরিজের পরিবর্তনগুলিকে আরও ভালভাবে পূর্বাভাস দিতে সক্ষম হয়।

Content added By

AutoRegressive (AR) মডেল টাইম সিরিজ ডেটার পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যৎ মানের পূর্বাভাস দেওয়ার জন্য ব্যবহৃত একটি স্ট্যাটিস্টিক্যাল মডেল। AR মডেলটি বিশেষভাবে টাইম সিরিজ ডেটার ট্রেন্ড এবং গতানুগতিক সম্পর্ক চিহ্নিত করতে ব্যবহৃত হয়।

যেহেতু AR মডেল একটি লিনিয়ার মডেল, এর একটি প্রধান হাইপারপ্যারামিটার হল ল্যাগ সংখ্যা (lag order), যা পূর্ববর্তী টাইম পয়েন্টের সংখ্যা যা মডেল ভবিষ্যদ্বাণী করার জন্য ব্যবহার করবে। এই ল্যাগ সংখ্যা বা প্যারামিটার যথাযথভাবে নির্বাচন করা মডেলের কার্যকারিতা এবং পূর্বাভাসের সঠিকতা বাড়াতে সহায়ক।

AR মডেলের হাইপারপ্যারামিটার টিউনিংয়ের ধাপ:


১. ল্যাগ সংখ্যা (p) নির্বাচন

AR মডেলের প্রধান হাইপারপ্যারামিটার হল ল্যাগ সংখ্যা (p), যা মডেলটি কতগুলি পূর্ববর্তী মান (যেমন: p সময়ের আগের ডেটা পয়েন্ট) ব্যবহার করবে তা নির্ধারণ করে।

পদ্ধতি:

  • অটো-কোর্লেশন প্লট (ACF): অটো-কোর্লেশন প্লট বা PACF (Partial Autocorrelation Function) প্লট ব্যবহার করে ল্যাগ সংখ্যা চিহ্নিত করা যায়।
    • PACF: এটি নির্ধারণে সহায়ক যে কোন ল্যাগগুলি সরাসরি পূর্ববর্তী মানের সাথে সম্পর্কিত, এবং এটি AR মডেল নির্বাচনে সহায়ক।
  • AIC/BIC কমানো: Akaike Information Criterion (AIC) এবং Bayesian Information Criterion (BIC) ব্যবহার করে মডেলের কার্যকারিতা মূল্যায়ন করা হয়। ছোট AIC বা BIC মান পছন্দযোগ্য, যা মডেলের দক্ষতা এবং সাধারণীকরণের মধ্যে একটি ভাল ভারসাম্য রক্ষা করে।

PACF প্লট উদাহরণ (Python):

import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_pacf
import pandas as pd

# Time Series Data
data = pd.Series([100, 120, 150, 130, 160, 170, 180, 190])

# Plot PACF (Partial Autocorrelation Function)
plot_pacf(data, lags=6)
plt.show()

২. AIC/BIC ব্যবহার করা

AIC এবং BIC হল স্ট্যাটিস্টিক্যাল মডেল সিলেকশন টুল, যা মডেলের ফিট এবং সাধারণীকরণের মধ্যে ভারসাম্য খুঁজে পেতে সাহায্য করে। AR মডেলের জন্য এই মানের মাধ্যমে আপনি সর্বোত্তম ল্যাগ সংখ্যা নির্ধারণ করতে পারেন।

পদ্ধতি:

  • বিভিন্ন ল্যাগের জন্য AIC বা BIC বের করুন।
  • যত কম AIC বা BIC মান, তত ভাল মডেল।

AIC/BIC উদাহরণ (Python):

from statsmodels.tsa.ar_model import AutoReg

# Fit AR model for different lags and calculate AIC/BIC
model_1 = AutoReg(data, lags=1).fit()
model_2 = AutoReg(data, lags=2).fit()

# Compare AIC/BIC
print(f'AIC for lag 1: {model_1.aic}')
print(f'AIC for lag 2: {model_2.aic}')

৩. গ্রিড সার্চ (Grid Search)

গ্রিড সার্চ একটি অটোমেটেড পদ্ধতি যা বিভিন্ন হাইপারপ্যারামিটার সেটিংসের উপর ভিত্তি করে সেরা মডেল নির্বাচন করতে সহায়ক। এটি অনেক ল্যাগের জন্য AIC/BIC বা অন্যান্য মূল্যায়ন মেট্রিকের উপর ভিত্তি করে সেরা ল্যাগ সংখ্যা নির্ধারণ করতে সাহায্য করে।

পদ্ধতি:

  • নির্দিষ্ট ল্যাগ সংখ্যা পরিসর তৈরি করুন।
  • প্রতিটি ল্যাগের জন্য AR মডেল ফিট করুন এবং AIC/BIC মানগুলি তুলনা করুন।
  • সেরা ফলাফল পেতে আপনি কাস্টম স্কোরিং ফাংশন তৈরি করতে পারেন।

গ্রিড সার্চ উদাহরণ (Python):

import numpy as np
from sklearn.model_selection import GridSearchCV
from statsmodels.tsa.ar_model import AutoReg

# Grid search for lag values
lags = np.arange(1, 10)

best_aic = float('inf')
best_lag = None

for lag in lags:
    model = AutoReg(data, lags=lag).fit()
    if model.aic < best_aic:
        best_aic = model.aic
        best_lag = lag

print(f"Best lag: {best_lag} with AIC: {best_aic}")

৪. মডেল ফিট এবং ফলাফল মূল্যায়ন

একবার হাইপারপ্যারামিটার (ল্যাগ সংখ্যা) নির্বাচন করা হলে, মডেলটির ফিট এবং ফলাফল মূল্যায়ন করা হয়। এটি মূলত পরীক্ষা ডেটা সেটে মডেলের পূর্বাভাস এবং প্রকৃত মানের মধ্যে পার্থক্য চেক করা।

পদ্ধতি:

  • মিন স্কোয়ার্ড এরর (MSE), রুট মিন স্কোয়ার্ড এরর (RMSE) বা Mean Absolute Error (MAE) দিয়ে মডেলের পূর্বাভাসের সঠিকতা যাচাই করা।
  • ভবিষ্যত মানের জন্য মডেলটি ব্যবহার করে পূর্বাভাস তৈরি করা।

ফলাফল মূল্যায়ন উদাহরণ (Python):

from sklearn.metrics import mean_squared_error
import numpy as np

# Split data into training and testing
train_data = data[:-10]
test_data = data[-10:]

# Fit AR model with optimal lag (let's say lag=2)
model = AutoReg(train_data, lags=2).fit()

# Make predictions
predictions = model.predict(start=len(train_data), end=len(train_data) + len(test_data) - 1)

# Calculate MSE
mse = mean_squared_error(test_data, predictions)
rmse = np.sqrt(mse)
print(f'RMSE: {rmse}')

সারাংশ

AR মডেলের হাইপারপ্যারামিটার টিউনিং মূলত ল্যাগ সংখ্যা (p) নির্ধারণের উপর গুরুত্ব দেয়। ল্যাগ সংখ্যা নির্ধারণে PACF প্লট, AIC/BIC, এবং গ্রিড সার্চ ব্যবহার করা হয়। সঠিক ল্যাগ নির্বাচন করে মডেলের পারফরমেন্স উন্নত করা যেতে পারে, যা পূর্বাভাসের সঠিকতা বাড়ায়।

Content added By
Promotion

Are you sure to start over?

Loading...