অটো-রেগ্রেসিভ (AR) মডেল হল টাইম সিরিজ ডেটার একটি জনপ্রিয় পরিসংখ্যানিক মডেল, যা পূর্ববর্তী সময়ের মানগুলির উপর ভিত্তি করে ভবিষ্যতের মান অনুমান করার জন্য ব্যবহৃত হয়। অটো-রেগ্রেসিভ শব্দটি দুটি ভাগে বিভক্ত:
- অটো (Auto): সময়ের সাথে সম্পর্কিত।
- রেগ্রেসিভ (Regressive): পূর্ববর্তী মানগুলির উপর ভিত্তি করে ভবিষ্যৎ মানের পূর্বাভাস।
এই মডেলটি পূর্ববর্তী মানগুলির উপর ভিত্তি করে ভবিষ্যতের মান পূর্বাভাস দেয় এবং এটি একটি লিনিয়ার মডেল যা টাইম সিরিজের ভবিষ্যতের মান পূর্ববর্তী কিছু মানের একটি লিনিয়ার সংমিশ্রণ হিসেবে অনুমান করে।
AR মডেলের মৌলিক ধারণা
অটো-রেগ্রেসিভ (AR) মডেল একটি লিনিয়ার রিগ্রেশন মডেল যা টাইম সিরিজের নির্দিষ্ট পর্যবেক্ষণ বা ল্যাগ (lag) এর উপর ভিত্তি করে ভবিষ্যতের মানের পূর্বাভাস তৈরি করে। এটি AR(p) মডেল হিসেবে পরিচিত, যেখানে p হল ল্যাগ এর সংখ্যা বা পূর্ববর্তী পর্যবেক্ষণের সংখ্যা।
AR(p) মডেলের সাধারণ ফর্মুলা:
এখানে,
- = বর্তমান সময়ের মান (যেমন: -তম পয়েন্ট)
- = কনস্ট্যান্ট (মুল্য)
- = অটো-রেগ্রেসিভ কোফিশিয়েন্ট, যা পূর্ববর্তী ল্যাগগুলির উপর ভিত্তি করে অনুমান করা হয়।
- = পূর্ববর্তী পর্যবেক্ষণ (ল্যাগ)
- = ত্রুটি বা র্যান্ডম শক, যা মডেলের ব্যতিক্রমী ভেরিয়েশন বা শকগুলোকে বোঝায়।
AR মডেলের প্রধান উপাদান
- ল্যাগ (Lag):
- AR মডেলটি পূর্ববর্তী সময়ের পর্যবেক্ষণগুলি ব্যবহার করে বর্তমান সময়ের মান অনুমান করে।
- p মানে হল যে মডেলটি কতগুলি পূর্ববর্তী সময়ের মান ব্যবহার করবে (যেমন, হলে শুধু আগের মান ব্যবহার হবে)।
- অটো-কোর্লেশন (Autocorrelation):
- AR মডেলটি টাইম সিরিজের পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যত পূর্বাভাস করতে থাকে, যেখানে অটো-কোর্লেশন পরীক্ষা করে কীভাবে দুটি পর্যবেক্ষণের মধ্যে সম্পর্ক (correlation) রয়েছে।
- অপেক্ষিকতা (Stationarity):
- AR মডেল কার্যকরভাবে কাজ করতে হলে টাইম সিরিজটি স্টেশনারি হতে হবে। এর মানে হল যে ডেটার গড় এবং ভ্যারিয়েন্স সময়ের সাথে অপরিবর্তিত থাকতে হবে। স্টেশনারি না হলে ডেটা প্রিপ্রসেসিং করতে হবে (যেমন ডিফারেন্সিং বা ট্রান্সফরমেশন)।
AR মডেলের উদাহরণ
ধরা যাক আমাদের কাছে একটি স্টক মার্কেটের মূল্য রয়েছে এবং আমরা পূর্ববর্তী এক দিনের মান ব্যবহার করে আগামী দিনের মূল্য পূর্বাভাস করতে চাই। এই ক্ষেত্রে হবে, কারণ আমরা শুধুমাত্র গত দিনের স্টক মূল্যকে বর্তমান দিন অনুমান করতে ব্যবহার করব।
AR(1) মডেলের সাধারণ ফর্মুলা:
এখানে,
- = বর্তমান দিনের স্টক মূল্য
- = গত দিনের স্টক মূল্য
- = AR কোফিশিয়েন্ট, যা গত দিনের স্টক মূল্যের প্রভাব নির্ধারণ করবে
- = ত্রুটি বা শক
AR মডেল ব্যবহার করার জন্য ধাপসমূহ
- ডেটা সংগ্রহ: প্রথমে টাইম সিরিজ ডেটা সংগ্রহ করুন, যেমন প্রতিদিনের স্টক মার্কেট মূল্য বা মাসিক বিক্রয়।
- স্টেশনারিটি পরীক্ষা: টাইম সিরিজটি স্টেশনারি কিনা তা পরীক্ষা করুন (ADF টেস্ট বা KPSS টেস্ট ব্যবহার করা হয়)।
- ল্যাগ নির্বাচন: AR(p) মডেলটির জন্য উপযুক্ত ল্যাগ () নির্বাচন করুন। এটি ACF (Auto Correlation Function) বা PACF (Partial Auto Correlation Function) গ্রাফের মাধ্যমে নির্ধারণ করা যায়।
- মডেল প্রশিক্ষণ: AR মডেলটি ফিট করুন এবং এর পারামিটারগুলো (যেমন ) অনুমান করুন।
- পূর্বাভাস তৈরি: প্রশিক্ষিত মডেল ব্যবহার করে ভবিষ্যতের মান পূর্বাভাস তৈরি করুন।
সারাংশ
অটো-রেগ্রেসিভ (AR) মডেল একটি টাইম সিরিজ মডেল যা পূর্ববর্তী সময়ের মানের উপর ভিত্তি করে ভবিষ্যতের মান অনুমান করে। AR মডেলটি স্টেশনারি টাইম সিরিজের জন্য কার্যকর এবং এটি ল্যাগ ভিত্তিক পূর্বাভাস তৈরি করে। AR মডেল বিভিন্ন ধরণের টাইম সিরিজ ডেটা বিশ্লেষণ এবং পূর্বাভাসের জন্য ব্যবহৃত হয়, যেমন স্টক মার্কেট, বিক্রয় তথ্য, আবহাওয়া ইত্যাদি।
অটো-রেগ্রেসিভ মডেল (AR) একটি টাইম সিরিজ মডেল যা বর্তমান মানের পূর্ববর্তী মানগুলোর উপর ভিত্তি করে ভবিষ্যত মানের পূর্বাভাস তৈরি করে। এই মডেলটি টাইম সিরিজ ডেটার অটো-কোর্লেশন বা স্ব-কোরেলেশন ব্যবহার করে, যার মাধ্যমে বর্তমান মান এবং অতীত মানের সম্পর্ক নির্ধারণ করা হয়। অটো-রেগ্রেসিভ মডেলটি মূলত লিনিয়ার এবং স্টেশনারি টাইম সিরিজ ডেটার জন্য ব্যবহৃত হয়।
AR মডেলের মূল ধারণা
অটো-রেগ্রেসিভ মডেল (AR) এমন একটি মডেল যা টাইম সিরিজের বর্তমান মানকে পূর্ববর্তী মানগুলোর একটি লিনিয়ার ফাংশন হিসেবে প্রকাশ করে। সাধারণভাবে, এটি বলা হয় যে একটি টাইম সিরিজের মান শুধুমাত্র তার পূর্ববর্তী কিছু মানের উপর নির্ভরশীল।
AR(p) মডেলটি টাইম সিরিজের বর্তমান মানকে পূর্ববর্তী p মানের উপর নির্ভরশীল করে। এটি নিচের রূপে লেখা যেতে পারে:
এখানে:
- হল বর্তমান সময় পয়েন্টের মান।
- হল মডেলের প্যারামিটার বা কোইফিশিয়েন্ট।
- হল আগের সময় পয়েন্টের মান।
- হল ত্রুটি বা রেসিডুয়াল (error term), যা মডেল দ্বারা ব্যাখ্যা করা যায় না এমন অংশ।
AR(p) মডেল বোঝার জন্য কিছু উদাহরণ:
AR(1) মডেল: শুধুমাত্র একটি আগের সময় পয়েন্টের উপর নির্ভরশীল। অর্থাৎ, বর্তমান মান শুধুমাত্র আগের সময় পয়েন্টের মানের উপর নির্ভর করবে।
AR(2) মডেল: বর্তমান মান পূর্ববর্তী দুইটি সময় পয়েন্টের উপর নির্ভরশীল হবে।
AR মডেলের বৈশিষ্ট্য
- স্টেশনারিটি: AR মডেলটি স্টেশনারি টাইম সিরিজের জন্য সবচেয়ে কার্যকর। যদি টাইম সিরিজে ট্রেন্ড বা সিজনাল প্যাটার্ন থাকে, তবে সেগুলি সরিয়ে স্টেশনারি করার পর AR মডেলটি প্রয়োগ করা উচিত।
- অটো-কোর্লেশন: AR মডেলটি টাইম সিরিজের মধ্যে অটো-কোর্লেশন বা আত্মসম্বন্ধ চিহ্নিত করে। এটি বোঝায় যে বর্তমান মান পূর্ববর্তী মানের সাথে সম্পর্কিত থাকে।
- প্যারামিটার নির্বাচন: AR মডেলের জন্য আদর্শ প্যারামিটার সংখ্যা (p) নির্বাচন করতে আটচিসন ইনফর্মেশন ক্রাইটেরিয়া (AIC) বা বায়েসিয়ান ইনফর্মেশন ক্রাইটেরিয়া (BIC) ব্যবহার করা হয়।
AR মডেলের সুবিধা এবং অসুবিধা
সুবিধা:
- সহজ এবং লিনিয়ার মডেল হওয়ায় বিশ্লেষণ সহজ।
- পূর্ববর্তী সময় পয়েন্টের উপর নির্ভরশীলতা ভালোভাবে মডেল করতে সক্ষম।
অসুবিধা:
- যদি টাইম সিরিজে অনেক লম্বা গতির প্যাটার্ন থাকে, তবে AR মডেলটি তা যথাযথভাবে মডেলিং করতে পারে না।
- শুধুমাত্র স্টেশনারি টাইম সিরিজের জন্য কার্যকর।
সারাংশ
অটো-রেগ্রেসিভ (AR) মডেল হল একটি টাইম সিরিজ মডেল যা বর্তমান মানের পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যত মানের পূর্বাভাস তৈরি করে। এটি টাইম সিরিজের অটো-কোর্লেশন ব্যবহারে সক্ষম এবং সাধারণত স্টেশনারি ডেটার জন্য ব্যবহৃত হয়। AR মডেলটি একটি শক্তিশালী সরঞ্জাম, তবে এটি সঠিকভাবে কাজ করার জন্য টাইম সিরিজকে স্টেশনারি করতে হয় এবং এটি শুধুমাত্র লিনিয়ার সম্পর্কগুলির জন্য উপযুক্ত।
AR মডেল (AutoRegressive Model) হলো টাইম সিরিজ বিশ্লেষণের একটি জনপ্রিয় মডেল, যা পূর্ববর্তী পর্যবেক্ষণের উপর ভিত্তি করে বর্তমান পর্যবেক্ষণকে অনুমান করতে ব্যবহৃত হয়। এটি AutoRegressive (অটো-রিগ্রেসিভ) নামের ভিত্তিতে কাজ করে, যেখানে "অটো" অর্থাৎ নিজস্ব পূর্ববর্তী মান ব্যবহার করা হয় এবং "রিগ্রেসিভ" অর্থাৎ একটি নির্দিষ্ট ল্যাগ (lag) ব্যবহৃত হয়।
AR মডেলটি মূলত টাইম সিরিজের মানগুলির সম্পর্ককে পর্যবেক্ষণ করে, অর্থাৎ একটি ডেটা পয়েন্ট পূর্ববর্তী সময়ের ডেটা পয়েন্টগুলির সাথে সম্পর্কিত হয়। AR মডেলটি লিনিয়ার রিগ্রেশন (Linear Regression) এর মতো কাজ করে, তবে এখানে বর্তমান মান পূর্ববর্তী মানের উপর নির্ভরশীল থাকে।
AR মডেলের সাধারণ ফর্মুলা
AR মডেলের সাধারণ ফর্মটি নিম্নরূপ:
এখানে:
- হলো বর্তমান সময়ের মান।
- হলো কনস্ট্যান্ট বা স্বাভাবিক মান।
- হলো মডেল প্যারামিটার, যা পূর্ববর্তী সময়ের ডেটার উপর প্রভাব ফেলে।
- হলো পূর্ববর্তী সময়ের মান (ল্যাগ ১ থেকে পর্যন্ত)।
- হলো হোয়াইট নয়েজ বা র্যান্ডম ত্রুটি (error term)।
AR মডেলটির কার্যপ্রণালী:
- ডেটার পূর্ববর্তী মানের উপর নির্ভরশীলতা: AR মডেলটি একটি নির্দিষ্ট ল্যাগ (lag) পিরিয়ডের জন্য পূর্ববর্তী সময়ের মানের ওপর ভিত্তি করে বর্তমান মানকে অনুমান করে। অর্থাৎ, টাইম সিরিজের প্যাটার্ন বা ট্রেন্ড পূর্ববর্তী মান দ্বারা প্রভাবিত হয়।
- প্যারামিটারগুলির অনুমান: AR মডেলের প্যারামিটারগুলি (যেমন ) অনুমান করা হয়। এই প্যারামিটারগুলি মডেলের শক্তি এবং কার্যকারিতা নির্ধারণ করে। এগুলির মান সাধারণত অটোকরিলেশন (Autocorrelation) বা পার্সোনের কোএফিশিয়েন্ট (Pearson's Coefficient) এর মাধ্যমে নির্ধারণ করা হয়।
- হোয়াইট নয়েজ (White Noise): AR মডেল সাধারণত হোয়াইট নয়েজ উপাদান () অন্তর্ভুক্ত করে, যা র্যান্ডম ত্রুটি হিসেবে কাজ করে এবং মডেলের পূর্বাভাসে থাকা ত্রুটিকে ধারণ করে।
AR মডেলের উপকারিতা:
- সহজ মডেল: AR মডেলটি তুলনামূলকভাবে সহজ এবং এর মাধ্যমে টাইম সিরিজের পূর্ববর্তী মানের সম্পর্ক বিশ্লেষণ করা যায়।
- অল্প পরিমাণ ডেটার প্রয়োজন: AR মডেলটি ছোট ডেটা সেটেও কার্যকরভাবে কাজ করতে পারে, যদি ডেটা পূর্ববর্তী মানের সাথে সোজাসুজি সম্পর্কিত হয়।
- প্রতিক্রিয়া সম্পর্ক বিশ্লেষণ: এটি একটি টাইম সিরিজের পূর্ববর্তী পয়েন্টগুলির মধ্যে সম্পর্কগুলি বুঝতে সাহায্য করে।
AR মডেলের সীমাবদ্ধতা:
- লিনিয়ার সম্পর্ক: AR মডেলটি শুধুমাত্র লিনিয়ার সম্পর্ক বিশ্লেষণ করতে সক্ষম, তাই যদি টাইম সিরিজে নন-লিনিয়ার সম্পর্ক থাকে, তবে এটি ভালোভাবে কাজ নাও করতে পারে।
- ট্রেন্ড এবং সিজনালিটি: AR মডেলটি সাধারণত ট্রেন্ড বা সিজনাল প্যাটার্ন বিশ্লেষণ করতে সক্ষম নয়। এই সমস্যাগুলির জন্য বিশেষভাবে SARIMA (Seasonal ARIMA) মডেল ব্যবহৃত হয়।
- বহু ল্যাগের প্রয়োজন: কিছু ক্ষেত্রে টাইম সিরিজের জন্য অনেক ল্যাগ প্রয়োজন হতে পারে, যা মডেলকে জটিল করে তুলতে পারে এবং অতিরিক্ত প্যারামিটার অনুমান প্রয়োজন।
AR মডেলের উদাহরণ:
ধরা যাক, একটি কোম্পানির মাসিক বিক্রয় তথ্য রয়েছে, এবং আপনি এই বিক্রয় পরিসংখ্যানের জন্য AR মডেল প্রয়োগ করতে চান। আপনি যদি AR(1) মডেল ব্যবহার করেন, তবে বর্তমান বিক্রয় মানটি পূর্ববর্তী মাসের বিক্রয় মানের সাথে সম্পর্কিত হবে। এটি হতে পারে এমনভাবে:
এখানে বর্তমান মাসের বিক্রয়, এবং হলো পূর্ববর্তী মাসের বিক্রয়।
সারাংশ
AR (AutoRegressive) মডেলটি একটি টাইম সিরিজ মডেল যা পূর্ববর্তী মানের উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস তৈরি করে। এটি সাধারণত লিনিয়ার সম্পর্ক বিশ্লেষণ করে এবং সময়ের সাথে সম্পর্কিত ডেটাকে বিশ্লেষণ করতে ব্যবহৃত হয়। AR মডেলটি সহজ এবং কার্যকর হলেও, এটি কিছু সীমাবদ্ধতা রাখে, যেমন নন-লিনিয়ার সম্পর্ক এবং সিজনাল প্যাটার্ন বিশ্লেষণের ক্ষেত্রে সমস্যা হতে পারে।
অটো-রিগ্রেসিভ মডেল (AR) হল টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ অংশ, যা পূর্ববর্তী সময় পয়েন্টগুলির উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস তৈরি করে। এটি একটি স্ট্যাটিস্টিক্যাল মডেল, যেখানে "p" হল অর্ডার, অর্থাৎ কতটি পূর্ববর্তী সময় পয়েন্টের উপর ভিত্তি করে বর্তমান মান পূর্বানুমান করা হবে।
একটি AR(p) মডেলে, বর্তমান মান পেছনের pটি মানের সমন্বয়ে গণনা করা হয়, এবং এটি নিচের রূপে লেখা হয়:
এখানে:
- : বর্তমান সময় পয়েন্টের মান
- : প্যারামিটার বা কোইফিসিয়েন্ট
- : ত্রুটি (error term)
অর্থাৎ, হল সময় পয়েন্টগুলির সংখ্যা, যার উপর ভিত্তি করে বর্তমান মানের পূর্বাভাস করা হয়।
AR(p) অর্ডার নির্বাচন
AR(p) মডেলটি একটি টাইম সিরিজ ডেটার উপর মানানসই করার জন্য সঠিক অর্ডার নির্বাচন করা গুরুত্বপূর্ণ। সঠিক অর্ডার নির্বাচন না হলে মডেলটি ভালভাবে কাজ নাও করতে পারে, এবং অতিরিক্ত বা কম অর্ডার মডেল কার্যকর হতে পারে না।
নিম্নলিখিত পদ্ধতিগুলি AR(p) অর্ডার নির্বাচন করতে সহায়ক হতে পারে:
১. আটচি-কোশিন ইনফরমেশন ক্রাইটেরিয়া (AIC)
বর্ণনা: AIC একটি জনপ্রিয় ক্রাইটেরিয়া, যা একটি মডেলের সঠিকতা এবং কমপ্লেক্সিটির মধ্যে একটি ব্যালান্স খুঁজে পেতে সাহায্য করে। এটি মডেলটির ফিটিং গুণমান এবং প্যারামিটার সংখ্যা উভয়কে বিচার করে। ছোট AIC মান ভাল মডেল নির্দেশ করে।
AIC এর সূত্র:
এখানে:
- হল ত্রুটির বৈচিত্র্য,
- হল প্যারামিটার সংখ্যা,
- হল ডেটা পয়েন্টের সংখ্যা।
যেভাবে ব্যবহার করবেন:
- AIC এর মান কম হলে সেটি সর্বোত্তম মডেল নির্দেশ করে। একাধিক অর্ডার (p) এর জন্য AIC তুলনা করুন এবং কম AIC সহ মডেলটি নির্বাচন করুন।
২. বিক্রিয়া বা বিগ-ও (PACF) প্লট
বর্ণনা: PACF (Partial Autocorrelation Function) প্লটটি AR(p) মডেল তৈরির জন্য একটি কার্যকর উপায়। PACF প্লটটি প্রতিটি ল্যাগের জন্য অটো-কোর্লেশন দেখায় এবং নির্ধারণ করতে সহায়ক যে কোন পয়েন্টে অটো-কোর্লেশন হ্রাস পাচ্ছে।
PACF প্লট ব্যবহার:
- PACF প্লটের মধ্যে যেখানে প্রথম অটো-কোর্সশন হ্রাস পায়, সেই ল্যাগটি সাধারণত AR(p) মডেলের জন্য নির্বাচিত অর্ডার (p) নির্দেশ করে।
৩. বিক্রিয়া (ACF) প্লট
বর্ণনা: ACF (Autocorrelation Function) প্লটটি টাইম সিরিজ ডেটার অটো-কোর্সশনের মাত্রা দেখায়। AR মডেলের জন্য ACF এবং PACF প্লট ব্যবহার করে অর্ডার নির্বাচন করা যায়।
ACF প্লট ব্যবহার:
- যদি ACF প্লটের প্রথম কয়েকটি ল্যাগে উল্লেখযোগ্য অটো-কোর্সশন থাকে এবং এরপর সেগুলি দ্রুত শূন্যে চলে আসে, তবে তা AR মডেলকে নির্দেশ করতে পারে।
৪. ক্রস-ভ্যালিডেশন (Cross-Validation)
বর্ণনা: ক্রস-ভ্যালিডেশন হল একটি মডেল নির্বাচন পদ্ধতি যেখানে ডেটা সেটটিকে একাধিক ছোট অংশে বিভক্ত করা হয় এবং মডেলটি প্রতিটি অংশের জন্য পরীক্ষা করা হয়। এভাবে মডেলের পারফরম্যান্সের নির্ভরযোগ্য অনুমান করা যায়।
ক্রস-ভ্যালিডেশন ব্যবহার:
- মডেলটি নির্বাচন করতে বিভিন্ন অর্ডার (p) এর জন্য ক্রস-ভ্যালিডেশন ব্যবহার করুন এবং যে অর্ডারটি সবচেয়ে ভাল পারফর্ম করবে সেটি নির্বাচন করুন।
৫. লগ-লাইক্লিহুড (Log-Likelihood)
বর্ণনা: লগ-লাইক্লিহুড হল একটি মেট্রিক যা মডেলের পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। এটি প্রতিটি প্যারামিটার সেটের জন্য কতটা সম্ভাব্য ডেটা ফিট হবে তা দেখায়। এটি AIC এর মতো আরও একটি মেট্রিক হিসেবে ব্যবহৃত হতে পারে।
সারাংশ
AR(p) অর্ডার নির্বাচন করা টাইম সিরিজ মডেলিংয়ের একটি গুরুত্বপূর্ণ অংশ। AIC, PACF প্লট, ACF প্লট, ক্রস-ভ্যালিডেশন এবং লগ-লাইক্লিহুডের মতো পদ্ধতিগুলি ব্যবহার করে সঠিক AR(p) অর্ডার নির্বাচন করা যায়। সঠিক অর্ডার নির্বাচন করলে মডেলটি টাইম সিরিজের পরিবর্তনগুলিকে আরও ভালভাবে পূর্বাভাস দিতে সক্ষম হয়।
AutoRegressive (AR) মডেল টাইম সিরিজ ডেটার পূর্ববর্তী মানের উপর ভিত্তি করে ভবিষ্যৎ মানের পূর্বাভাস দেওয়ার জন্য ব্যবহৃত একটি স্ট্যাটিস্টিক্যাল মডেল। AR মডেলটি বিশেষভাবে টাইম সিরিজ ডেটার ট্রেন্ড এবং গতানুগতিক সম্পর্ক চিহ্নিত করতে ব্যবহৃত হয়।
যেহেতু AR মডেল একটি লিনিয়ার মডেল, এর একটি প্রধান হাইপারপ্যারামিটার হল ল্যাগ সংখ্যা (lag order), যা পূর্ববর্তী টাইম পয়েন্টের সংখ্যা যা মডেল ভবিষ্যদ্বাণী করার জন্য ব্যবহার করবে। এই ল্যাগ সংখ্যা বা প্যারামিটার যথাযথভাবে নির্বাচন করা মডেলের কার্যকারিতা এবং পূর্বাভাসের সঠিকতা বাড়াতে সহায়ক।
AR মডেলের হাইপারপ্যারামিটার টিউনিংয়ের ধাপ:
১. ল্যাগ সংখ্যা (p) নির্বাচন
AR মডেলের প্রধান হাইপারপ্যারামিটার হল ল্যাগ সংখ্যা (p), যা মডেলটি কতগুলি পূর্ববর্তী মান (যেমন: p সময়ের আগের ডেটা পয়েন্ট) ব্যবহার করবে তা নির্ধারণ করে।
পদ্ধতি:
- অটো-কোর্লেশন প্লট (ACF): অটো-কোর্লেশন প্লট বা PACF (Partial Autocorrelation Function) প্লট ব্যবহার করে ল্যাগ সংখ্যা চিহ্নিত করা যায়।
- PACF: এটি নির্ধারণে সহায়ক যে কোন ল্যাগগুলি সরাসরি পূর্ববর্তী মানের সাথে সম্পর্কিত, এবং এটি AR মডেল নির্বাচনে সহায়ক।
- AIC/BIC কমানো: Akaike Information Criterion (AIC) এবং Bayesian Information Criterion (BIC) ব্যবহার করে মডেলের কার্যকারিতা মূল্যায়ন করা হয়। ছোট AIC বা BIC মান পছন্দযোগ্য, যা মডেলের দক্ষতা এবং সাধারণীকরণের মধ্যে একটি ভাল ভারসাম্য রক্ষা করে।
PACF প্লট উদাহরণ (Python):
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_pacf
import pandas as pd
# Time Series Data
data = pd.Series([100, 120, 150, 130, 160, 170, 180, 190])
# Plot PACF (Partial Autocorrelation Function)
plot_pacf(data, lags=6)
plt.show()
২. AIC/BIC ব্যবহার করা
AIC এবং BIC হল স্ট্যাটিস্টিক্যাল মডেল সিলেকশন টুল, যা মডেলের ফিট এবং সাধারণীকরণের মধ্যে ভারসাম্য খুঁজে পেতে সাহায্য করে। AR মডেলের জন্য এই মানের মাধ্যমে আপনি সর্বোত্তম ল্যাগ সংখ্যা নির্ধারণ করতে পারেন।
পদ্ধতি:
- বিভিন্ন ল্যাগের জন্য AIC বা BIC বের করুন।
- যত কম AIC বা BIC মান, তত ভাল মডেল।
AIC/BIC উদাহরণ (Python):
from statsmodels.tsa.ar_model import AutoReg
# Fit AR model for different lags and calculate AIC/BIC
model_1 = AutoReg(data, lags=1).fit()
model_2 = AutoReg(data, lags=2).fit()
# Compare AIC/BIC
print(f'AIC for lag 1: {model_1.aic}')
print(f'AIC for lag 2: {model_2.aic}')
৩. গ্রিড সার্চ (Grid Search)
গ্রিড সার্চ একটি অটোমেটেড পদ্ধতি যা বিভিন্ন হাইপারপ্যারামিটার সেটিংসের উপর ভিত্তি করে সেরা মডেল নির্বাচন করতে সহায়ক। এটি অনেক ল্যাগের জন্য AIC/BIC বা অন্যান্য মূল্যায়ন মেট্রিকের উপর ভিত্তি করে সেরা ল্যাগ সংখ্যা নির্ধারণ করতে সাহায্য করে।
পদ্ধতি:
- নির্দিষ্ট ল্যাগ সংখ্যা পরিসর তৈরি করুন।
- প্রতিটি ল্যাগের জন্য AR মডেল ফিট করুন এবং AIC/BIC মানগুলি তুলনা করুন।
- সেরা ফলাফল পেতে আপনি কাস্টম স্কোরিং ফাংশন তৈরি করতে পারেন।
গ্রিড সার্চ উদাহরণ (Python):
import numpy as np
from sklearn.model_selection import GridSearchCV
from statsmodels.tsa.ar_model import AutoReg
# Grid search for lag values
lags = np.arange(1, 10)
best_aic = float('inf')
best_lag = None
for lag in lags:
model = AutoReg(data, lags=lag).fit()
if model.aic < best_aic:
best_aic = model.aic
best_lag = lag
print(f"Best lag: {best_lag} with AIC: {best_aic}")
৪. মডেল ফিট এবং ফলাফল মূল্যায়ন
একবার হাইপারপ্যারামিটার (ল্যাগ সংখ্যা) নির্বাচন করা হলে, মডেলটির ফিট এবং ফলাফল মূল্যায়ন করা হয়। এটি মূলত পরীক্ষা ডেটা সেটে মডেলের পূর্বাভাস এবং প্রকৃত মানের মধ্যে পার্থক্য চেক করা।
পদ্ধতি:
- মিন স্কোয়ার্ড এরর (MSE), রুট মিন স্কোয়ার্ড এরর (RMSE) বা Mean Absolute Error (MAE) দিয়ে মডেলের পূর্বাভাসের সঠিকতা যাচাই করা।
- ভবিষ্যত মানের জন্য মডেলটি ব্যবহার করে পূর্বাভাস তৈরি করা।
ফলাফল মূল্যায়ন উদাহরণ (Python):
from sklearn.metrics import mean_squared_error
import numpy as np
# Split data into training and testing
train_data = data[:-10]
test_data = data[-10:]
# Fit AR model with optimal lag (let's say lag=2)
model = AutoReg(train_data, lags=2).fit()
# Make predictions
predictions = model.predict(start=len(train_data), end=len(train_data) + len(test_data) - 1)
# Calculate MSE
mse = mean_squared_error(test_data, predictions)
rmse = np.sqrt(mse)
print(f'RMSE: {rmse}')
সারাংশ
AR মডেলের হাইপারপ্যারামিটার টিউনিং মূলত ল্যাগ সংখ্যা (p) নির্ধারণের উপর গুরুত্ব দেয়। ল্যাগ সংখ্যা নির্ধারণে PACF প্লট, AIC/BIC, এবং গ্রিড সার্চ ব্যবহার করা হয়। সঠিক ল্যাগ নির্বাচন করে মডেলের পারফরমেন্স উন্নত করা যেতে পারে, যা পূর্বাভাসের সঠিকতা বাড়ায়।
Read more