PROC REG একটি গুরুত্বপূর্ণ SAS procedure যা লিনিয়ার রিগ্রেশন মডেল তৈরি করতে ব্যবহৃত হয়। লিনিয়ার রিগ্রেশন একটি পরিসংখ্যানগত পদ্ধতি, যা নির্দিষ্ট এক বা একাধিক স্বাধীন ভেরিয়েবলের (independent variables) মাধ্যমে একটি নির্ভরশীল ভেরিয়েবলের (dependent variable) মান পূর্বাভাস বা অনুমান করতে ব্যবহৃত হয়।
লিনিয়ার রিগ্রেশন মডেলটি সাধারণত নীচের সমীকরণের মাধ্যমে প্রকাশ করা হয়:
এখানে:
- Y: নির্ভরশীল ভেরিয়েবল (dependent variable)
- X₁, X₂, ... Xₙ: স্বাধীন ভেরিয়েবল (independent variables)
- β₀, β₁, β₂, ... βₙ: রিগ্রেশন কোঅফিসিয়েন্ট (regression coefficients)
- ε: ত্রুটি বা বাকি অংশ (error term)
PROC REG এর মাধ্যমে Linear Regression মডেল তৈরি
SAS-এ PROC REG ব্যবহার করে সহজেই লিনিয়ার রিগ্রেশন মডেল তৈরি করা যায়। এখানে আমরা একটি উদাহরণ দিয়ে দেখব কিভাবে PROC REG ব্যবহার করা হয়।
PROC REG এর মৌলিক সিনট্যাক্স
PROC REG DATA=dataset_name;
MODEL dependent_variable = independent_variables;
RUN;
- DATA=dataset_name: যেখানে আপনার ডেটাসেট সংরক্ষিত আছে।
- MODEL dependent_variable = independent_variables: এখানে আপনি নির্ভরশীল ভেরিয়েবল এবং স্বাধীন ভেরিয়েবলের নাম উল্লেখ করবেন।
উদাহরণ: Simple Linear Regression
ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে যেখানে Sales (বিক্রয়) নির্ভরশীল ভেরিয়েবল এবং Advertising (বিজ্ঞাপন খরচ) একটি স্বাধীন ভেরিয়েবল হিসেবে রয়েছে। আমাদের উদ্দেশ্য হল বিজ্ঞাপন খরচের উপর ভিত্তি করে বিক্রয়ের পূর্বাভাস তৈরি করা।
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising;
RUN;
এখানে:
- Sales হল নির্ভরশীল ভেরিয়েবল (Y)।
- Advertising হল স্বাধীন ভেরিয়েবল (X)।
- এই কোডটি একটি সিম্পল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং বিজ্ঞাপন খরচের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।
Multiple Linear Regression
যদি একাধিক স্বাধীন ভেরিয়েবল থাকে, তবে Multiple Linear Regression তৈরি করা যায়। উদাহরণস্বরূপ, যদি আমাদের কাছে বিক্রয় (Sales) এবং বিজ্ঞাপন খরচ (Advertising), দাম (Price), এবং মৌসুম (Season) নামে আরো কিছু স্বাধীন ভেরিয়েবল থাকে, তবে কোডটি হবে:
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising Price Season;
RUN;
এখানে:
- Sales হল নির্ভরশীল ভেরিয়েবল।
- Advertising, Price, এবং Season হল স্বাধীন ভেরিয়েবল।
এই কোডটি একটি মাল্টিপল লিনিয়ার রিগ্রেশন মডেল তৈরি করবে, যেখানে বিক্রয় এবং অন্যান্য ফ্যাক্টরের মধ্যে সম্পর্ক বিশ্লেষণ করা হবে।
Output এবং গুরুত্বপূর্ণ পরিসংখ্যান
PROC REG এর আউটপুটে অনেক গুরুত্বপূর্ণ পরিসংখ্যান পাওয়া যায়, যা মডেলের কার্যকারিতা মূল্যায়ন করতে সহায়ক। কিছু গুরুত্বপূর্ণ আউটপুট:
- Parameter Estimates:
- রিগ্রেশন কোঅফিসিয়েন্ট এবং তাদের মান।
- R-Square:
- মডেলটি কতটুকু বৈশ্বিক ভ্যারিয়েশন ব্যাখ্যা করতে সক্ষম (যত বেশি R², তত ভালো মডেল)।
- p-Value:
- প্রতিটি স্বাধীন ভেরিয়েবলের গুরুত্বপূর্ণতা পরীক্ষা করতে ব্যবহৃত হয়। সাধারনত p-value ≤ 0.05 মানে সেই ভেরিয়েবল গুরুত্বপূর্ণ।
- F-statistic:
- পুরো মডেলের কার্যকারিতা পরীক্ষা করতে ব্যবহৃত হয়।
উদাহরণ: বিশ্লেষণ আউটপুট
PROC REG DATA=work.sales_data;
MODEL Sales = Advertising Price Season;
OUTPUT OUT=work.reg_output PREDICTED=predicted_values RESIDUAL=residuals;
RUN;
এখানে:
- PREDICTED: মডেল দ্বারা পূর্বাভাসিত মান।
- RESIDUAL: পূর্বাভাসিত মান এবং আসল মানের মধ্যে পার্থক্য (ত্রুটি)।
এই কোডটি একটি নতুন ডেটাসেট তৈরি করবে যার মধ্যে পূর্বাভাসিত মান এবং ত্রুটিগুলি থাকবে।
সারাংশ
SAS-এ PROC REG ব্যবহার করে লিনিয়ার রিগ্রেশন মডেল তৈরি করা খুবই সহজ। এটি ডেটা বিশ্লেষণে একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক চিহ্নিত করতে সহায়তা করে। আপনি Simple Linear Regression (একটি স্বাধীন ভেরিয়েবল) এবং Multiple Linear Regression (একাধিক স্বাধীন ভেরিয়েবল) করতে পারেন।
- R-Square এবং p-Value সহ গুরুত্বপূর্ণ পরিসংখ্যান বিশ্লেষণ মডেলের কার্যকারিতা পরিমাপ করতে সহায়তা করে।
- PROC REG এর আউটপুটে আপনি পূর্বাভাসিত মান এবং ত্রুটিগুলি অন্তর্ভুক্ত করতে পারেন, যা ভবিষ্যতের পূর্বাভাসের জন্য ব্যবহার করা যেতে পারে।
এই ফিচারগুলো ব্যবহার করে আপনি অত্যন্ত শক্তিশালী পরিসংখ্যানগত বিশ্লেষণ করতে পারবেন।
Read more