লিনিয়ার রিগ্রেশন (Linear Regression) একটি মৌলিক এবং জনপ্রিয় পরিসংখ্যানিক মডেল, যা এক বা একাধিক স্বাধীন ভেরিয়েবল (Independent Variables) এর মাধ্যমে নির্ভরশীল ভেরিয়েবল (Dependent Variable) এর ভবিষ্যদ্বাণী বা অনুমান করতে ব্যবহৃত হয়। এটি ডেটা পয়েন্টগুলির মধ্যে একটি সরল রেখা বা লিনিয়ার সম্পর্ক প্রতিষ্ঠা করার জন্য ব্যবহৃত হয়। লিনিয়ার রিগ্রেশনটি দুটি প্রধান ক্ষেত্রে ব্যবহার করা হয়: একক রিগ্রেশন (Simple Regression) এবং বহুগুণ রিগ্রেশন (Multiple Regression)।
১. Simple Linear Regression (একক লিনিয়ার রিগ্রেশন)
একক লিনিয়ার রিগ্রেশন তখন ব্যবহার করা হয় যখন আমাদের কাছে একটি মাত্র স্বাধীন ভেরিয়েবল থাকে। এই মডেলটি একটি সরল রেখা আঁকতে চেষ্টা করে যা ডেটার পয়েন্টগুলোর মধ্যে সম্পর্ক প্রতিষ্ঠা করে।
মডেল ফর্মুলা:
এটি একটি সরল রেখার সমীকরণ হিসাবে গণনা করা হয়:
- y: নির্ভরশীল ভেরিয়েবল (Dependent Variable) যা আমরা পূর্বানুমান করতে চাই।
- x: স্বাধীন ভেরিয়েবল (Independent Variable)।
- β₀: স্লোপ (Slope) বা ইন্টারসেপ্ট (Intercept), যা রেখার কাটাবিন্দু (y-অক্ষ)।
- β₁: স্লোপ কোএফিশিয়েন্ট, এটি নির্ধারণ করে x এর পরিবর্তনের সাথে y এর কী পরিমাণ পরিবর্তন হবে।
- ε: ত্রুটি (Error), যা মডেলের পূর্ণতা এবং অপ্রত্যাশিত উপাদানগুলি প্রকাশ করে।
উদাহরণ:
ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে, যেখানে একজন ছাত্রের পড়াশোনার সময় (x) এবং তার পরীক্ষার নম্বর (y) রয়েছে। আমরা লিনিয়ার রিগ্রেশন ব্যবহার করে ছাত্রের পরীক্ষার নম্বর ভবিষ্যদ্বাণী করতে চাই।
২. Multiple Linear Regression (বহুগুণ লিনিয়ার রিগ্রেশন)
বহুগুণ লিনিয়ার রিগ্রেশন তখন ব্যবহার করা হয় যখন একাধিক স্বাধীন ভেরিয়েবল থাকে। এটি একাধিক ভেরিয়েবলের মধ্যে সম্পর্ক নির্ধারণ করার চেষ্টা করে।
মডেল ফর্মুলা:
- y: নির্ভরশীল ভেরিয়েবল।
- x₁, x₂, ..., xₙ: একাধিক স্বাধীন ভেরিয়েবল।
- β₀: ইন্টারসেপ্ট।
- β₁, β₂, ..., βₙ: প্রতিটি স্বাধীন ভেরিয়েবলের জন্য স্লোপ কোএফিশিয়েন্ট।
- ε: ত্রুটি।
উদাহরণ:
ধরা যাক, আমরা একজন ছাত্রের পরীক্ষা নম্বরের পূর্বানুমান করতে চাই, তবে এখন তার পড়াশোনার সময় (x₁), শিক্ষকের পাঠদানের গুণগত মান (x₂), এবং শিক্ষার পরিবেশ (x₃) কে স্বাধীন ভেরিয়েবল হিসাবে ব্যবহার করা হচ্ছে। এখানে আমরা লিনিয়ার রিগ্রেশন মডেলটি ব্যবহার করে এই ভেরিয়েবলের সম্মিলিত প্রভাব থেকে পরীক্ষার নম্বর অনুমান করতে পারি।
৩. লিনিয়ার রিগ্রেশন মডেলের লক্ষ্য
লিনিয়ার রিগ্রেশন মডেলটি উদ্দেশ্য করে দুটি প্রধান লক্ষ্য:
- স্লোপ এবং ইন্টারসেপ্ট অনুমান করা: মডেলটি ডেটার উপর ভিত্তি করে স্লোপ (β₁) এবং ইন্টারসেপ্ট (β₀) মূল্যায়ন করে।
- ভবিষ্যদ্বাণী করা: নির্দিষ্ট ইনপুট (x) এর জন্য আউটপুট (y) ভবিষ্যদ্বাণী করা।
৪. লিনিয়ার রিগ্রেশন মডেলের মূল্যায়ন
লিনিয়ার রিগ্রেশন মডেলের কার্যকারিতা মূল্যায়ন করতে আমরা কিছু মেট্রিক্স ব্যবহার করি:
- Mean Squared Error (MSE): এটি আসল এবং মডেল দ্বারা পূর্বানুমানিত মানের মধ্যে পার্থক্যের বর্গমূল নিয়ে গড়ে ওঠে। এটি মডেলটির পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়।
- R-squared (R²): এটি মডেলটির বৈশিষ্ট্য নির্ধারণ করে এবং বলে দেয় যে মডেলটি ডেটার ভেরিয়েশন ব্যাখ্যা করতে কতটা সফল। র্শূণ্যের মান ০ থেকে ১ এর মধ্যে থাকে, যেখানে ১ মানে সম্পূর্ণ ভেরিয়েশন ব্যাখ্যা করা হয়েছে।
- Residual Plot: রেসিডুয়াল প্লট ডেটার সাথে মডেলের ত্রুটির সম্পর্ক দেখতে সহায়তা করে। এর মাধ্যমে আমরা মডেলের সাধারণতা বা আনফিট হওয়ার বিষয়টি দেখতে পারি।
৫. লিনিয়ার রিগ্রেশন মডেলের প্রযোজ্যতা
লিনিয়ার রিগ্রেশন মডেলটি যখন ডেটার মধ্যে লিনিয়ার সম্পর্ক থাকে, তখন খুবই কার্যকরী। তবে, যদি ডেটায় নন-লিনিয়ার সম্পর্ক থাকে, তাহলে লিনিয়ার রিগ্রেশন মডেলটি যথাযথ ফলাফল প্রদান নাও করতে পারে। এমন পরিস্থিতিতে, অন্যান্য অ্যালগরিদম যেমন Decision Trees, Random Forest, বা Neural Networks ব্যবহার করা যেতে পারে।
সারাংশ
লিনিয়ার রিগ্রেশন হল একটি সাদামাটা এবং শক্তিশালী অ্যালগরিদম, যা একটি বা একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে নির্ভরশীল ভেরিয়েবলের ভবিষ্যদ্বাণী করতে ব্যবহৃত হয়। এটি মডেল তৈরির একটি প্রাথমিক ধাপ এবং ডেটার মধ্যে সরল রেখার সম্পর্ক খুঁজে বের করে। তবে, এটি শুধুমাত্র তখন কার্যকরী যখন ডেটার মধ্যে লিনিয়ার সম্পর্ক থাকে, এবং এর পারফরম্যান্স নির্ভর করে সঠিকভাবে স্লোপ এবং ইন্টারসেপ্ট অনুমান করতে পারার ওপর।
Read more