Linear Regression এর মৌলিক ধারণা

Linear Regression - পাইথন দিয়ে মেশিন লার্নিং (Machine Learning with Python) - Machine Learning

341

লিনিয়ার রিগ্রেশন (Linear Regression) একটি মৌলিক এবং জনপ্রিয় পরিসংখ্যানিক মডেল, যা এক বা একাধিক স্বাধীন ভেরিয়েবল (Independent Variables) এর মাধ্যমে নির্ভরশীল ভেরিয়েবল (Dependent Variable) এর ভবিষ্যদ্বাণী বা অনুমান করতে ব্যবহৃত হয়। এটি ডেটা পয়েন্টগুলির মধ্যে একটি সরল রেখা বা লিনিয়ার সম্পর্ক প্রতিষ্ঠা করার জন্য ব্যবহৃত হয়। লিনিয়ার রিগ্রেশনটি দুটি প্রধান ক্ষেত্রে ব্যবহার করা হয়: একক রিগ্রেশন (Simple Regression) এবং বহুগুণ রিগ্রেশন (Multiple Regression)

১. Simple Linear Regression (একক লিনিয়ার রিগ্রেশন)

একক লিনিয়ার রিগ্রেশন তখন ব্যবহার করা হয় যখন আমাদের কাছে একটি মাত্র স্বাধীন ভেরিয়েবল থাকে। এই মডেলটি একটি সরল রেখা আঁকতে চেষ্টা করে যা ডেটার পয়েন্টগুলোর মধ্যে সম্পর্ক প্রতিষ্ঠা করে।

মডেল ফর্মুলা:

এটি একটি সরল রেখার সমীকরণ হিসাবে গণনা করা হয়:

y=β0+β1x+ϵy = \beta_0 + \beta_1 x + \epsilon

  • y: নির্ভরশীল ভেরিয়েবল (Dependent Variable) যা আমরা পূর্বানুমান করতে চাই।
  • x: স্বাধীন ভেরিয়েবল (Independent Variable)।
  • β₀: স্লোপ (Slope) বা ইন্টারসেপ্ট (Intercept), যা রেখার কাটাবিন্দু (y-অক্ষ)।
  • β₁: স্লোপ কোএফিশিয়েন্ট, এটি নির্ধারণ করে x এর পরিবর্তনের সাথে y এর কী পরিমাণ পরিবর্তন হবে।
  • ε: ত্রুটি (Error), যা মডেলের পূর্ণতা এবং অপ্রত্যাশিত উপাদানগুলি প্রকাশ করে।

উদাহরণ:

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে, যেখানে একজন ছাত্রের পড়াশোনার সময় (x) এবং তার পরীক্ষার নম্বর (y) রয়েছে। আমরা লিনিয়ার রিগ্রেশন ব্যবহার করে ছাত্রের পরীক্ষার নম্বর ভবিষ্যদ্বাণী করতে চাই।


২. Multiple Linear Regression (বহুগুণ লিনিয়ার রিগ্রেশন)

বহুগুণ লিনিয়ার রিগ্রেশন তখন ব্যবহার করা হয় যখন একাধিক স্বাধীন ভেরিয়েবল থাকে। এটি একাধিক ভেরিয়েবলের মধ্যে সম্পর্ক নির্ধারণ করার চেষ্টা করে।

মডেল ফর্মুলা:

y=β0+β1x1+β2x2++βnxn+ϵy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon

  • y: নির্ভরশীল ভেরিয়েবল।
  • x₁, x₂, ..., xₙ: একাধিক স্বাধীন ভেরিয়েবল।
  • β₀: ইন্টারসেপ্ট।
  • β₁, β₂, ..., βₙ: প্রতিটি স্বাধীন ভেরিয়েবলের জন্য স্লোপ কোএফিশিয়েন্ট।
  • ε: ত্রুটি।

উদাহরণ:

ধরা যাক, আমরা একজন ছাত্রের পরীক্ষা নম্বরের পূর্বানুমান করতে চাই, তবে এখন তার পড়াশোনার সময় (x₁), শিক্ষকের পাঠদানের গুণগত মান (x₂), এবং শিক্ষার পরিবেশ (x₃) কে স্বাধীন ভেরিয়েবল হিসাবে ব্যবহার করা হচ্ছে। এখানে আমরা লিনিয়ার রিগ্রেশন মডেলটি ব্যবহার করে এই ভেরিয়েবলের সম্মিলিত প্রভাব থেকে পরীক্ষার নম্বর অনুমান করতে পারি।


৩. লিনিয়ার রিগ্রেশন মডেলের লক্ষ্য

লিনিয়ার রিগ্রেশন মডেলটি উদ্দেশ্য করে দুটি প্রধান লক্ষ্য:

  1. স্লোপ এবং ইন্টারসেপ্ট অনুমান করা: মডেলটি ডেটার উপর ভিত্তি করে স্লোপ (β₁) এবং ইন্টারসেপ্ট (β₀) মূল্যায়ন করে।
  2. ভবিষ্যদ্বাণী করা: নির্দিষ্ট ইনপুট (x) এর জন্য আউটপুট (y) ভবিষ্যদ্বাণী করা।

৪. লিনিয়ার রিগ্রেশন মডেলের মূল্যায়ন

লিনিয়ার রিগ্রেশন মডেলের কার্যকারিতা মূল্যায়ন করতে আমরা কিছু মেট্রিক্স ব্যবহার করি:

  • Mean Squared Error (MSE): এটি আসল এবং মডেল দ্বারা পূর্বানুমানিত মানের মধ্যে পার্থক্যের বর্গমূল নিয়ে গড়ে ওঠে। এটি মডেলটির পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়।

MSE=1ni=1n(yiyi^)2MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2

  • R-squared (R²): এটি মডেলটির বৈশিষ্ট্য নির্ধারণ করে এবং বলে দেয় যে মডেলটি ডেটার ভেরিয়েশন ব্যাখ্যা করতে কতটা সফল। র্শূণ্যের মান ০ থেকে ১ এর মধ্যে থাকে, যেখানে ১ মানে সম্পূর্ণ ভেরিয়েশন ব্যাখ্যা করা হয়েছে।

R2=1i=1n(yiyi^)2i=1n(yiyˉ)2R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

  • Residual Plot: রেসিডুয়াল প্লট ডেটার সাথে মডেলের ত্রুটির সম্পর্ক দেখতে সহায়তা করে। এর মাধ্যমে আমরা মডেলের সাধারণতা বা আনফিট হওয়ার বিষয়টি দেখতে পারি।

৫. লিনিয়ার রিগ্রেশন মডেলের প্রযোজ্যতা

লিনিয়ার রিগ্রেশন মডেলটি যখন ডেটার মধ্যে লিনিয়ার সম্পর্ক থাকে, তখন খুবই কার্যকরী। তবে, যদি ডেটায় নন-লিনিয়ার সম্পর্ক থাকে, তাহলে লিনিয়ার রিগ্রেশন মডেলটি যথাযথ ফলাফল প্রদান নাও করতে পারে। এমন পরিস্থিতিতে, অন্যান্য অ্যালগরিদম যেমন Decision Trees, Random Forest, বা Neural Networks ব্যবহার করা যেতে পারে।


সারাংশ

লিনিয়ার রিগ্রেশন হল একটি সাদামাটা এবং শক্তিশালী অ্যালগরিদম, যা একটি বা একাধিক স্বাধীন ভেরিয়েবলের মাধ্যমে নির্ভরশীল ভেরিয়েবলের ভবিষ্যদ্বাণী করতে ব্যবহৃত হয়। এটি মডেল তৈরির একটি প্রাথমিক ধাপ এবং ডেটার মধ্যে সরল রেখার সম্পর্ক খুঁজে বের করে। তবে, এটি শুধুমাত্র তখন কার্যকরী যখন ডেটার মধ্যে লিনিয়ার সম্পর্ক থাকে, এবং এর পারফরম্যান্স নির্ভর করে সঠিকভাবে স্লোপ এবং ইন্টারসেপ্ট অনুমান করতে পারার ওপর।

Content added By
Promotion

Are you sure to start over?

Loading...