Supervised Learning এর বেসিক ধারণা

Machine Learning - মেশিন লার্নিং (Machine Learning)

474

সুপারভাইজড লার্নিং (Supervised Learning) মেশিন লার্নিংয়ের একটি শাখা, যেখানে মডেলটি ইনপুট এবং আউটপুট ডেটা দিয়ে প্রশিক্ষিত হয়। অর্থাৎ, সুপারভাইজড লার্নিংয়ে মডেলটিকে এমন ডেটা দিয়ে প্রশিক্ষিত করা হয়, যেখানে ইনপুট ডেটার সাথে সম্পর্কিত আউটপুট (লেবেল) জানানো থাকে। মডেলটি এই সম্পর্ক শিখে নতুন ইনপুট ডেটার জন্য সঠিক আউটপুট ভবিষ্যদ্বাণী করতে পারে।

কীভাবে কাজ করে:

সুপারভাইজড লার্নিং প্রক্রিয়া সাধারণত তিনটি প্রধান ধাপে বিভক্ত:

ডেটা সংগ্রহ (Data Collection): প্রশিক্ষণ ডেটা সংগ্রহ করা হয়, যেখানে প্রতিটি ইনপুট ডেটার সাথে তার সঠিক আউটপুট লেবেল দেওয়া থাকে। উদাহরণস্বরূপ, একটি ইমেজ ডেটাসেটে, ছবি এবং ছবির শ্রেণী (যেমন, "কুকুর", "বিড়াল") লেবেল হিসেবে থাকবে।
মডেল প্রশিক্ষণ (Model Training): প্রশিক্ষণ ডেটার ভিত্তিতে মডেলটি শিখে। মডেলটি ইনপুট এবং আউটপুট ডেটার মধ্যে সম্পর্ক খুঁজে বের করার চেষ্টা করে। এটি ইনপুটের উপর ভিত্তি করে আউটপুট অনুমান করতে পারে।
পরীক্ষণ এবং ভবিষ্যদ্বাণী (Testing and Prediction): প্রশিক্ষণের পরে, মডেলটি নতুন ডেটা (যা প্রশিক্ষণ ডেটার অংশ নয়) পরীক্ষা করে তার পূর্বাভাস বা ভবিষ্যদ্বাণী দিতে সক্ষম হয়।

সুপারভাইজড লার্নিং-এর উদাহরণ:

ইমেল স্প্যাম ফিল্টারিং (Email Spam Filtering): ইনপুট ডেটা হল ইমেলের বিষয়বস্তু এবং আউটপুট হল স্প্যাম বা নন-স্প্যাম লেবেল। মডেলটি প্রশিক্ষিত হয় এবং নতুন ইমেল স্প্যাম বা নন-স্প্যাম হিসেবে চিহ্নিত করতে পারে।
চিত্র শ্রেণীবদ্ধকরণ (Image Classification): ছবির ইনপুট ডেটা এবং তার শ্রেণী (যেমন "কুকুর", "বিড়াল") আউটপুট হিসাবে দেওয়া থাকে। মডেলটি শিখে এবং নতুন ছবির জন্য শ্রেণী চিহ্নিত করতে পারে।
রোগ শনাক্তকরণ (Disease Detection): রোগীর মেডিক্যাল ডেটা ইনপুট হিসেবে দেওয়া হয়, এবং আউটপুট হতে পারে রোগের উপস্থিতি বা অনুপস্থিতি। উদাহরণস্বরূপ, ক্যান্সারের শনাক্তকরণ।

সুপারভাইজড লার্নিং এর প্রধান অ্যালগরিদম:

রিগ্রেশন (Regression): রিগ্রেশন অ্যালগরিদমটি সংখ্যামূলক আউটপুটের জন্য ব্যবহৃত হয়। যেমন, ভবিষ্যতের তাপমাত্রা অনুমান, ঘরের দাম নির্ধারণ ইত্যাদি।
ক্লাসিফিকেশন (Classification): ক্লাসিফিকেশন অ্যালগরিদমটি ক্যাটাগোরিক্যাল আউটপুটের জন্য ব্যবহৃত হয়, অর্থাৎ ডেটাকে নির্দিষ্ট শ্রেণীতে ভাগ করা হয়। উদাহরণস্বরূপ, একটি ছবি চিহ্নিত করা, ইমেল স্প্যাম বা নন-স্প্যাম চিহ্নিত করা।

সুপারভাইজড লার্নিংয়ের সুবিধা:

সঠিক ফলাফল: মডেলটি প্রশিক্ষণের মাধ্যমে সঠিক আউটপুট শিখে, তাই এটি নতুন ইনপুটের জন্য উচ্চতর সঠিকতা প্রদান করতে সক্ষম।
সহজ শিখন: ইনপুট এবং আউটপুট সম্পর্ক সরাসরি দেওয়া থাকে, যার ফলে শিখন প্রক্রিয়া সহজ এবং সুনির্দিষ্ট হয়।

সুপারভাইজড লার্নিংয়ের অসুবিধা:

লেবেলড ডেটার প্রয়োজন: সুপারভাইজড লার্নিংয়ে প্রশিক্ষণ ডেটার জন্য আউটপুট লেবেল থাকতে হবে, যা অনেক সময় সংগ্রহ করা কঠিন হতে পারে।
সীমাবদ্ধতা: যদি ইনপুট এবং আউটপুট সম্পর্কের মধ্যে জটিলতা থাকে, তাহলে মডেলটি সঠিকভাবে শিখতে এবং ভবিষ্যদ্বাণী করতে সমস্যা হতে পারে।

সারাংশ:

সুপারভাইজড লার্নিং হল মেশিন লার্নিংয়ের একটি শক্তিশালী এবং কার্যকর পদ্ধতি, যেখানে মডেলটি লেবেলযুক্ত ডেটা থেকে শিখে এবং নতুন ডেটার জন্য সঠিক ফলাফল অনুমান করতে সক্ষম হয়। এটি অনেক ধরনের প্রোগ্রামিং সমস্যার সমাধান করতে ব্যবহৃত হয়, যেমন ইমেজ শ্রেণীবদ্ধকরণ, স্প্যাম ফিল্টারিং এবং রোগ শনাক্তকরণ।

Content added By

SATT Academy

Supervised Learning কী এবং কিভাবে কাজ করে?

480

সুপারভাইজড লার্নিং (Supervised Learning) মেশিন লার্নিং-এর একটি প্রকার, যেখানে ইনপুট ডেটার সাথে আউটপুট লেবেল দেওয়া থাকে। এটি সবচেয়ে প্রচলিত এবং ব্যবহৃত মেশিন লার্নিং পদ্ধতি। এই পদ্ধতিতে, মডেলটি ডেটার মধ্যে একটি সম্পর্ক শিখে নেয়, যেখানে ইনপুট ডেটার সাথে সংশ্লিষ্ট আউটপুট (লেবেল) উল্লেখ করা থাকে। প্রশিক্ষণ ডেটার সাহায্যে মডেলটি শিখে এবং পরে নতুন ইনপুট ডেটার জন্য সঠিক আউটপুট নির্ধারণ করতে পারে।

সুপারভাইজড লার্নিং কিভাবে কাজ করে

সুপারভাইজড লার্নিং-এর প্রক্রিয়া সাধারণত এইভাবে কাজ করে:

১. ডেটা সংগ্রহ:

প্রথমে, মডেলটি প্রশিক্ষিত করার জন্য ইনপুট ডেটা এবং সংশ্লিষ্ট আউটপুট লেবেল নিয়ে একটি ডেটাসেট সংগ্রহ করা হয়। উদাহরণস্বরূপ, ইমেল স্প্যাম ফিল্টারিংয়ের ক্ষেত্রে ইনপুট হিসেবে ইমেলটির বিষয়বস্তু থাকবে এবং আউটপুট হিসেবে "স্প্যাম" বা "নন-স্প্যাম" লেবেল থাকবে।

২. ডেটা প্রক্রিয়াকরণ:

ডেটাকে প্রক্রিয়াকরণ করা হয় যাতে এটি মডেল ট্রেনিংয়ের জন্য উপযুক্ত হয়। এতে ডেটা পরিষ্কার করা, অনুপস্থিত মান পূর্ণ করা, এবং ডেটাকে কিছু নির্দিষ্ট ফরম্যাটে রূপান্তর করা অন্তর্ভুক্ত হতে পারে।

৩. মডেল নির্বাচন:

এখানে বিভিন্ন ধরনের মডেল এবং অ্যালগরিদম বেছে নেওয়া হয়, যা সমস্যার ধরন অনুসারে উপযুক্ত। জনপ্রিয় মডেলগুলোর মধ্যে রয়েছে:

লিনিয়ার রিগ্রেশন (Linear Regression): সংখ্যামূলক আউটপুটের জন্য ব্যবহৃত।
লজিস্টিক রিগ্রেশন (Logistic Regression): শ্রেণীবদ্ধকরণের জন্য ব্যবহৃত।
ডিসিশন ট্রি (Decision Tree): শ্রেণীবদ্ধকরণ এবং রিগ্রেশন সমস্যার জন্য।
সাপোর্ট ভেক্টর মেশিন (SVM): শক্তিশালী শ্রেণীবদ্ধকরণ মডেল।

৪. মডেল ট্রেনিং:

এই পর্যায়ে, মডেলটি প্রশিক্ষণ ডেটা ব্যবহার করে শিখতে শুরু করে। মডেল ইনপুট ও আউটপুটের মধ্যে সম্পর্ক খুঁজে বের করে এবং তার থেকে একটি সাধারণ সূত্র বা প্যাটার্ন তৈরি করে। এর মাধ্যমে, মডেলটি জানে কিভাবে নতুন ইনপুট ডেটা থেকে সঠিক আউটপুট অনুমান করা যায়।

৫. মডেল মূল্যায়ন:

প্রশিক্ষণের পর, মডেলটির কার্যকারিতা যাচাই করার জন্য একটি টেস্ট ডেটাসেট ব্যবহার করা হয়। এই ডেটাসেটটি প্রশিক্ষণ ডেটার বাইরে থাকে এবং মডেলটি কতটুকু সঠিকভাবে ভবিষ্যদ্বাণী করতে পারছে তা মূল্যায়ন করা হয়। এখানে একিউরেসি (Accuracy), প্রিসিশন (Precision), রিকল (Recall) এবং ফ-স্কোর (F-score) মতো মেট্রিক্স ব্যবহৃত হয়।

৬. মডেল অপটিমাইজেশন:

যদি মডেলটির পারফরম্যান্স যথেষ্ট ভালো না হয়, তবে বিভিন্ন প্যারামিটার টিউনিং বা নতুন অ্যালগরিদম ব্যবহার করে মডেলটির কার্যকারিতা উন্নত করা হয়।

৭. নতুন ডেটার জন্য পূর্বাভাস (Prediction):

একবার মডেলটি প্রশিক্ষিত হয়ে গেলে, এটি নতুন ইনপুট ডেটার উপর পূর্বাভাস দিতে সক্ষম হয়। যেমন, নতুন কোনো ইমেল এসেছে, সেটি স্প্যাম কিনা তা মডেলটি অনুমান করতে পারে।

সুপারভাইজড লার্নিং এর উদাহরণ

১. ইমেল স্প্যাম ফিল্টারিং:

ইনপুট ডেটা: ইমেলটির বিষয়বস্তু (টেক্সট)
আউটপুট লেবেল: "স্প্যাম" অথবা "নন-স্প্যাম"
মডেলটি প্রশিক্ষণ ডেটা থেকে শিখে নেয় এবং নতুন ইনপুট ডেটা (ইমেল) থেকে সঠিকভাবে সিদ্ধান্ত নিতে পারে।

২. চিত্র শ্রেণীবদ্ধকরণ (Image Classification):

ইনপুট ডেটা: ছবির পিক্সেল তথ্য
আউটপুট লেবেল: "কুকুর", "বিড়াল" ইত্যাদি
মডেলটি ছবি দেখে তার শ্রেণী নির্ধারণ করে।

৩. চিকিৎসা ডায়াগনোসিস:

ইনপুট ডেটা: রোগীর পরীক্ষা রিপোর্ট বা লক্ষণ
আউটপুট লেবেল: রোগের ধরন বা চিকিৎসা পরামর্শ
মডেলটি রোগ শনাক্ত করতে সাহায্য করতে পারে, যেমন ক্যান্সার বা ডায়াবেটিস।

সারসংক্ষেপ

সুপারভাইজড লার্নিং হল একটি মেশিন লার্নিং পদ্ধতি যেখানে প্রশিক্ষণ ডেটার সাথে আউটপুট লেবেল দেওয়া থাকে। মডেলটি এই ডেটার উপর ভিত্তি করে সম্পর্ক শিখে এবং নতুন ডেটার জন্য পূর্বাভাস তৈরি করতে পারে। এটি ব্যবহার করা হয় এমন সমস্যাগুলির জন্য যেখানে সঠিক আউটপুট বা ফলাফল জানা থাকে এবং মডেলটি সেই আউটপুটের ভিত্তিতে শিখে নতুন ইনপুটের জন্য সঠিক ফলাফল দিতে পারে।

Content added By

SATT Academy

Classification এবং Regression এর মধ্যে পার্থক্য

337

Classification এবং Regression মেশিন লার্নিংয়ের দুটি প্রধান ধরনের সুপারভাইজড লার্নিং পদ্ধতি, তবে এদের মধ্যে মূল পার্থক্য হলো:

১. ধরন (Type of Output)

Classification:
- ক্যাটেগরিক্যাল আউটপুট (Categorical Output) থাকে।
- এটি একটি সমস্যা যেখানে আউটপুটটি নির্দিষ্ট শ্রেণীতে (class) বিভক্ত হয়।
- উদাহরণ: রোগী সুস্থ, অস্বাস্থ্যকর বা গুরুতর রোগী (৩টি শ্রেণী) শনাক্ত করা।
- সাধারণত, এটি "বিলকুল", "হ্যাঁ/না", বা "গ্রাহক ইন্টারেস্টেড বা নন-ইন্টারেস্টেড" ইত্যাদি আউটপুট প্রদর্শন করে।
Regression:
- সংখ্যামূলক আউটপুট (Numerical Output) থাকে।
- এটি এমন একটি সমস্যা যেখানে আউটপুটটি একটি নির্দিষ্ট সংখ্যা বা পরিমাণ হতে পারে।
- উদাহরণ: ভবিষ্যতে তাপমাত্রা কত হবে বা একটি বাড়ির দাম কত হবে তা অনুমান করা।
- আউটপুটটি একটি ধারাবাহিক মান হিসেবে থাকে, যেমন ১০, ২০, ৩০, ৫০, ১৫০ ইত্যাদি।

২. উদ্দেশ্য (Objective)

Classification:
- মডেলটি শ্রেণীগুলির মধ্যে সঠিকভাবে বিভাজন করতে চেষ্টা করে। এটি একটি নির্দিষ্ট শ্রেণীতে ডেটাকে ফেলা এবং সিদ্ধান্ত নেওয়ার কাজ করে।
- উদাহরণ: একটি ইমেল স্প্যাম বা নন-স্প্যাম হিসেবে শ্রেণীবদ্ধ করা।
Regression:
- এটি একটি নির্দিষ্ট পরিমাণ বা সংখ্যা অনুমান করতে চেষ্টা করে। এখানে মূল উদ্দেশ্য হলো ভবিষ্যদ্বাণী করা বা পরিমাণ নির্ধারণ করা।
- উদাহরণ: ভবিষ্যতের স্টক প্রাইস অনুমান করা।

৩. অ্যালগরিদম (Algorithms)

Classification:
- সাধারণত ব্যবহৃত কিছু অ্যালগরিদম হলো:
  - লজিস্টিক রিগ্রেশন (Logistic Regression)
  - ডিসিশন ট্রি (Decision Tree)
  - সাপোর্ট ভেক্টর মেশিন (SVM)
  - কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN) ইত্যাদি।
Regression:
- সাধারণত ব্যবহৃত কিছু অ্যালগরিদম হলো:
  - লিনিয়ার রিগ্রেশন (Linear Regression)
  - রিজ রিগ্রেশন (Ridge Regression)
  - ডিসিশন ট্রি রিগ্রেশন (Decision Tree Regression)
  - র্যান্ডম ফরেস্ট রিগ্রেশন (Random Forest Regression) ইত্যাদি।

৪. ফলাফল পরিমাপ (Performance Measurement)

Classification:
- ক্লাসিফিকেশন মডেলের কর্মক্ষমতা সাধারণত Accuracy, Precision, Recall, F1-Score, Confusion Matrix ইত্যাদির মাধ্যমে পরিমাপ করা হয়।
- Accuracy: সঠিকভাবে শ্রেণীবদ্ধ ডেটার হার।
Regression:
- রিগ্রেশন মডেলের কর্মক্ষমতা সাধারণত Mean Absolute Error (MAE), Mean Squared Error (MSE), Root Mean Squared Error (RMSE) এবং R-squared ইত্যাদির মাধ্যমে পরিমাপ করা হয়।
- R-squared: এটি মূলত মডেল কতটা সঠিকভাবে ডেটা ফিট করেছে তা পরিমাপ করে।

৫. আউটপুট টাইপ (Output Type)

Classification:
- আউটপুট একটি নির্দিষ্ট শ্রেণীতে ভাগ করা হয়, যা একটি ডিসক্রিট (Discrete) মান হতে পারে।
Regression:
- আউটপুট একটি নির্দিষ্ট পরিমাণে প্রকাশিত হয়, যা একটি ধারাবাহিক (Continuous) মান।

উদাহরণস্বরূপ পার্থক্য:

বৈশিষ্ট্য	Classification	Regression
আউটপুট	শ্রেণী বা ক্যাটেগরি	সংখ্যামূলক মান
সমস্যা	শ্রেণীভুক্তকরণ	সংখ্যা বা পরিমাণ অনুমান
উদাহরণ	ইমেল স্প্যাম বা নন-স্প্যাম, রোগীর শ্রেণী	ভবিষ্যতের তাপমাত্রা, বাড়ির দাম
অ্যালগরিদম	লজিস্টিক রিগ্রেশন, SVM, ডিসিশন ট্রি	লিনিয়ার রিগ্রেশন, রিজ রিগ্রেশন, র্যান্ডম ফরেস্ট
মূল্যায়ন মেট্রিক্স	Accuracy, Precision, Recall, F1-Score	MAE, MSE, RMSE, R-squared

সারসংক্ষেপ:

Classification-এ আউটপুট একটি নির্দিষ্ট শ্রেণী হিসেবে থাকে, যেমন হ্যাঁ/না বা স্প্যাম/নন-স্প্যাম। আর Regression-এ আউটপুট একটি ধারাবাহিক বা সংখ্যামূলক মান হিসেবে থাকে, যেমন ভবিষ্যতের তাপমাত্রা বা স্টক প্রাইস।

Content added By

SATT Academy

Training এবং Testing Process

322

মেশিন লার্নিং মডেল তৈরি করার জন্য Training এবং Testing দুটি গুরুত্বপূর্ণ প্রক্রিয়া। এই প্রক্রিয়াগুলি মডেলটির কার্যকারিতা এবং এর সক্ষমতা পরিমাপ করতে সহায়ক। নিচে Training এবং Testing প্রক্রিয়ার বিস্তারিত আলোচনা করা হলো:

১. Training Process (প্রশিক্ষণ প্রক্রিয়া)

Training প্রক্রিয়ায় মেশিন লার্নিং মডেলটি ইনপুট ডেটা এবং এর সাথে সম্পর্কিত আউটপুট (লেবেল) ডেটা ব্যবহার করে শেখে। মডেলটি ডেটার প্যাটার্ন বা সম্পর্ক শিখে নেয় এবং এটি ভবিষ্যতে নতুন ডেটার জন্য সিদ্ধান্ত বা আউটপুট অনুমান করার জন্য প্রস্তুত হয়। এই প্রক্রিয়ায় Training Data ব্যবহৃত হয়।

Training প্রক্রিয়ার ধাপসমূহ:

ডেটা সংগ্রহ: প্রশিক্ষণের জন্য একটি বড় এবং উপযুক্ত ডেটাসেট সংগ্রহ করা হয়।
ডেটা প্রক্রিয়াকরণ: ডেটার মধ্যে অনুপস্থিত মান পূরণ, স্ট্যান্ডার্ডাইজেশন বা স্কেলিং করা হয় যাতে মডেলটি কার্যকরভাবে শিখতে পারে।
মডেল নির্বাচন: সমস্যার ধরন অনুযায়ী মডেলের নির্বাচন করা হয় (যেমন, লিনিয়ার রিগ্রেশন, ডিসিশন ট্রি, নিউরাল নেটওয়ার্ক ইত্যাদি)।
মডেল প্রশিক্ষণ: নির্বাচিত মডেলটি Training Data এর মাধ্যমে প্রশিক্ষিত হয়। মডেলটি ডেটার মধ্যে সম্পর্ক শিখে এবং সংশ্লিষ্ট আউটপুট (লেবেল) অনুমান করতে শিখে।
হাইপারপ্যারামিটার টিউনিং: প্রশিক্ষণের সময় মডেলটির হাইপারপ্যারামিটার (যেমন, লার্নিং রেট, ব্যাচ সাইজ) টিউন করা হয় যাতে মডেলটি আরও কার্যকর হয়।

Training প্রক্রিয়ায় ব্যবহৃত প্রযুক্তি:

Gradient Descent: এটি একটি অপটিমাইজেশন অ্যালগরিদম যা মডেলটির প্যারামিটারগুলো আপডেট করতে ব্যবহৃত হয়।
Cross-validation: এটি একটি কৌশল যা ডেটাসেটটিকে বিভিন্ন ভাগে ভাগ করে মডেলটির কার্যকারিতা মূল্যায়ন করতে সাহায্য করে।

২. Testing Process (পরীক্ষা প্রক্রিয়া)

Testing প্রক্রিয়া হলো মডেলটির কার্যকারিতা পরিমাপ করার প্রক্রিয়া। মডেলটি যখন প্রশিক্ষিত হয়ে যায়, তখন এটি Testing Data এর মাধ্যমে পরীক্ষা করা হয়। Testing Data হলো সেই ডেটা যা মডেলটির প্রশিক্ষণের সময় ব্যবহৃত হয়নি। এতে মডেলটি দেখার চেষ্টা করা হয় যে, এটি নতুন, অদেখা ডেটার জন্য কেমন সিদ্ধান্ত নিতে সক্ষম।

Testing প্রক্রিয়ার ধাপসমূহ:

Testing Data নির্বাচন: Testing Data সঠিকভাবে নির্বাচন করতে হবে যাতে মডেলটি নতুন ডেটা দেখে তার বাস্তবিক পারফরম্যান্স পরিমাপ করতে পারে।
মডেল মূল্যায়ন: মডেলটি Testing Data এর সাথে পরীক্ষা করা হয় এবং এটি যে পূর্বাভাস বা সিদ্ধান্ত দিয়েছে তার সাথে প্রকৃত আউটপুটের তুলনা করা হয়।
পারফরম্যান্স মেট্রিক্স (Performance Metrics): মডেলটির কার্যকারিতা পরিমাপ করার জন্য বিভিন্ন মেট্রিক্স ব্যবহার করা হয়, যেমন:
- Accuracy: সঠিকভাবে পূর্বাভাস করা ইনপুটের শতাংশ।
- Precision এবং Recall: একটি শ্রেণীভুক্ত মডেলের পারফরম্যান্স মাপার জন্য ব্যবহৃত হয়, বিশেষ করে যদি ডেটা অসামান্য হয় (Imbalanced Data)।
- F1-Score: Precision এবং Recall এর একটি ভারসাম্যপূর্ণ মেট্রিক।
- Mean Squared Error (MSE): রিগ্রেশন সমস্যায় পূর্বাভাসের ত্রুটি পরিমাপ করতে ব্যবহৃত হয়।
Generalization: মডেলটির একে অপরের সঠিক পূর্বাভাস দেওয়ার সক্ষমতা পরিমাপ করা হয়, অর্থাৎ, নতুন ডেটার সাথে মডেলটি কতটা ভাল পারফর্ম করছে তা দেখা হয়।

Training এবং Testing এর পার্থক্য

Training Data: এটি মডেলটিকে শিখানোর জন্য ব্যবহৃত হয়, যেখানে ইনপুট এবং আউটপুট জানানো থাকে।
Testing Data: এটি মডেলটির কার্যকারিতা পরীক্ষার জন্য ব্যবহৃত হয়, যা মডেলটি কখনও দেখে না, যাতে তা নতুন ডেটা জন্য সাধারণীকৃত হয়।

Overfitting এবং Underfitting

Overfitting: যখন মডেলটি Training Data এর সাথে খুব ভালভাবে মানিয়ে যায়, কিন্তু Testing Data তে ভালো ফল দেয় না। এটি তখন Training Data এর noise বা অপ্রাসঙ্গিক বৈশিষ্ট্যগুলো শিখে ফেলে।
Underfitting: যখন মডেলটি Training Data এর প্যাটার্ন শিখতে ব্যর্থ হয়, এবং এটি Testing Data তেও ভালো ফল দেয় না। এটি তখন খুব সাধারণ বা সরল মডেল হতে পারে।

Cross-Validation

মডেলটির দক্ষতা পরিমাপ করার জন্য Cross-validation ব্যবহার করা হয়। এখানে ডেটাকে অনেক ছোট অংশে ভাগ করা হয় এবং প্রতিটি অংশের উপর মডেলটি প্রশিক্ষিত ও পরীক্ষা করা হয়। এটি মডেলটির উপযুক্ততা নিশ্চিত করতে সাহায্য করে এবং overfitting বা underfitting এর ঝুঁকি কমায়।

উপসংহার

Training এবং Testing প্রক্রিয়া মেশিন লার্নিং মডেল তৈরির প্রধান স্তম্ভ। Training প্রক্রিয়ায় মডেলটি ডেটা থেকে শিখে এবং Testing প্রক্রিয়ায় এটি পরিমাপ করা হয়। প্রশিক্ষণ এবং পরীক্ষার মাধ্যমে মডেলটির পারফরম্যান্স মূল্যায়ন করা হয়, যা পরবর্তী উন্নতির জন্য নির্দেশিকা হিসেবে কাজ করে।

Content added By

SATT Academy

Model Evaluation Metrics (Accuracy, Precision, Recall, F1 Score)

344

মডেল মূল্যায়ন মেট্রিক্স (Model Evaluation Metrics) মেশিন লার্নিং মডেলের কার্যকারিতা পরিমাপ করতে ব্যবহৃত হয়। এই মেট্রিক্সগুলি মডেলটির সঠিকতা, ভুল সিদ্ধান্তের ধরন এবং তার প্রতিক্রিয়াগুলি বিশ্লেষণ করতে সহায়ক। সাধারণত Accuracy, Precision, Recall, এবং F1 Score এর মতো মেট্রিক্সগুলি ব্যবহৃত হয়।

এগুলোর প্রতিটি মেট্রিক্সের ভূমিকা আলাদা, এবং তাদের মধ্যে পার্থক্য বোঝা গুরুত্বপূর্ণ। নীচে এই মেট্রিক্সগুলির বিস্তারিত বর্ণনা দেওয়া হল:

১. Accuracy (সঠিকতা)

Accuracy হল মডেল দ্বারা সঠিকভাবে শ্রেণীবদ্ধ (classify) করা মোট উদাহরণের শতাংশ। এটি সবচেয়ে সাধারণ মেট্রিক্স যা মোট সঠিক সিদ্ধান্তের অনুপাত দেয়। তবে, এটি কোন সময় অপর্যাপ্ত হতে পারে যখন ডেটা সন্নিবেশিত বা অসমতল (imbalanced) হয়।

ফর্মুলা:

$\text{Accuracy} = \frac{\text{সঠিক অনুমান}}{\text{মোট অনুমান}}$

উদাহরণ:

ধরা যাক, মডেলটি 100টি ইনস্ট্যান্সের মধ্যে 90টি সঠিকভাবে শ্রেণীবদ্ধ করেছে। তাহলে, Accuracy হবে:

$\frac{90}{100} = 0.90 \text{ বা } 90\%$

সীমাবদ্ধতা:

যখন ডেটা সন্নিবেশিত থাকে (যেমন, 95% নেগেটিভ এবং 5% পজিটিভ ক্লাস), তখন Accuracy ভালো দেখাতে পারে কিন্তু মডেল আসলে খারাপ কাজ করছে।

২. Precision (বিশুদ্ধতা)

Precision হল মডেলের যে সমস্ত পজিটিভ ক্লাস চিহ্নিত করেছে, সেগুলির মধ্যে কতটি সঠিক ছিল। এটি মডেলের মধ্যে false positives (ভুল পজিটিভ) কম করার জন্য গুরুত্বপূর্ণ।

ফর্মুলা:

$\text{Precision} = \frac{\text{সঠিক পজিটিভ (True Positives)}}{\text{সঠিক পজিটিভ (True Positives) + ভুল পজিটিভ (False Positives)}}$

উদাহরণ:

যদি মডেল 100টি পজিটিভ প্রেডিকশন করে এবং তার মধ্যে 80টি সঠিক থাকে, তাহলে Precision হবে:

$\frac{80}{100} = 0.80 \text{ বা } 80\%$

সীমাবদ্ধতা:

Precision শুধুমাত্র পজিটিভ প্রেডিকশনের মধ্যে সঠিকতার হার পরিমাপ করে, তবে এটি নেগেটিভ ক্লাসগুলির কোন ধারণা দেয় না।

৩. Recall (সংবেদনশীলতা)

Recall হল সঠিকভাবে সনাক্ত করা পজিটিভ ইনস্ট্যান্সগুলির শতাংশ। এটি মডেলটির false negatives (ভুল নেগেটিভ) কম করার জন্য গুরুত্বপূর্ণ। যেহেতু এটি পজিটিভ ক্লাসকে বেশি গুরুত্বপূর্ণভাবে গণ্য করে, সেহেতু এটি বিশেষ করে গুরুত্বপূর্ণ যখন মডেলটি কোন পজিটিভ ঘটনার মিস করা ঠিক নয়।

ফর্মুলা:

$\text{Recall} = \frac{\text{সঠিক পজিটিভ (True Positives)}}{\text{সঠিক পজিটিভ (True Positives) + ভুল নেগেটিভ (False Negatives)}}$

উদাহরণ:

যদি 100টি পজিটিভ ইনস্ট্যান্সের মধ্যে মডেল 80টি সঠিকভাবে শনাক্ত করে, তাহলে Recall হবে:

$\frac{80}{100} = 0.80 \text{ বা } 80\%$

সীমাবদ্ধতা:

High Recall মানে মডেল অনেক পজিটিভ সনাক্ত করছে, তবে এটি Precision কমিয়ে ফেলতে পারে (অনেক ভুল পজিটিভ তৈরি করতে পারে)।

৪. F1 Score

F1 Score হল Precision এবং Recall এর একটি ভারসাম্য। এটি Precision এবং Recall এর গড় হিসাব করে এবং দুইটির মধ্যে একটি ভাল ভারসাম্য তৈরি করতে সাহায্য করে। যখন Precision এবং Recall এর মধ্যে একটি বড় পার্থক্য থাকে, তখন Accuracy যথেষ্ট সহায়ক নয়, আর F1 Score একটি সমন্বিত মেট্রিক্স হিসেবে কাজ করে।

ফর্মুলা:

$F1 \, \text{Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

উদাহরণ:

ধরা যাক, একটি মডেল এর Precision 0.8 এবং Recall 0.6। তাহলে F1 Score হবে:

$F1 = 2 \times \frac{0.8 \times 0.6}{0.8 + 0.6} = 2 \times \frac{0.48}{1.4} = 0.6857 \text{ বা } 68.57\%$

সীমাবদ্ধতা:

F1 Score যত বেশি হবে, মডেলটি তত ভালো। তবে এটি কোন সময় Precision এবং Recall এর মধ্যে ভারসাম্যহীনতার কারণে কিছু তথ্য হারিয়ে ফেলতে পারে।

সারাংশ

Accuracy: মোট সঠিক সিদ্ধান্তের অনুপাত।
Precision: পজিটিভ প্রেডিকশনগুলির মধ্যে সঠিক প্রেডিকশনের অনুপাত।
Recall: সঠিক পজিটিভ ইনস্ট্যান্সগুলির মধ্যে মডেল কতটা সঠিকভাবে সনাক্ত করেছে।
F1 Score: Precision এবং Recall এর মধ্যে ভারসাম্য সৃষ্টি করে, যাতে দুইটি মেট্রিক্সের ভাল সমন্বয় পাওয়া যায়।

এই মেট্রিক্সগুলি একে অপরের পরিপূরক এবং সঠিকভাবে কাজ করার জন্য এগুলির উপযুক্ত ব্যবহার গুরুত্বপূর্ণ।

Content added By

SATT Academy

Machine Learning পরিচিতি Machine Learning এর মৌলিক ধারণা Data Preprocessing এবং Feature Engineering Linear Regression Logistic Regression

Supervised Learning এর বেসিক ধারণা

কীভাবে কাজ করে:

সুপারভাইজড লার্নিং-এর উদাহরণ:

সুপারভাইজড লার্নিং এর প্রধান অ্যালগরিদম:

সুপারভাইজড লার্নিংয়ের সুবিধা:

সুপারভাইজড লার্নিংয়ের অসুবিধা:

সারাংশ:

Supervised Learning কী এবং কিভাবে কাজ করে?

সুপারভাইজড লার্নিং কিভাবে কাজ করে

১. ডেটা সংগ্রহ:

২. ডেটা প্রক্রিয়াকরণ:

৩. মডেল নির্বাচন:

৪. মডেল ট্রেনিং:

৫. মডেল মূল্যায়ন:

৬. মডেল অপটিমাইজেশন:

৭. নতুন ডেটার জন্য পূর্বাভাস (Prediction):

সুপারভাইজড লার্নিং এর উদাহরণ

১. ইমেল স্প্যাম ফিল্টারিং:

২. চিত্র শ্রেণীবদ্ধকরণ (Image Classification):

৩. চিকিৎসা ডায়াগনোসিস:

সারসংক্ষেপ

Classification এবং Regression এর মধ্যে পার্থক্য

১. ধরন (Type of Output)

২. উদ্দেশ্য (Objective)

৩. অ্যালগরিদম (Algorithms)

৪. ফলাফল পরিমাপ (Performance Measurement)

৫. আউটপুট টাইপ (Output Type)

উদাহরণস্বরূপ পার্থক্য:

সারসংক্ষেপ:

Training এবং Testing Process

১. Training Process (প্রশিক্ষণ প্রক্রিয়া)

Training প্রক্রিয়ার ধাপসমূহ:

Training প্রক্রিয়ায় ব্যবহৃত প্রযুক্তি:

২. Testing Process (পরীক্ষা প্রক্রিয়া)

Testing প্রক্রিয়ার ধাপসমূহ:

Training এবং Testing এর পার্থক্য

Overfitting এবং Underfitting

Cross-Validation

উপসংহার

Model Evaluation Metrics (Accuracy, Precision, Recall, F1 Score)

১. Accuracy (সঠিকতা)

ফর্মুলা:

উদাহরণ:

সীমাবদ্ধতা:

২. Precision (বিশুদ্ধতা)

ফর্মুলা:

উদাহরণ:

সীমাবদ্ধতা:

৩. Recall (সংবেদনশীলতা)

ফর্মুলা:

উদাহরণ:

সীমাবদ্ধতা:

৪. F1 Score

ফর্মুলা:

উদাহরণ:

সীমাবদ্ধতা:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!