Training, Validation এবং Test Data Split

Data Preprocessing এবং Augmentation - কেরাস (Keras) - Machine Learning

389

Training, Validation, এবং Test ডেটা স্প্লিট হল ডীপ লার্নিং এবং মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটাকে তিনটি ভাগে ভাগ করা হয়: ট্রেনিং ডেটা, ভ্যালিডেশন ডেটা, এবং টেস্ট ডেটা। এই তিনটি ডেটাসেট মডেল ট্রেনিং, হাইপারপ্যারামিটার টিউনিং এবং ফাইনাল মূল্যায়নের জন্য ব্যবহৃত হয়।

এই প্রক্রিয়াটি মডেল ওভারফিটিং (overfitting) এবং আন্ডারফিটিং (underfitting) এড়াতে সাহায্য করে এবং মডেলের সামগ্রিক পারফরম্যান্সের সঠিক মূল্যায়ন প্রদান করে।

১. Training Data (ট্রেনিং ডেটা)

ট্রেনিং ডেটা হল সেই ডেটা যা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হয়। মডেলটি এই ডেটা থেকে প্যাটার্ন শিখে এবং তার উপর ভিত্তি করে ভবিষ্যদ্বাণী করতে শেখে। ট্রেনিং ডেটা সাধারণত ডেটাসেটের একটি বড় অংশ গঠন করে (প্রায় ৭০-৮০%)।

কাজ: মডেলকে প্যাটার্ন শিখানোর জন্য ব্যবহৃত হয়।
ফাংশন: মডেল এর ওয়েট আপডেট করতে সাহায্য করে, যাতে ভবিষ্যদ্বাণী করা আরও সঠিক হয়।

২. Validation Data (ভ্যালিডেশন ডেটা)

ভ্যালিডেশন ডেটা হল সেই ডেটা যা মডেল ট্রেনিং চলাকালীন সময়ে ব্যবহার করা হয় হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য। মডেল যখন ট্রেনিং ডেটা শিখে, তখন ভ্যালিডেশন ডেটার মাধ্যমে তার পারফরম্যান্স পরীক্ষা করা হয় এবং মডেলের ওভারফিটিং বা আন্ডারফিটিং এড়ানোর জন্য হাইপারপ্যারামিটার সমন্বয় করা হয়।

কাজ: হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য ব্যবহৃত হয়।
ফাংশন: মডেল ট্রেনিং চলাকালীন সময়ে হাইপারপ্যারামিটার পরিবর্তন এবং অপটিমাইজেশনের জন্য ব্যবহৃত হয়, কিন্তু এই ডেটাতে মডেল শিখে না।

৩. Test Data (টেস্ট ডেটা)

টেস্ট ডেটা হল সেই ডেটা যা মডেল প্রশিক্ষণ শেষ হওয়ার পর ব্যবহৃত হয়। এটি মডেলের শেষ মূল্যায়নের জন্য ব্যবহৃত হয় এবং মডেলের পারফরম্যান্সের একটি অবজেকটিভ (নিরপেক্ষ) মূল্যায়ন প্রদান করে। টেস্ট ডেটা কখনই মডেল প্রশিক্ষণের জন্য ব্যবহার করা উচিত নয়, কারণ এটি মডেলের ক্ষমতা পরীক্ষা করার জন্য ব্যবহৃত হয়।

কাজ: মডেলের পারফরম্যান্সের চূড়ান্ত মূল্যায়ন।
ফাংশন: মডেল ট্রেনিং শেষ হওয়ার পর মডেলের জেনারেলাইজেশন ক্ষমতা যাচাই করার জন্য ব্যবহৃত হয়।

৪. Data Split Ratio

ডেটা স্প্লিট করার সাধারণ একটি পদ্ধতি হলো:

Training Data: ৭০-৮০%
Validation Data: ১০-২০%
Test Data: ১০-২০%

এই অনুপাত পরিবর্তিত হতে পারে, তবে ট্রেনিং ডেটার পরিমাণ সবসময় সবচেয়ে বেশি রাখা হয়, যাতে মডেল যথেষ্ট তথ্য থেকে শিখতে পারে। ভ্যালিডেশন এবং টেস্ট ডেটার জন্য সাধারণত ছোট পরিমাণ ডেটা যথেষ্ট থাকে, তবে এর পরিমাণ মডেলের ধরনের উপর নির্ভর করে বাড়ানো বা কমানো যেতে পারে।

৫. Data Split উদাহরণ (Python Code)

নীচে Python এর train_test_split ফাংশন ব্যবহার করে ডেটা স্প্লিট করার একটি উদাহরণ দেওয়া হলো:

from sklearn.model_selection import train_test_split

# উদাহরণস্বরূপ ডেটা
X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]  # ইনপুট ডেটা
y = [1, 1, 0, 0, 1, 0, 1, 0, 1, 0]  # আউটপুট (লেবেল)

# ডেটা স্প্লিট
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)

# ভ্যালিডেশন এবং টেস্ট ডেটা ভাগ করা
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print("Training data:", X_train, y_train)
print("Validation data:", X_val, y_val)
print("Test data:", X_test, y_test)

এই কোডে প্রথমে 60% ডেটা ট্রেনিং জন্য, বাকি 40% ডেটা ভ্যালিডেশন এবং টেস্ট ডেটাতে ভাগ করা হয়েছে। এরপর 40% থেকে 50% ভ্যালিডেশন এবং 50% টেস্ট ডেটাতে ভাগ করা হয়েছে।

৬. Cross-validation

K-fold Cross-Validation হলো একটি উন্নত কৌশল যা মডেলের পারফরম্যান্সের আরও সঠিক মূল্যায়ন করতে সাহায্য করে। এতে ডেটাকে K ভাগে ভাগ করা হয়, এবং প্রতি একটি ভাগকে টেস্ট সেট হিসেবে এবং বাকি অংশটিকে ট্রেনিং সেট হিসেবে ব্যবহার করা হয়। এই প্রক্রিয়া K বার পুনরাবৃত্তি হয়, যাতে মডেলের সাধারণীকরণ ক্ষমতা পর্যালোচনা করা যায়।

সারাংশ

Training Data: মডেল শিখানোর জন্য ব্যবহৃত হয়।
Validation Data: হাইপারপ্যারামিটার টিউনিং এবং মডেল সিলেকশনের জন্য ব্যবহৃত হয়।
Test Data: মডেলের পারফরম্যান্স পরীক্ষার জন্য ব্যবহৃত হয়।

ডেটা স্প্লিটের অনুপাত সাধারণত ৭০-৮০% ট্রেনিং, ১০-২০% ভ্যালিডেশন এবং ১০-২০% টেস্ট হয়। Cross-validation মডেলের দক্ষতা আরও ভালভাবে মূল্যায়ন করার জন্য ব্যবহৃত একটি শক্তিশালী কৌশল।

Content added By

Azizar Rahman Aziz

ডেটা লোড করা (CSV, Image, Text) ডেটা Normalization এবং Standardization Data Augmentation এবং এর প্রয়োজনীয়তা

Training, Validation এবং Test Data Split

১. Training Data (ট্রেনিং ডেটা)

২. Validation Data (ভ্যালিডেশন ডেটা)

৩. Test Data (টেস্ট ডেটা)

৪. Data Split Ratio

৫. Data Split উদাহরণ (Python Code)

৬. Cross-validation

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Training, Validation এবং Test Data Split

১. Training Data (ট্রেনিং ডেটা)

২. Validation Data (ভ্যালিডেশন ডেটা)

৩. Test Data (টেস্ট ডেটা)

৪. Data Split Ratio

৫. Data Split উদাহরণ (Python Code)

৬. Cross-validation

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!