Training এবং Validation Dataset তৈরি করা একটি গুরুত্বপূর্ণ পদক্ষেপ মেশিন লার্নিং প্রকল্পে, যা মডেলের কার্যকারিতা মূল্যায়ন করতে সাহায্য করে। এখানে আমরা একটি উদাহরণের মাধ্যমে দেখাবো কিভাবে Training এবং Validation Dataset তৈরি করা যায়।
উদাহরণ: বাড়ির মূল্য পূর্বাভাস প্রকল্প
আমরা একটি উদাহরণ হিসেবে একটি বাড়ির মূল্য পূর্বাভাস প্রকল্পের জন্য Training এবং Validation Dataset তৈরি করবো।
ধাপ ১: ডেটাসেট সংগ্রহ
একটি ডেটাসেট ব্যবহার করুন, যেমন housing_data.csv।
ID,Price,Bedrooms,Bathrooms,Square_Feet,Yard_Size
1,250000,3,2,1500,500
2,300000,4,3,2000,800
3,150000,2,1,900,300
...
ধাপ ২: লাইব্রেরি লোড করা
Python এ প্রয়োজনীয় লাইব্রেরিগুলি লোড করুন।
import pandas as pd
from sklearn.model_selection import train_test_split
ধাপ ৩: ডেটাসেট লোড করা
CSV ফাইল থেকে ডেটাসেট লোড করুন।
# ডেটাসেট লোড করা
data = pd.read_csv('housing_data.csv')
# ডেটা দেখুন
print(data.head())
ধাপ ৪: ফিচার এবং টার্গেট সেট করা
ফিচার এবং টার্গেট ভ্যারিয়েবলগুলি নির্ধারণ করুন।
# ফিচার এবং টার্গেট সেট করা
X = data.drop(['ID', 'Price'], axis=1) # ID এবং Price বাদ দিন
y = data['Price']
ধাপ ৫: Training এবং Validation Dataset তৈরি করা
train_test_split ফাংশন ব্যবহার করে Training এবং Validation Dataset তৈরি করুন।
# Training এবং Validation Dataset তৈরি
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
# ফলাফল দেখুন
print(f'Training data size: {X_train.shape[0]}')
print(f'Validation data size: {X_val.shape[0]}')
সারসংক্ষেপ
এই প্রক্রিয়ায়, আমরা একটি CSV ফাইল থেকে ডেটাসেট লোড করেছি, ফিচার এবং টার্গেট ভ্যারিয়েবল নির্ধারণ করেছি এবং train_test_split ফাংশনের মাধ্যমে Training এবং Validation Dataset তৈরি করেছি। সাধারণত 80% ডেটা Training এর জন্য এবং 20% Validation এর জন্য ব্যবহার করা হয়, তবে আপনার প্রকল্পের প্রয়োজন অনুসারে এই অনুপাত পরিবর্তন করা যেতে পারে।
এখন আপনি Training Dataset ব্যবহার করে আপনার মডেল প্রশিক্ষণ দিতে পারেন এবং Validation Dataset ব্যবহার করে মডেলের কার্যকারিতা পরীক্ষা করতে পারেন।
Read more