প্রাথমিক Dataset সেটআপ করা এবং কাজের শুরু

LightGBM ইন্সটলেশন এবং সেটআপ - লাইটজিবিএম (LightGBM) - Latest Technologies

210

প্রাথমিক ডেটাসেট সেটআপ করা এবং মেশিন লার্নিং প্রকল্পে কাজ শুরু করার জন্য কিছু গুরুত্বপূর্ণ ধাপ রয়েছে। এখানে একটি বিস্তারিত গাইড দেওয়া হলো, যা একটি সাধারণ মেশিন লার্নিং প্রকল্পের জন্য উপযুক্ত ডেটাসেট তৈরি এবং সেটআপ করতে সহায়তা করবে।

ধাপ ১: ডেটা সংগ্রহ

প্রথমে আপনার প্রয়োজনীয় ডেটা সংগ্রহ করতে হবে। ডেটা বিভিন্ন উৎস থেকে আসতে পারে, যেমন:

অফলাইন সোর্স: সার্ভে, সংস্থার অভ্যন্তরীণ ডেটাবেস।
অনলাইন সোর্স: সরকারি ডেটাসেট, Kaggle, UCI Machine Learning Repository ইত্যাদি।

উদাহরণ:

যদি আপনি একটি "বাড়ির মূল্য পূর্বাভাস" প্রকল্প শুরু করতে চান, তাহলে আপনি Zillow বা Redfin থেকে বাড়ির মূল্য সম্পর্কিত ডেটা সংগ্রহ করতে পারেন।

ধাপ ২: ডেটা ফরম্যাট

ডেটা সাধারণত CSV, JSON, Excel ইত্যাদি ফরম্যাটে থাকতে পারে। নিশ্চিত করুন যে ডেটা একটি পরিচিত ফরম্যাটে আছে।

উদাহরণ:

আপনার CSV ফাইলের নাম হতে পারে housing_data.csv এবং এটি নিম্নলিখিত রূপে হতে পারে:

ID,Price,Bedrooms,Bathrooms,Square_Feet,Yard_Size
1,250000,3,2,1500,500
2,300000,4,3,2000,800
3,150000,2,1,900,300
...

ধাপ ৩: ডেটাসেট লোড করা

Python এবং Pandas লাইব্রেরি ব্যবহার করে ডেটাসেট লোড করা যায়।

import pandas as pd

# CSV ফাইল লোড করা
data = pd.read_csv('housing_data.csv')

# ডেটা দেখুন
print(data.head())

ধাপ ৪: প্রাথমিক ডেটা বিশ্লেষণ

ডেটা বোঝার জন্য প্রাথমিক বিশ্লেষণ করা গুরুত্বপূর্ণ। এর মধ্যে সারাংশ পরিসংখ্যান, ডেটা প্রকার এবং হারানো মান পরীক্ষা করা অন্তর্ভুক্ত রয়েছে।

# সারাংশ পরিসংখ্যান
print(data.describe())

# হারানো মান পরীক্ষা করা
print(data.isnull().sum())

ধাপ ৫: ডেটা প্রিপ্রসেসিং

ডেটা প্রিপ্রসেসিং এ অন্তর্ভুক্ত রয়েছে ডেটার পরিষ্কার করা, পরিবর্তনশীলগুলির স্কেলিং, এবং টার্গেট ভ্যারিয়েবল নির্ধারণ করা।

হারানো মান পূরণ করা: বিভিন্ন কৌশল ব্যবহার করে হারানো মান পূরণ করুন।
ক্যাটেগরিক্যাল ভ্যারিয়েবল এনকোডিং: লেবেল এনকোডিং বা ওয়ান-হট এনকোডিং ব্যবহার করুন।
ডেটা স্কেলিং: বিভিন্ন স্কেলিং পদ্ধতি যেমন Min-Max Scaling বা Standardization প্রয়োগ করুন।

# হারানো মান পূরণ
data.fillna(data.mean(), inplace=True)

# ক্যাটেগরিক্যাল ভ্যারিয়েবল এনকোডিং
data = pd.get_dummies(data, columns=['Bedrooms'], drop_first=True)

# স্কেলিং
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data[['Price', 'Bathrooms', 'Square_Feet', 'Yard_Size']] = scaler.fit_transform(data[['Price', 'Bathrooms', 'Square_Feet', 'Yard_Size']])

ধাপ ৬: ডেটাসেট ভাগ করা

ডেটাসেটটিকে প্রশিক্ষণ এবং পরীক্ষার সেটে ভাগ করুন। সাধারণভাবে, 70-80% প্রশিক্ষণের জন্য এবং 20-30% পরীক্ষণের জন্য ব্যবহার করা হয়।

from sklearn.model_selection import train_test_split

# ফিচার এবং টার্গেট সেট করা
X = data.drop('Price', axis=1)
y = data['Price']

# ডেটা ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

ধাপ ৭: মডেল নির্বাচন এবং প্রশিক্ষণ

এখন আপনি মডেল নির্বাচন করতে পারেন এবং প্রশিক্ষণের জন্য প্রস্তুতি নিতে পারেন। এখানে একটি সাধারণ রিগ্রেশন মডেল (যেমন Linear Regression) ব্যবহার করা হয়েছে।

from sklearn.linear_model import LinearRegression

# মডেল তৈরি
model = LinearRegression()

# মডেল প্রশিক্ষণ
model.fit(X_train, y_train)

ধাপ ৮: মডেল মূল্যায়ন

মডেলের কার্যকারিতা পরীক্ষা করতে, পরীক্ষার সেটের উপর মডেলটি মূল্যায়ন করুন।

from sklearn.metrics import mean_squared_error, r2_score

# পূর্বাভাস করা
y_pred = model.predict(X_test)

# মূল্যায়ন
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R-squared: {r2}')

সারসংক্ষেপ

এই গাইডটি একটি প্রাথমিক ডেটাসেট সেটআপ করার এবং একটি মেশিন লার্নিং প্রকল্পে কাজ শুরু করার জন্য প্রয়োজনীয় পদক্ষেপগুলো আলোচনা করেছে। ডেটা সংগ্রহ, প্রিপ্রসেসিং, মডেল প্রশিক্ষণ এবং মূল্যায়ন পর্যন্ত সব পদক্ষেপ বিস্তারিতভাবে উপস্থাপন করা হয়েছে। এই প্রক্রিয়াগুলো অনুসরণ করে আপনি একটি কার্যকরী মেশিন লার্নিং মডেল তৈরি করতে পারবেন।

Content added By

Md. Nasir Uddin (Raju)

LightGBM ইন্সটলেশন: Windows, Linux, এবং macOS Python এবং R এর সাথে LightGBM ইন্টিগ্রেশন LightGBM Library ইমপোর্ট এবং সেটআপ

প্রাথমিক Dataset সেটআপ করা এবং কাজের শুরু

ধাপ ১: ডেটা সংগ্রহ

উদাহরণ:

ধাপ ২: ডেটা ফরম্যাট

উদাহরণ:

ধাপ ৩: ডেটাসেট লোড করা

ধাপ ৪: প্রাথমিক ডেটা বিশ্লেষণ

ধাপ ৫: ডেটা প্রিপ্রসেসিং

ধাপ ৬: ডেটাসেট ভাগ করা

ধাপ ৭: মডেল নির্বাচন এবং প্রশিক্ষণ

ধাপ ৮: মডেল মূল্যায়ন

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

প্রাথমিক Dataset সেটআপ করা এবং কাজের শুরু

ধাপ ১: ডেটা সংগ্রহ

উদাহরণ:

ধাপ ২: ডেটা ফরম্যাট

উদাহরণ:

ধাপ ৩: ডেটাসেট লোড করা

ধাপ ৪: প্রাথমিক ডেটা বিশ্লেষণ

ধাপ ৫: ডেটা প্রিপ্রসেসিং

ধাপ ৬: ডেটাসেট ভাগ করা

ধাপ ৭: মডেল নির্বাচন এবং প্রশিক্ষণ

ধাপ ৮: মডেল মূল্যায়ন

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!