বৃহৎ ডেটাসেট নিয়ে কাজ করা একটি সাধারণ চ্যালেঞ্জ, বিশেষ করে মেশিন লার্নিং এবং ডেটা বিশ্লেষণের ক্ষেত্রে। এখানে একটি উদাহরণসহ দেখানো হচ্ছে কিভাবে একটি বড় ডেটাসেট নিয়ে কাজ করা যায়। আমরা pandas লাইব্রেরি এবং কিছু অন্যান্য টুল ব্যবহার করবো।
প্রজেক্টের উদ্দেশ্য: বৃহৎ ডেটাসেট বিশ্লেষণ
আমরা একটি বড় ডেটাসেট ব্যবহার করবো (যেমন, Titanic Dataset) এবং কিছু মৌলিক বিশ্লেষণ এবং মডেল তৈরি করবো।
ধাপ ১: লাইব্রেরি ইনস্টল এবং লোড করা
pip install pandas scikit-learn matplotlib seaborn
এবং Python স্ক্রিপ্টে লাইব্রেরি লোড করুন:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
ধাপ ২: ডেটাসেট লোড করা
আমরা Titanic Dataset ব্যবহার করবো, যা সাধারনত Kaggle থেকে ডাউনলোড করা হয়।
# ডেটাসেট লোড করা
data = pd.read_csv('titanic.csv')
# ডেটা দেখুন
print(data.head())
ধাপ ৩: ডেটা বিশ্লেষণ
৩.১. মৌলিক তথ্য
# ডেটাসেটের মৌলিক তথ্য দেখুন
print(data.info())
# পরিসংখ্যান
print(data.describe())
৩.২. হারানো মান পরীক্ষা
# হারানো মানের পরিমাণ দেখা
missing_values = data.isnull().sum()
print("Missing values in each column:")
print(missing_values[missing_values > 0])
ধাপ ৪: ডেটা প্রিপ্রসেসিং
৪.১. হারানো মান পূরণ
# 'Age' কলামের হারানো মান পূরণ করা
data['Age'].fillna(data['Age'].median(), inplace=True)
# 'Embarked' কলামের হারানো মান পূরণ করা
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
৪.২. ক্যাটেগরিক্যাল ডেটা এনকোডিং
# ক্যাটেগরিক্যাল ডেটার জন্য ওয়ান-হট এনকোডিং
data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)
ধাপ ৫: ডেটা বিভাজন
Training এবং Testing Dataset তৈরি করুন:
from sklearn.model_selection import train_test_split
# ফিচার এবং টার্গেট নির্ধারণ
X = data.drop(['Survived', 'Name', 'Ticket', 'Cabin', 'PassengerId'], axis=1)
y = data['Survived']
# Training এবং Testing Dataset তৈরি
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f'Training data size: {X_train.shape[0]}')
print(f'Testing data size: {X_test.shape[0]}')
ধাপ ৬: মডেল তৈরি এবং প্রশিক্ষণ
from sklearn.ensemble import RandomForestClassifier
# মডেল তৈরি
model = RandomForestClassifier()
# মডেল প্রশিক্ষণ
model.fit(X_train, y_train)
ধাপ ৭: মডেল মূল্যায়ন
from sklearn.metrics import classification_report, accuracy_score
# Testing সেটের উপর পূর্বাভাস
y_pred = model.predict(X_test)
# মডেল মূল্যায়ন
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(classification_report(y_test, y_pred))
ধাপ ৮: ফলাফল বিশ্লেষণ
# ফলাফল বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন
sns.countplot(data['Survived'])
plt.title('Survival Count')
plt.show()
সারসংক্ষেপ
এই প্রক্রিয়ায়, আমরা একটি বড় ডেটাসেট নিয়ে কাজ করেছি, যেখানে ডেটা বিশ্লেষণ, প্রিপ্রসেসিং, মডেল তৈরি এবং মূল্যায়ন অন্তর্ভুক্ত ছিল। এটি একটি সহজ কিন্তু কার্যকরী প্রক্রিয়া, যা বৃহৎ ডেটাসেটের সাথে কাজ করার সময় মডেলের কার্যকারিতা এবং ডেটার গুণমান উন্নত করতে সহায়তা করে।
আপনার প্রকল্পের প্রয়োজন অনুসারে উপরে উল্লেখিত প্রতিটি ধাপ সমন্বিতভাবে পরিচালনা করতে হবে এবং বৃহৎ ডেটাসেট নিয়ে কাজ করার সময় কার্যকরী কৌশলগুলি অনুসরণ করতে হবে।
Read more