উদাহরণসহ Large Dataset নিয়ে কাজ করা

LightGBM এবং Large Datasets - লাইটজিবিএম (LightGBM) - Latest Technologies

267

বৃহৎ ডেটাসেট নিয়ে কাজ করা একটি সাধারণ চ্যালেঞ্জ, বিশেষ করে মেশিন লার্নিং এবং ডেটা বিশ্লেষণের ক্ষেত্রে। এখানে একটি উদাহরণসহ দেখানো হচ্ছে কিভাবে একটি বড় ডেটাসেট নিয়ে কাজ করা যায়। আমরা pandas লাইব্রেরি এবং কিছু অন্যান্য টুল ব্যবহার করবো।

প্রজেক্টের উদ্দেশ্য: বৃহৎ ডেটাসেট বিশ্লেষণ

আমরা একটি বড় ডেটাসেট ব্যবহার করবো (যেমন, Titanic Dataset) এবং কিছু মৌলিক বিশ্লেষণ এবং মডেল তৈরি করবো।

ধাপ ১: লাইব্রেরি ইনস্টল এবং লোড করা

pip install pandas scikit-learn matplotlib seaborn

এবং Python স্ক্রিপ্টে লাইব্রেরি লোড করুন:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

ধাপ ২: ডেটাসেট লোড করা

আমরা Titanic Dataset ব্যবহার করবো, যা সাধারনত Kaggle থেকে ডাউনলোড করা হয়।

# ডেটাসেট লোড করা
data = pd.read_csv('titanic.csv')

# ডেটা দেখুন
print(data.head())

ধাপ ৩: ডেটা বিশ্লেষণ

৩.১. মৌলিক তথ্য

# ডেটাসেটের মৌলিক তথ্য দেখুন
print(data.info())

# পরিসংখ্যান
print(data.describe())

৩.২. হারানো মান পরীক্ষা

# হারানো মানের পরিমাণ দেখা
missing_values = data.isnull().sum()
print("Missing values in each column:")
print(missing_values[missing_values > 0])

ধাপ ৪: ডেটা প্রিপ্রসেসিং

৪.১. হারানো মান পূরণ

# 'Age' কলামের হারানো মান পূরণ করা
data['Age'].fillna(data['Age'].median(), inplace=True)

# 'Embarked' কলামের হারানো মান পূরণ করা
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

৪.২. ক্যাটেগরিক্যাল ডেটা এনকোডিং

# ক্যাটেগরিক্যাল ডেটার জন্য ওয়ান-হট এনকোডিং
data = pd.get_dummies(data, columns=['Sex', 'Embarked'], drop_first=True)

ধাপ ৫: ডেটা বিভাজন

Training এবং Testing Dataset তৈরি করুন:

from sklearn.model_selection import train_test_split

# ফিচার এবং টার্গেট নির্ধারণ
X = data.drop(['Survived', 'Name', 'Ticket', 'Cabin', 'PassengerId'], axis=1)
y = data['Survived']

# Training এবং Testing Dataset তৈরি
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f'Training data size: {X_train.shape[0]}')
print(f'Testing data size: {X_test.shape[0]}')

ধাপ ৬: মডেল তৈরি এবং প্রশিক্ষণ

from sklearn.ensemble import RandomForestClassifier

# মডেল তৈরি
model = RandomForestClassifier()

# মডেল প্রশিক্ষণ
model.fit(X_train, y_train)

ধাপ ৭: মডেল মূল্যায়ন

from sklearn.metrics import classification_report, accuracy_score

# Testing সেটের উপর পূর্বাভাস
y_pred = model.predict(X_test)

# মডেল মূল্যায়ন
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(classification_report(y_test, y_pred))

ধাপ ৮: ফলাফল বিশ্লেষণ

# ফলাফল বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন
sns.countplot(data['Survived'])
plt.title('Survival Count')
plt.show()

সারসংক্ষেপ

এই প্রক্রিয়ায়, আমরা একটি বড় ডেটাসেট নিয়ে কাজ করেছি, যেখানে ডেটা বিশ্লেষণ, প্রিপ্রসেসিং, মডেল তৈরি এবং মূল্যায়ন অন্তর্ভুক্ত ছিল। এটি একটি সহজ কিন্তু কার্যকরী প্রক্রিয়া, যা বৃহৎ ডেটাসেটের সাথে কাজ করার সময় মডেলের কার্যকারিতা এবং ডেটার গুণমান উন্নত করতে সহায়তা করে।

আপনার প্রকল্পের প্রয়োজন অনুসারে উপরে উল্লেখিত প্রতিটি ধাপ সমন্বিতভাবে পরিচালনা করতে হবে এবং বৃহৎ ডেটাসেট নিয়ে কাজ করার সময় কার্যকরী কৌশলগুলি অনুসরণ করতে হবে।

Content added By

Md. Nasir Uddin (Raju)

Large Datasets এ LightGBM এর কার্যকারিতা GOSS (Gradient-based One-Side Sampling) এবং EFB (Exclusive Feature Bundling) Memory Optimization এবং Training Efficiency

উদাহরণসহ Large Dataset নিয়ে কাজ করা

প্রজেক্টের উদ্দেশ্য: বৃহৎ ডেটাসেট বিশ্লেষণ

ধাপ ১: লাইব্রেরি ইনস্টল এবং লোড করা

ধাপ ২: ডেটাসেট লোড করা

ধাপ ৩: ডেটা বিশ্লেষণ

৩.১. মৌলিক তথ্য

৩.২. হারানো মান পরীক্ষা

ধাপ ৪: ডেটা প্রিপ্রসেসিং

৪.১. হারানো মান পূরণ

৪.২. ক্যাটেগরিক্যাল ডেটা এনকোডিং

ধাপ ৫: ডেটা বিভাজন

ধাপ ৬: মডেল তৈরি এবং প্রশিক্ষণ

ধাপ ৭: মডেল মূল্যায়ন

ধাপ ৮: ফলাফল বিশ্লেষণ

সারসংক্ষেপ

Promotion

Satt AI

Hi, আমি SATT AI!

উদাহরণসহ Large Dataset নিয়ে কাজ করা

প্রজেক্টের উদ্দেশ্য: বৃহৎ ডেটাসেট বিশ্লেষণ

ধাপ ১: লাইব্রেরি ইনস্টল এবং লোড করা

ধাপ ২: ডেটাসেট লোড করা

ধাপ ৩: ডেটা বিশ্লেষণ

৩.১. মৌলিক তথ্য

৩.২. হারানো মান পরীক্ষা

ধাপ ৪: ডেটা প্রিপ্রসেসিং

৪.১. হারানো মান পূরণ

৪.২. ক্যাটেগরিক্যাল ডেটা এনকোডিং

ধাপ ৫: ডেটা বিভাজন

ধাপ ৬: মডেল তৈরি এবং প্রশিক্ষণ

ধাপ ৭: মডেল মূল্যায়ন

ধাপ ৮: ফলাফল বিশ্লেষণ

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!