উদাহরণসহ ডেটা প্রিপারেশন প্রক্রিয়া

ডেটা প্রিপারেশন এবং SageMaker - সেইজমেকার (SageMaker) - Latest Technologies

159

ডেটা প্রিপারেশন হল মেশিন লার্নিং প্রক্রিয়ার একটি গুরুত্বপূর্ণ অংশ, কারণ সঠিক এবং পরিষ্কার ডেটা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে। নিচে Amazon SageMaker ব্যবহার করে ডেটা প্রিপারেশন প্রক্রিয়া উদাহরণসহ আলোচনা করা হলো:

ধাপ ১: ডেটা সংগ্রহ

ডেটা সংগ্রহের জন্য বিভিন্ন উৎস ব্যবহার করা যেতে পারে। এটি CSV ফাইল, Excel স্প্রেডশীট, বা ডাটাবেস থেকেও হতে পারে।

উদাহরণ:

ধরুন, আপনি একটি CSV ফাইল ব্যবহার করছেন যেখানে আপনার বৈশিষ্ট্য এবং লক্ষ্য পরিবর্তনশীলগুলি রয়েছে, যেমন house_prices.csv।

ধাপ ২: ডেটা লোড করা

SageMaker-এ ডেটা লোড করার জন্য, প্রথমে আপনাকে Amazon S3 (Simple Storage Service) ব্যবহার করে ডেটা আপলোড করতে হবে।

২.১. S3 বালতিতে ডেটা আপলোড

S3 Console-এ যান: AWS Management Console থেকে S3 সেবা নির্বাচন করুন।
নতুন বালতি তৈরি করুন: "Create bucket" বাটনে ক্লিক করে একটি নতুন বালতি তৈরি করুন (যেমন my-ml-data নামে)।
CSV ফাইল আপলোড করুন: তৈরি করা বালতিতে house_prices.csv ফাইল আপলোড করুন।

ধাপ ৩: SageMaker-এ ডেটা লোড করা

৩.১. SageMaker নোটবুক খুলুন

SageMaker কনসোল থেকে আপনার নোটবুক ইন্সট্যান্স খুলুন।
Jupyter নোটবুক UI-তে একটি নতুন Python 3 নোটবুক তৈরি করুন।

৩.২. প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

import boto3
import pandas as pd

# S3 থেকে ডেটা লোড করার জন্য boto3 এবং pandas ব্যবহার করুন

৩.৩. S3 থেকে ডেটা লোড করা

# S3 থেকে CSV ফাইল লোড করুন
s3_bucket = 'my-ml-data'
file_name = 'house_prices.csv'

# S3 থেকে ডেটা লোড করা
s3_client = boto3.client('s3')
data = s3_client.get_object(Bucket=s3_bucket, Key=file_name)

# Pandas DataFrame এ ডেটা পড়ুন
df = pd.read_csv(data['Body'])
print(df.head())  # ডেটার প্রথম ৫টি সারি দেখুন

ধাপ ৪: ডেটা ক্লিনিং

ডেটা ক্লিনিং হল ডেটা থেকে অপ্রয়োজনীয় বা ভুল তথ্য সরানোর প্রক্রিয়া। এখানে কিছু সাধারণ কাজ রয়েছে:

৪.১. মিসিং ভ্যালু চেক করা

# মিসিং ভ্যালু চেক করা
print(df.isnull().sum())

৪.২. মিসিং ভ্যালু পূরণ করা

# মিসিং ভ্যালু পূরণ করা (যেমন, গড়ের মাধ্যমে)
df.fillna(df.mean(), inplace=True)

৪.৩. ডেটা টাইপ পরিবর্তন করা

# ডেটা টাইপ পরিবর্তন করা (যেমন, 'price' কলামের ডেটা টাইপ পরিবর্তন)
df['price'] = df['price'].astype(float)

ধাপ ৫: ফিচার ইঞ্জিনিয়ারিং

ফিচার ইঞ্জিনিয়ারিং হল নতুন বৈশিষ্ট্য তৈরি করা, যা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে।

৫.১. নতুন বৈশিষ্ট্য তৈরি করা

# নতুন বৈশিষ্ট্য তৈরি করুন (যেমন, 'price_per_sqft')
df['price_per_sqft'] = df['price'] / df['sqft_living']

ধাপ ৬: ডেটা ভাগ করা

মডেলের প্রশিক্ষণ এবং পরীক্ষার জন্য ডেটা ভাগ করা অপরিহার্য।

from sklearn.model_selection import train_test_split

# ডেটা ভাগ করা (৮০% প্রশিক্ষণের জন্য, ২০% পরীক্ষণের জন্য)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

ধাপ ৭: ডেটা সেভ করা

প্রস্তুত ডেটা S3 তে আবার আপলোড করা যেতে পারে।

# প্রশিক্ষণের জন্য প্রস্তুত ডেটা S3 তে আপলোড করা
train_df.to_csv('s3://my-ml-data/train_data.csv', index=False)
test_df.to_csv('s3://my-ml-data/test_data.csv', index=False)

উপসংহার

ডেটা প্রিপারেশন প্রক্রিয়া মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ পদক্ষেপ। এই প্রক্রিয়াগুলি অনুসরণ করে, আপনি ডেটা পরিষ্কার এবং প্রস্তুত করতে পারবেন, যা মডেলের কার্যকারিতা উন্নত করতে সহায়ক।

Content added By

Md. Nasir Uddin (Raju)

Data Wrangling এবং Preprocessing এর প্রয়োজনীয়তা SageMaker Data Wrangler ব্যবহার করে ডেটা প্রিপারেশন Feature Engineering এবং Data Cleaning

উদাহরণসহ ডেটা প্রিপারেশন প্রক্রিয়া

ধাপ ১: ডেটা সংগ্রহ

ধাপ ২: ডেটা লোড করা

২.১. S3 বালতিতে ডেটা আপলোড

ধাপ ৩: SageMaker-এ ডেটা লোড করা

৩.১. SageMaker নোটবুক খুলুন

৩.২. প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

৩.৩. S3 থেকে ডেটা লোড করা

ধাপ ৪: ডেটা ক্লিনিং

৪.১. মিসিং ভ্যালু চেক করা

৪.২. মিসিং ভ্যালু পূরণ করা

৪.৩. ডেটা টাইপ পরিবর্তন করা

ধাপ ৫: ফিচার ইঞ্জিনিয়ারিং

৫.১. নতুন বৈশিষ্ট্য তৈরি করা

ধাপ ৬: ডেটা ভাগ করা

ধাপ ৭: ডেটা সেভ করা

উপসংহার

Promotion

Satt AI

Hi, আমি SATT AI!

উদাহরণসহ ডেটা প্রিপারেশন প্রক্রিয়া

ধাপ ১: ডেটা সংগ্রহ

ধাপ ২: ডেটা লোড করা

২.১. S3 বালতিতে ডেটা আপলোড

ধাপ ৩: SageMaker-এ ডেটা লোড করা

৩.১. SageMaker নোটবুক খুলুন

৩.২. প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

৩.৩. S3 থেকে ডেটা লোড করা

ধাপ ৪: ডেটা ক্লিনিং

৪.১. মিসিং ভ্যালু চেক করা

৪.২. মিসিং ভ্যালু পূরণ করা

৪.৩. ডেটা টাইপ পরিবর্তন করা

ধাপ ৫: ফিচার ইঞ্জিনিয়ারিং

৫.১. নতুন বৈশিষ্ট্য তৈরি করা

ধাপ ৬: ডেটা ভাগ করা

ধাপ ৭: ডেটা সেভ করা

উপসংহার

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!