উদাহরণসহ ডেটা প্রিপারেশন প্রক্রিয়া

ডেটা প্রিপারেশন এবং SageMaker - সেইজমেকার (SageMaker) - Latest Technologies

159

ডেটা প্রিপারেশন হল মেশিন লার্নিং প্রক্রিয়ার একটি গুরুত্বপূর্ণ অংশ, কারণ সঠিক এবং পরিষ্কার ডেটা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে। নিচে Amazon SageMaker ব্যবহার করে ডেটা প্রিপারেশন প্রক্রিয়া উদাহরণসহ আলোচনা করা হলো:

ধাপ ১: ডেটা সংগ্রহ

ডেটা সংগ্রহের জন্য বিভিন্ন উৎস ব্যবহার করা যেতে পারে। এটি CSV ফাইল, Excel স্প্রেডশীট, বা ডাটাবেস থেকেও হতে পারে।

উদাহরণ:

  • ধরুন, আপনি একটি CSV ফাইল ব্যবহার করছেন যেখানে আপনার বৈশিষ্ট্য এবং লক্ষ্য পরিবর্তনশীলগুলি রয়েছে, যেমন house_prices.csv

ধাপ ২: ডেটা লোড করা

SageMaker-এ ডেটা লোড করার জন্য, প্রথমে আপনাকে Amazon S3 (Simple Storage Service) ব্যবহার করে ডেটা আপলোড করতে হবে।

২.১. S3 বালতিতে ডেটা আপলোড

  1. S3 Console-এ যান: AWS Management Console থেকে S3 সেবা নির্বাচন করুন।
  2. নতুন বালতি তৈরি করুন: "Create bucket" বাটনে ক্লিক করে একটি নতুন বালতি তৈরি করুন (যেমন my-ml-data নামে)।
  3. CSV ফাইল আপলোড করুন: তৈরি করা বালতিতে house_prices.csv ফাইল আপলোড করুন।

ধাপ ৩: SageMaker-এ ডেটা লোড করা

৩.১. SageMaker নোটবুক খুলুন

  1. SageMaker কনসোল থেকে আপনার নোটবুক ইন্সট্যান্স খুলুন।
  2. Jupyter নোটবুক UI-তে একটি নতুন Python 3 নোটবুক তৈরি করুন।

৩.২. প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

import boto3
import pandas as pd

# S3 থেকে ডেটা লোড করার জন্য boto3 এবং pandas ব্যবহার করুন

৩.৩. S3 থেকে ডেটা লোড করা

# S3 থেকে CSV ফাইল লোড করুন
s3_bucket = 'my-ml-data'
file_name = 'house_prices.csv'

# S3 থেকে ডেটা লোড করা
s3_client = boto3.client('s3')
data = s3_client.get_object(Bucket=s3_bucket, Key=file_name)

# Pandas DataFrame এ ডেটা পড়ুন
df = pd.read_csv(data['Body'])
print(df.head())  # ডেটার প্রথম ৫টি সারি দেখুন

ধাপ ৪: ডেটা ক্লিনিং

ডেটা ক্লিনিং হল ডেটা থেকে অপ্রয়োজনীয় বা ভুল তথ্য সরানোর প্রক্রিয়া। এখানে কিছু সাধারণ কাজ রয়েছে:

৪.১. মিসিং ভ্যালু চেক করা

# মিসিং ভ্যালু চেক করা
print(df.isnull().sum())

৪.২. মিসিং ভ্যালু পূরণ করা

# মিসিং ভ্যালু পূরণ করা (যেমন, গড়ের মাধ্যমে)
df.fillna(df.mean(), inplace=True)

৪.৩. ডেটা টাইপ পরিবর্তন করা

# ডেটা টাইপ পরিবর্তন করা (যেমন, 'price' কলামের ডেটা টাইপ পরিবর্তন)
df['price'] = df['price'].astype(float)

ধাপ ৫: ফিচার ইঞ্জিনিয়ারিং

ফিচার ইঞ্জিনিয়ারিং হল নতুন বৈশিষ্ট্য তৈরি করা, যা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে।

৫.১. নতুন বৈশিষ্ট্য তৈরি করা

# নতুন বৈশিষ্ট্য তৈরি করুন (যেমন, 'price_per_sqft')
df['price_per_sqft'] = df['price'] / df['sqft_living']

ধাপ ৬: ডেটা ভাগ করা

মডেলের প্রশিক্ষণ এবং পরীক্ষার জন্য ডেটা ভাগ করা অপরিহার্য।

from sklearn.model_selection import train_test_split

# ডেটা ভাগ করা (৮০% প্রশিক্ষণের জন্য, ২০% পরীক্ষণের জন্য)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

ধাপ ৭: ডেটা সেভ করা

প্রস্তুত ডেটা S3 তে আবার আপলোড করা যেতে পারে।

# প্রশিক্ষণের জন্য প্রস্তুত ডেটা S3 তে আপলোড করা
train_df.to_csv('s3://my-ml-data/train_data.csv', index=False)
test_df.to_csv('s3://my-ml-data/test_data.csv', index=False)

উপসংহার

ডেটা প্রিপারেশন প্রক্রিয়া মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ পদক্ষেপ। এই প্রক্রিয়াগুলি অনুসরণ করে, আপনি ডেটা পরিষ্কার এবং প্রস্তুত করতে পারবেন, যা মডেলের কার্যকারিতা উন্নত করতে সহায়ক। 

Promotion

Are you sure to start over?

Loading...