Data লোড করা (CSV, Image, Text)

Data Preprocessing এবং Loading - মাইক্রোসফট কগনিটিভ টুলকিট (Microsoft Cognitive Toolkit) - Machine Learning

224

Microsoft Cognitive Toolkit (CNTK) ব্যবহার করে ডেটা লোড করা একটি গুরুত্বপূর্ণ পদক্ষেপ, কারণ এটি মডেল ট্রেনিং এবং ডিপ লার্নিং অ্যালগরিদম কার্যকরভাবে চালানোর জন্য প্রয়োজন। এখানে আমি CSV, Image, এবং Text ডেটা লোড করার কিছু সাধারণ পদ্ধতি আলোচনা করব।


1. CSV ডেটা লোড করা (Using CNTK)

CSV ডেটা লোড করার জন্য:

CNTK এর জন্য, সাধারণভাবে CSV ডেটা NumPy বা Pandas লাইব্রেরির সাহায্যে লোড করা হয় এবং তারপর CNTK InputVariable ব্যবহার করে ডেটাকে CNTK মডেলে ইনপুট হিসাবে ব্যবহার করা হয়।

ধাপ ১: CSV ডেটা লোড করা (Pandas ব্যবহার করে)

import pandas as pd
import numpy as np

# CSV ফাইল থেকে ডেটা লোড করা
data = pd.read_csv('data.csv')

# ডেটাকে numpy array তে রূপান্তর
data_array = data.values

ধাপ ২: CNTK InputVariable তৈরী করা

import cntk

# CNTK InputVariable তৈরি করা
input_var = cntk.input_variable(2)  # ধরুন আপনার ডেটায় 2টি ফিচার আছে

# ডেটাকে CNTK টেনসরে রূপান্তর করা
data_tensor = cntk.as_tensor(data_array)

# এখন আপনি CNTK মডেলে ইনপুট হিসেবে এই data_tensor ব্যবহার করতে পারবেন

2. Image ডেটা লোড করা (Using CNTK)

Image ডেটা লোড করার জন্য:

CNTK এ চিত্র (Image) ডেটা লোড করার জন্য CNTK.image_reader ব্যবহার করা হয়। এটি সাধারণত ছবির ডিরেক্টরি থেকে চিত্রগুলি লোড এবং প্রসেস করতে ব্যবহৃত হয়। এই প্রক্রিয়াটি সাধারণত ImageNet, MNIST ইত্যাদির মতো ডেটাসেটের জন্য প্রযোজ্য।

ধাপ ১: Image Data লোড করা (ImageReader ব্যবহার করে)

import cntk

# ImageReader ব্যবহার করে চিত্র ডেটা লোড করা
image_dir = 'path_to_images_directory'  # ছবির ডিরেক্টরি
image_reader = cntk.io.ImageReader(
    'image_data_map.txt',  # টেক্সট ফাইল যা ইমেজ এবং লেবেল সংক্রান্ত তথ্য ধারণ করে
    input_dim=(3, 224, 224),  # ইনপুট চিত্রের আকার
    is_training=True,  # ট্রেনিং চলাকালীন চিত্র লোড
    num_classes=10  # ক্লাসের সংখ্যা
)

# ImageReader টেনসরে রূপান্তর করা
image_data = image_reader.streams.features

ধাপ ২: Image Data প্রসেসিং

# চিত্রকে নির্দিষ্ট আকারে রিসাইজ করা
image_data_resized = cntk.ops.resize(image_data, (224, 224))

# চিত্র ডেটার সাথে লেবেল যুক্ত করা
image_data_with_labels = cntk.io.MinibatchSource(image_reader)

3. Text ডেটা লোড করা (Using CNTK)

Text ডেটা লোড করার জন্য:

CNTK এ Text ডেটা প্রক্রিয়া করার জন্য সাধারণত TextReader ব্যবহার করা হয়। এটি টেক্সট ডেটা, যেমন টেক্সট ফাইল বা লেবেলসহ টেক্সট ডেটা লোড করতে ব্যবহৃত হয়।

ধাপ ১: TextReader ব্যবহার করে টেক্সট ডেটা লোড করা

import cntk

# টেক্সট ডেটা লোড করতে TextReader ব্যবহার করা
text_file = 'text_data.txt'  # টেক্সট ফাইল যেখানে ডেটা সংরক্ষিত
text_reader = cntk.io.TextReader(text_file, is_training=True)

# টেক্সট ডেটা এবং লেবেল লোড করা
text_data = text_reader.streams.features
text_labels = text_reader.streams.labels

ধাপ ২: Text Data প্রসেসিং

CNTK সাধারণত Word2Vec, Glove বা FastText এর মতো প্রি-ট্রেইনড এম্বেডিং ব্যবহার করে টেক্সট ডেটা প্রক্রিয়া করতে পারে। এখানে একটি সহজ উদাহরণ দেওয়া হল।

import cntk

# টেক্সট ডেটাকে এম্বেডিং স্পেসে রূপান্তর
word_embeddings = cntk.ops.embedding(text_data, embedding_dim=300)

# প্রশিক্ষণের জন্য প্রস্তুত করা
processed_text = cntk.layers.Dense(128)(word_embeddings)

সারাংশ

  1. CSV ডেটা: CSV ডেটা সাধারণভাবে Pandas বা NumPy ব্যবহার করে লোড করা হয় এবং তারপর CNTK এর InputVariable-এ রূপান্তর করা হয়।
  2. Image ডেটা: CNTK.image_reader ব্যবহার করে চিত্র ডেটা লোড করা হয়, এবং এটি সাধারণত ImageNet বা MNIST এর মতো ডেটাসেটের জন্য ব্যবহৃত হয়।
  3. Text ডেটা: TextReader ব্যবহার করে টেক্সট ডেটা লোড করা হয় এবং প্রি-ট্রেইনড Word2Vec বা অন্যান্য এম্বেডিং ব্যবহারের মাধ্যমে প্রসেস করা হয়।

এই পদ্ধতিগুলি CNTK তে ডেটা লোড এবং প্রসেস করার জন্য সহায়ক, যা ডিপ লার্নিং মডেল তৈরির জন্য গুরুত্বপূর্ণ।

Content added By
Promotion

Are you sure to start over?

Loading...