ডেটাসেট প্রস্তুতি (CSV ফাইল লোড করা)

Python এ Logistic Regression এর জন্য সেটআপ - পাইথনে লজিস্টিক রিগ্রেশন (Logistic Regression in Python) - Machine Learning

334

CSV (Comma Separated Values) ফাইল হল একটি সাধারণ ফাইল ফরম্যাট, যা সাধারণত টেবিল আকারে ডেটা সংরক্ষণ করতে ব্যবহৃত হয়। Python-এ pandas লাইব্রেরি ব্যবহার করে সহজেই CSV ফাইল লোড এবং প্রক্রিয়া করা যায়।

নিচে CSV ফাইল লোড করার প্রক্রিয়া এবং ডেটা প্রিপ্রসেসিংয়ের কিছু ধাপ দেওয়া হলো।


1. প্রয়োজনীয় লাইব্রেরি ইনস্টল করা

প্রথমে, pandas লাইব্রেরি ইনস্টল করতে হবে, যদি আপনার সিস্টেমে এটি ইনস্টল না থাকে:

pip install pandas

2. CSV ফাইল লোড করা

pandas লাইব্রেরির read_csv() ফাংশন ব্যবহার করে খুব সহজে CSV ফাইল লোড করা যায়।

import pandas as pd

# CSV ফাইল লোড করা
df = pd.read_csv('path_to_your_file.csv')

# ডেটার প্রথম ৫টি রেকর্ড দেখতে
print(df.head())

উপরের কোডে:

  • read_csv() ফাংশনটি একটি CSV ফাইল থেকে ডেটা লোড করে এবং একটি DataFrame আকারে রিটার্ন করে।
  • .head() ফাংশনটি ডেটাসেটের প্রথম ৫টি রেকর্ড দেখাবে, যাতে আপনি দ্রুত ডেটার স্ট্রাকচার দেখে নিতে পারেন।

3. CSV ফাইলের বিভিন্ন অপশন:

(a) পাথ পরিবর্তন:

যদি CSV ফাইলটি আপনার বর্তমান ডিরেক্টরিতে না থাকে, তাহলে ফাইলের পূর্ণ পাথ ব্যবহার করতে হবে:

df = pd.read_csv('C:/Users/YourName/Documents/data.csv')

(b) কাস্টম ডেলিমিটার ব্যবহার:

যদি আপনার CSV ফাইলে কমা বাদে অন্য কোনো সেপারেটর (যেমন ট্যাব, সেমিকোলন ইত্যাদি) ব্যবহার করা হয়, তাহলে sep অপশন ব্যবহার করে সেই সেপারেটর উল্লেখ করতে পারেন।

df = pd.read_csv('data.csv', sep=';')  # সেমিকোলন সেপারেটর

(c) নির্দিষ্ট কলাম নির্বাচন করা:

কখনও কখনও ডেটাসেটের সব কলাম লোড করতে নাও হতে পারে। আপনি নির্দিষ্ট কলাম নির্বাচন করতে পারেন usecols অপশন দিয়ে।

df = pd.read_csv('data.csv', usecols=['column1', 'column2'])

(d) ইনডেক্স কলাম নির্ধারণ:

CSV ফাইলে কোনো বিশেষ কলামকে ইনডেক্স হিসেবে ব্যবহার করতে চাইলে index_col অপশন ব্যবহার করতে পারেন।

df = pd.read_csv('data.csv', index_col='column_name')

4. ডেটা প্রিপ্রসেসিং:

CSV ফাইল লোড করার পর কিছু সাধারণ প্রিপ্রসেসিং স্টেপস নিচে দেওয়া হলো:

(a) Missing Values চেক করা:

ডেটাতে কোন মান (missing value) আছে কিনা চেক করতে পারেন।

# Missing values চেক করা
print(df.isnull().sum())

(b) ডেটার ধরন চেক করা:

ডেটার ধরন বা টाइপ চেক করতে:

# ডেটার ধরন চেক করা
print(df.dtypes)

(c) ডেটা স্ট্যাটিস্টিক্স দেখা:

ডেটার মৌলিক স্ট্যাটিস্টিক্স যেমন গড়, সর্বোচ্চ, সর্বনিম্ন ইত্যাদি দেখতে:

# ডেটার স্ট্যাটিস্টিক্স দেখা
print(df.describe())

(d) ডুপ্লিকেট রেকর্ড সরানো:

কখনও কখনও ডেটাতে ডুপ্লিকেট রেকর্ড থাকতে পারে, যা সরাতে:

# ডুপ্লিকেট রেকর্ড সরানো
df = df.drop_duplicates()

5. CSV ফাইলের সেভ করা

যদি ডেটাতে কোনো পরিবর্তন করেন এবং তা সেভ করতে চান, তাহলে নিচের মতো to_csv() ফাংশন ব্যবহার করতে পারেন:

# পরিবর্তিত ডেটা সেভ করা
df.to_csv('path_to_save_file.csv', index=False)

এখানে index=False ব্যবহার করা হয়েছে যাতে ইনডেক্স কলামটি সেভ না হয়।


সারাংশ

  • CSV ফাইল লোড: pandas.read_csv() ব্যবহার করে CSV ফাইল লোড করা হয়।
  • ডেটা প্রিপ্রসেসিং: Missing values চেক, ডুপ্লিকেট রেকর্ড সরানো, স্ট্যাটিস্টিক্যাল বিশ্লেষণ করা।
  • ডেটা সেভ করা: to_csv() ব্যবহার করে পরিবর্তিত ডেটা আবার CSV ফাইলে সেভ করা।

এভাবে Python এবং Pandas ব্যবহার করে খুব সহজে CSV ফাইল লোড এবং প্রক্রিয়া করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...