ডেটাসেট প্রস্তুতি (CSV ফাইল লোড করা)

Python এ Logistic Regression এর জন্য সেটআপ - পাইথনে লজিস্টিক রিগ্রেশন (Logistic Regression in Python) - Machine Learning

354

CSV (Comma Separated Values) ফাইল হল একটি সাধারণ ফাইল ফরম্যাট, যা সাধারণত টেবিল আকারে ডেটা সংরক্ষণ করতে ব্যবহৃত হয়। Python-এ pandas লাইব্রেরি ব্যবহার করে সহজেই CSV ফাইল লোড এবং প্রক্রিয়া করা যায়।

নিচে CSV ফাইল লোড করার প্রক্রিয়া এবং ডেটা প্রিপ্রসেসিংয়ের কিছু ধাপ দেওয়া হলো।

1. প্রয়োজনীয় লাইব্রেরি ইনস্টল করা

প্রথমে, pandas লাইব্রেরি ইনস্টল করতে হবে, যদি আপনার সিস্টেমে এটি ইনস্টল না থাকে:

pip install pandas

2. CSV ফাইল লোড করা

pandas লাইব্রেরির read_csv() ফাংশন ব্যবহার করে খুব সহজে CSV ফাইল লোড করা যায়।

import pandas as pd

# CSV ফাইল লোড করা
df = pd.read_csv('path_to_your_file.csv')

# ডেটার প্রথম ৫টি রেকর্ড দেখতে
print(df.head())

উপরের কোডে:

read_csv() ফাংশনটি একটি CSV ফাইল থেকে ডেটা লোড করে এবং একটি DataFrame আকারে রিটার্ন করে।
.head() ফাংশনটি ডেটাসেটের প্রথম ৫টি রেকর্ড দেখাবে, যাতে আপনি দ্রুত ডেটার স্ট্রাকচার দেখে নিতে পারেন।

3. CSV ফাইলের বিভিন্ন অপশন:

(a) পাথ পরিবর্তন:

যদি CSV ফাইলটি আপনার বর্তমান ডিরেক্টরিতে না থাকে, তাহলে ফাইলের পূর্ণ পাথ ব্যবহার করতে হবে:

df = pd.read_csv('C:/Users/YourName/Documents/data.csv')

(b) কাস্টম ডেলিমিটার ব্যবহার:

যদি আপনার CSV ফাইলে কমা বাদে অন্য কোনো সেপারেটর (যেমন ট্যাব, সেমিকোলন ইত্যাদি) ব্যবহার করা হয়, তাহলে sep অপশন ব্যবহার করে সেই সেপারেটর উল্লেখ করতে পারেন।

df = pd.read_csv('data.csv', sep=';')  # সেমিকোলন সেপারেটর

(c) নির্দিষ্ট কলাম নির্বাচন করা:

কখনও কখনও ডেটাসেটের সব কলাম লোড করতে নাও হতে পারে। আপনি নির্দিষ্ট কলাম নির্বাচন করতে পারেন usecols অপশন দিয়ে।

df = pd.read_csv('data.csv', usecols=['column1', 'column2'])

(d) ইনডেক্স কলাম নির্ধারণ:

CSV ফাইলে কোনো বিশেষ কলামকে ইনডেক্স হিসেবে ব্যবহার করতে চাইলে index_col অপশন ব্যবহার করতে পারেন।

df = pd.read_csv('data.csv', index_col='column_name')

4. ডেটা প্রিপ্রসেসিং:

CSV ফাইল লোড করার পর কিছু সাধারণ প্রিপ্রসেসিং স্টেপস নিচে দেওয়া হলো:

(a) Missing Values চেক করা:

ডেটাতে কোন মান (missing value) আছে কিনা চেক করতে পারেন।

# Missing values চেক করা
print(df.isnull().sum())

(b) ডেটার ধরন চেক করা:

ডেটার ধরন বা টाइপ চেক করতে:

# ডেটার ধরন চেক করা
print(df.dtypes)

(c) ডেটা স্ট্যাটিস্টিক্স দেখা:

ডেটার মৌলিক স্ট্যাটিস্টিক্স যেমন গড়, সর্বোচ্চ, সর্বনিম্ন ইত্যাদি দেখতে:

# ডেটার স্ট্যাটিস্টিক্স দেখা
print(df.describe())

(d) ডুপ্লিকেট রেকর্ড সরানো:

কখনও কখনও ডেটাতে ডুপ্লিকেট রেকর্ড থাকতে পারে, যা সরাতে:

# ডুপ্লিকেট রেকর্ড সরানো
df = df.drop_duplicates()

5. CSV ফাইলের সেভ করা

যদি ডেটাতে কোনো পরিবর্তন করেন এবং তা সেভ করতে চান, তাহলে নিচের মতো to_csv() ফাংশন ব্যবহার করতে পারেন:

# পরিবর্তিত ডেটা সেভ করা
df.to_csv('path_to_save_file.csv', index=False)

এখানে index=False ব্যবহার করা হয়েছে যাতে ইনডেক্স কলামটি সেভ না হয়।

সারাংশ

CSV ফাইল লোড: pandas.read_csv() ব্যবহার করে CSV ফাইল লোড করা হয়।
ডেটা প্রিপ্রসেসিং: Missing values চেক, ডুপ্লিকেট রেকর্ড সরানো, স্ট্যাটিস্টিক্যাল বিশ্লেষণ করা।
ডেটা সেভ করা: to_csv() ব্যবহার করে পরিবর্তিত ডেটা আবার CSV ফাইলে সেভ করা।

এভাবে Python এবং Pandas ব্যবহার করে খুব সহজে CSV ফাইল লোড এবং প্রক্রিয়া করা যায়।

Content added By

Azizar Rahman Aziz

Python ইনস্টলেশন এবং Virtual Environment তৈরি প্রয়োজনীয় লাইব্রেরি: NumPy, Pandas, Matplotlib, Scikit-learn Jupyter Notebook ইনস্টলেশন এবং ব্যবহার

ডেটাসেট প্রস্তুতি (CSV ফাইল লোড করা)

1. প্রয়োজনীয় লাইব্রেরি ইনস্টল করা

2. CSV ফাইল লোড করা

3. CSV ফাইলের বিভিন্ন অপশন:

(a) পাথ পরিবর্তন:

(b) কাস্টম ডেলিমিটার ব্যবহার:

(c) নির্দিষ্ট কলাম নির্বাচন করা:

(d) ইনডেক্স কলাম নির্ধারণ:

4. ডেটা প্রিপ্রসেসিং:

(a) Missing Values চেক করা:

(b) ডেটার ধরন চেক করা:

(c) ডেটা স্ট্যাটিস্টিক্স দেখা:

(d) ডুপ্লিকেট রেকর্ড সরানো:

5. CSV ফাইলের সেভ করা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

ডেটাসেট প্রস্তুতি (CSV ফাইল লোড করা)

1. প্রয়োজনীয় লাইব্রেরি ইনস্টল করা

2. CSV ফাইল লোড করা

3. CSV ফাইলের বিভিন্ন অপশন:

(a) পাথ পরিবর্তন:

(b) কাস্টম ডেলিমিটার ব্যবহার:

(c) নির্দিষ্ট কলাম নির্বাচন করা:

(d) ইনডেক্স কলাম নির্ধারণ:

4. ডেটা প্রিপ্রসেসিং:

(a) Missing Values চেক করা:

(b) ডেটার ধরন চেক করা:

(c) ডেটা স্ট্যাটিস্টিক্স দেখা:

(d) ডুপ্লিকেট রেকর্ড সরানো:

5. CSV ফাইলের সেভ করা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!