Correlation Matrix এবং Pair Plot এর ব্যবহার

Exploratory Data Analysis (EDA) - পাইথন দিয়ে মেশিন লার্নিং (Machine Learning with Python) - Machine Learning

328

Correlation Matrix এবং Pair Plot মেশিন লার্নিং এবং ডেটা সায়েন্সে ডেটার মধ্যে সম্পর্ক (correlation) বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন করার জন্য দুটি অত্যন্ত গুরুত্বপূর্ণ টুল। এই দুটি টুল ব্যবহার করে আপনি আপনার ডেটার বিভিন্ন বৈশিষ্ট্য এবং তাদের সম্পর্ক বোঝার জন্য সহজ এবং কার্যকরী উপায় পেতে পারেন।

১. Correlation Matrix

Correlation Matrix হল একটি টেবিল যা বিভিন্ন বৈশিষ্ট্যের (features) মধ্যে সম্পর্কের পরিমাপ প্রদর্শন করে। এটি ডেটার মধ্যে বৈশিষ্ট্যগুলোর মধ্যে শক্তিশালী সম্পর্ক (positive/negative correlation) এবং কোন সম্পর্ক নেই তা চিহ্নিত করে।

Correlation Matrix এর বৈশিষ্ট্য:

  • Correlation Value: কোরিলেশন ভ্যালু সাধারণত -1 থেকে 1 এর মধ্যে থাকে।
    • 1: পূর্ণ ধনাত্মক সম্পর্ক (positive correlation)।
    • -1: পূর্ণ ঋণাত্মক সম্পর্ক (negative correlation)।
    • 0: কোন সম্পর্ক নেই।
  • এটি বিশেষত গুরুত্বপূর্ণ যখন আপনি দেখতে চান কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত এবং সেগুলি কোন ধরনের সম্পর্ক রাখে (ধনাত্মক বা ঋণাত্মক)।
  • কোরিলেশন ম্যাট্রিক্স আপনাকে ডেটা প্রক্রিয়াকরণের সময় কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত এবং কোনগুলি আলাদা থাকতে পারে তা বুঝতে সহায়তা করে।

Correlation Matrix ব্যবহার:

প্রথমে, আপনার ডেটা ফ্রেমের মধ্যে কোরিলেশন বের করতে Pandas ব্যবহার করতে পারেন এবং তারপর Seaborn বা Matplotlib দিয়ে কোরিলেশন ম্যাট্রিক্স ভিজ্যুয়ালাইজ করতে পারেন।

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# ডেটাসেট লোড করা
df = pd.read_csv('your_dataset.csv')

# কোরিলেশন ম্যাট্রিক্স বের করা
corr = df.corr()

# কোরিলেশন ম্যাট্রিক্স প্লট করা
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Correlation Matrix")
plt.show()

Explanation:

  • df.corr(): এটি আপনার ডেটাসেটের কোরিলেশন ম্যাট্রিক্স বের করে।
  • sns.heatmap(): এটি কোরিলেশন ম্যাট্রিক্সকে ভিজ্যুয়ালাইজ করার জন্য হিটম্যাপ প্লট তৈরি করে।
  • annot=True: ম্যাট্রিক্সের মধ্যে প্রতিটি সেলের কোরিলেশন ভ্যালু প্রদর্শন করবে।

যখন ব্যবহার করবেন:

  • যখন আপনি ডেটার মধ্যে সম্পর্ক চিহ্নিত করতে চান এবং দেখতে চান কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত।

২. Pair Plot

Pair Plot হল একধরনের ভিজ্যুয়ালাইজেশন যা ডেটার বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্কের পূর্ণাঙ্গ চিত্র প্রদর্শন করে। এটি একটি গ্রিড প্লট তৈরি করে যেখানে প্রতিটি বৈশিষ্ট্যের অন্য সব বৈশিষ্ট্যের সাথে স্ক্যাটার প্লট দেখানো হয়।

Pair Plot এর বৈশিষ্ট্য:

  • এটি ডেটার বৈশিষ্ট্যগুলির মধ্যে সমস্ত জোড়া সম্পর্ক দেখানোর জন্য কার্যকরী।
  • Diagonal plots সাধারণত ঐ বৈশিষ্ট্যের হিস্টোগ্রাম দেখায়, যেখানে off-diagonal plots স্ক্যাটার প্লট প্রদর্শন করে।
  • Pair Plot ব্যবহার করে, আপনি সহজেই দেখতে পারবেন কোন বৈশিষ্ট্যের মধ্যে সম্পর্ক শক্তিশালী বা দুর্বল।

Pair Plot ব্যবহার:

import seaborn as sns
import pandas as pd

# ডেটাসেট লোড করা
df = pd.read_csv('your_dataset.csv')

# Pair plot তৈরি করা
sns.pairplot(df)
plt.show()

Explanation:

  • sns.pairplot(df): এটি ডেটাসেটের সমস্ত বৈশিষ্ট্যের জন্য পেয়ার প্লট তৈরি করে।
  • Off-diagonal plots: বৈশিষ্ট্যগুলোর মধ্যে সম্পর্কের স্ক্যাটার প্লট।
  • Diagonal plots: বৈশিষ্ট্যগুলির হিস্টোগ্রাম, যা তাদের বিতরণ বা ভ্যারিয়েন্স প্রদর্শন করে।

যখন ব্যবহার করবেন:

  • যখন আপনি ডেটার বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বৈশিষ্ট্যগুলির বিতরণ বিশ্লেষণ করতে চান।

Correlation Matrix এবং Pair Plot এর মধ্যে পার্থক্য:

বৈশিষ্ট্যCorrelation MatrixPair Plot
প্রধান উদ্দেশ্যবৈশিষ্ট্যগুলির মধ্যে সম্পর্কের শক্তি এবং ধরনের পরিমাপ করা।বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বিতরণ ভিজ্যুয়ালাইজেশন।
ফলাফলকোরিলেশন ভ্যালু সহ হিটম্যাপ।স্ক্যাটার প্লট এবং হিস্টোগ্রাম।
তথ্য প্রদানসম্পর্কের শক্তি এবং ধরনের স্পষ্ট বিশ্লেষণ।বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বৈশিষ্ট্যের বিতরণ বিশ্লেষণ।
ব্যবহার ক্ষেত্রকোরিলেশন বিশ্লেষণ, বৈশিষ্ট্য নির্বাচন।ভিজ্যুয়ালাইজেশন এবং বৈশিষ্ট্য সম্পর্ক বিশ্লেষণ।

সারাংশ

  • Correlation Matrix ডেটার মধ্যে বৈশিষ্ট্যগুলির সম্পর্ক বিশ্লেষণ করার জন্য একটি শক্তিশালী টুল। এটি সম্পর্কের শক্তি এবং ধরনের একটি স্পষ্ট চিত্র প্রদর্শন করে।
  • Pair Plot ডেটার মধ্যে বৈশিষ্ট্যগুলির সম্পর্ক এবং বৈশিষ্ট্যগুলির বিতরণ ভিজ্যুয়ালাইজ করতে সাহায্য করে এবং এটি একটি বৃহৎ ভিউ প্রদান করে।

আপনি যখন ডেটার মধ্যে সম্পর্ক, বৈশিষ্ট্য নির্বাচন বা ডেটা বিশ্লেষণ করতে চান, তখন এই দুটি টুল অত্যন্ত কার্যকর।

Content added By
Promotion

Are you sure to start over?

Loading...