Correlation Matrix এবং Pair Plot মেশিন লার্নিং এবং ডেটা সায়েন্সে ডেটার মধ্যে সম্পর্ক (correlation) বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন করার জন্য দুটি অত্যন্ত গুরুত্বপূর্ণ টুল। এই দুটি টুল ব্যবহার করে আপনি আপনার ডেটার বিভিন্ন বৈশিষ্ট্য এবং তাদের সম্পর্ক বোঝার জন্য সহজ এবং কার্যকরী উপায় পেতে পারেন।
১. Correlation Matrix
Correlation Matrix হল একটি টেবিল যা বিভিন্ন বৈশিষ্ট্যের (features) মধ্যে সম্পর্কের পরিমাপ প্রদর্শন করে। এটি ডেটার মধ্যে বৈশিষ্ট্যগুলোর মধ্যে শক্তিশালী সম্পর্ক (positive/negative correlation) এবং কোন সম্পর্ক নেই তা চিহ্নিত করে।
Correlation Matrix এর বৈশিষ্ট্য:
- Correlation Value: কোরিলেশন ভ্যালু সাধারণত -1 থেকে 1 এর মধ্যে থাকে।
- 1: পূর্ণ ধনাত্মক সম্পর্ক (positive correlation)।
- -1: পূর্ণ ঋণাত্মক সম্পর্ক (negative correlation)।
- 0: কোন সম্পর্ক নেই।
- এটি বিশেষত গুরুত্বপূর্ণ যখন আপনি দেখতে চান কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত এবং সেগুলি কোন ধরনের সম্পর্ক রাখে (ধনাত্মক বা ঋণাত্মক)।
- কোরিলেশন ম্যাট্রিক্স আপনাকে ডেটা প্রক্রিয়াকরণের সময় কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত এবং কোনগুলি আলাদা থাকতে পারে তা বুঝতে সহায়তা করে।
Correlation Matrix ব্যবহার:
প্রথমে, আপনার ডেটা ফ্রেমের মধ্যে কোরিলেশন বের করতে Pandas ব্যবহার করতে পারেন এবং তারপর Seaborn বা Matplotlib দিয়ে কোরিলেশন ম্যাট্রিক্স ভিজ্যুয়ালাইজ করতে পারেন।
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# ডেটাসেট লোড করা
df = pd.read_csv('your_dataset.csv')
# কোরিলেশন ম্যাট্রিক্স বের করা
corr = df.corr()
# কোরিলেশন ম্যাট্রিক্স প্লট করা
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Correlation Matrix")
plt.show()
Explanation:
df.corr(): এটি আপনার ডেটাসেটের কোরিলেশন ম্যাট্রিক্স বের করে।sns.heatmap(): এটি কোরিলেশন ম্যাট্রিক্সকে ভিজ্যুয়ালাইজ করার জন্য হিটম্যাপ প্লট তৈরি করে।annot=True: ম্যাট্রিক্সের মধ্যে প্রতিটি সেলের কোরিলেশন ভ্যালু প্রদর্শন করবে।
যখন ব্যবহার করবেন:
- যখন আপনি ডেটার মধ্যে সম্পর্ক চিহ্নিত করতে চান এবং দেখতে চান কোন বৈশিষ্ট্যগুলি একে অপরের সাথে সম্পর্কিত।
২. Pair Plot
Pair Plot হল একধরনের ভিজ্যুয়ালাইজেশন যা ডেটার বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্কের পূর্ণাঙ্গ চিত্র প্রদর্শন করে। এটি একটি গ্রিড প্লট তৈরি করে যেখানে প্রতিটি বৈশিষ্ট্যের অন্য সব বৈশিষ্ট্যের সাথে স্ক্যাটার প্লট দেখানো হয়।
Pair Plot এর বৈশিষ্ট্য:
- এটি ডেটার বৈশিষ্ট্যগুলির মধ্যে সমস্ত জোড়া সম্পর্ক দেখানোর জন্য কার্যকরী।
- Diagonal plots সাধারণত ঐ বৈশিষ্ট্যের হিস্টোগ্রাম দেখায়, যেখানে off-diagonal plots স্ক্যাটার প্লট প্রদর্শন করে।
- Pair Plot ব্যবহার করে, আপনি সহজেই দেখতে পারবেন কোন বৈশিষ্ট্যের মধ্যে সম্পর্ক শক্তিশালী বা দুর্বল।
Pair Plot ব্যবহার:
import seaborn as sns
import pandas as pd
# ডেটাসেট লোড করা
df = pd.read_csv('your_dataset.csv')
# Pair plot তৈরি করা
sns.pairplot(df)
plt.show()
Explanation:
sns.pairplot(df): এটি ডেটাসেটের সমস্ত বৈশিষ্ট্যের জন্য পেয়ার প্লট তৈরি করে।- Off-diagonal plots: বৈশিষ্ট্যগুলোর মধ্যে সম্পর্কের স্ক্যাটার প্লট।
- Diagonal plots: বৈশিষ্ট্যগুলির হিস্টোগ্রাম, যা তাদের বিতরণ বা ভ্যারিয়েন্স প্রদর্শন করে।
যখন ব্যবহার করবেন:
- যখন আপনি ডেটার বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বৈশিষ্ট্যগুলির বিতরণ বিশ্লেষণ করতে চান।
Correlation Matrix এবং Pair Plot এর মধ্যে পার্থক্য:
| বৈশিষ্ট্য | Correlation Matrix | Pair Plot |
|---|---|---|
| প্রধান উদ্দেশ্য | বৈশিষ্ট্যগুলির মধ্যে সম্পর্কের শক্তি এবং ধরনের পরিমাপ করা। | বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বিতরণ ভিজ্যুয়ালাইজেশন। |
| ফলাফল | কোরিলেশন ভ্যালু সহ হিটম্যাপ। | স্ক্যাটার প্লট এবং হিস্টোগ্রাম। |
| তথ্য প্রদান | সম্পর্কের শক্তি এবং ধরনের স্পষ্ট বিশ্লেষণ। | বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক এবং বৈশিষ্ট্যের বিতরণ বিশ্লেষণ। |
| ব্যবহার ক্ষেত্র | কোরিলেশন বিশ্লেষণ, বৈশিষ্ট্য নির্বাচন। | ভিজ্যুয়ালাইজেশন এবং বৈশিষ্ট্য সম্পর্ক বিশ্লেষণ। |
সারাংশ
- Correlation Matrix ডেটার মধ্যে বৈশিষ্ট্যগুলির সম্পর্ক বিশ্লেষণ করার জন্য একটি শক্তিশালী টুল। এটি সম্পর্কের শক্তি এবং ধরনের একটি স্পষ্ট চিত্র প্রদর্শন করে।
- Pair Plot ডেটার মধ্যে বৈশিষ্ট্যগুলির সম্পর্ক এবং বৈশিষ্ট্যগুলির বিতরণ ভিজ্যুয়ালাইজ করতে সাহায্য করে এবং এটি একটি বৃহৎ ভিউ প্রদান করে।
আপনি যখন ডেটার মধ্যে সম্পর্ক, বৈশিষ্ট্য নির্বাচন বা ডেটা বিশ্লেষণ করতে চান, তখন এই দুটি টুল অত্যন্ত কার্যকর।
Read more