Box Plot, Histogram, এবং Scatter Plot

Exploratory Data Analysis (EDA) - পাইথন দিয়ে মেশিন লার্নিং (Machine Learning with Python) - Machine Learning

267

ডেটা ভিজ্যুয়ালাইজেশনের জন্য বিভিন্ন ধরনের গ্রাফ ব্যবহার করা হয়, যা ডেটার বৈশিষ্ট্য এবং সম্পর্ক বুঝতে সহায়ক। এখানে আমরা তিনটি জনপ্রিয় ভিজ্যুয়ালাইজেশন টুল: Box Plot, Histogram, এবং Scatter Plot সম্পর্কে আলোচনা করব।

১. Box Plot (বক্স প্লট)

Box Plot বা Box-and-Whisker Plot ডেটার বিতরণ এবং স্ক্যাটার বিশ্লেষণ করতে ব্যবহৃত হয়। এটি ডেটার মূল পরিসংখ্যানগুলি যেমন মিন (Min), ম্যাক্স (Max), মেডিয়ান (Median), প্রথম কুয়ারটাইল (Q1), এবং তৃতীয় কুয়ারটাইল (Q3) প্রদর্শন করে।

বৈশিষ্ট্য:

  • মিন (Min): ডেটার সর্বনিম্ন মান।
  • ম্যাক্স (Max): ডেটার সর্বোচ্চ মান।
  • মেডিয়ান (Median): ডেটার মধ্যম মান।
  • কুয়ারটাইলস (Q1, Q3): ডেটার ২৫% (Q1) এবং ৭৫% (Q3) পয়েন্ট।
  • Whiskers: বক্সের বাইরে থাকা ডেটার এক্সট্রিম মান।

উদাহরণ:

import matplotlib.pyplot as plt
import numpy as np

# ডেটা তৈরি করা
data = np.random.normal(0, 1, 1000)

# Box Plot তৈরি করা
plt.boxplot(data)
plt.title('Box Plot')
plt.show()

এই কোডটি একটি বক্স প্লট তৈরি করবে যা ডেটার বিতরণ এবং স্ক্যাটার বিশ্লেষণ করবে।


২. Histogram (হিস্টোগ্রাম)

Histogram হল একটি গ্রাফ যা ডেটার ঘনত্ব বা বিতরণ প্রদর্শন করে। এটি ডেটাকে নির্দিষ্ট রেঞ্জ বা ব্যান্ডে ভাগ করে এবং প্রতিটি ব্যান্ডে কতটি ডেটা পড়ে তা গণনা করে।

বৈশিষ্ট্য:

  • Bin: ডেটাকে ভাগ করার জন্য ব্যবহৃত রেঞ্জ (বিন সাইজ)।
  • Frequency: প্রতিটি বিনের মধ্যে কতটি ডেটা পয়েন্ট রয়েছে।

উদাহরণ:

import matplotlib.pyplot as plt
import numpy as np

# ডেটা তৈরি করা
data = np.random.randn(1000)

# Histogram তৈরি করা
plt.hist(data, bins=30, edgecolor='black')
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

এটি একটি হিস্টোগ্রাম তৈরি করবে যা ডেটার ঘনত্ব বা বিতরণ বিশ্লেষণ করবে।


৩. Scatter Plot (স্ক্যাটার প্লট)

Scatter Plot ডেটার মধ্যে সম্পর্ক প্রদর্শন করে। এটি সাধারণত দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখাতে ব্যবহৃত হয়। এক্স-অক্ষ (X-axis) এবং ওয়াই-অক্ষ (Y-axis) এর মানের মধ্যে সম্পর্ক দেখানো হয়।

বৈশিষ্ট্য:

  • X-Axis: প্রথম ভেরিয়েবলের মান।
  • Y-Axis: দ্বিতীয় ভেরিয়েবলের মান।
  • Data Points: স্ক্যাটার প্লটে প্রতিটি ডেটা পয়েন্ট একটি বিন্দু হিসেবে চিত্রিত হয়।

উদাহরণ:

import matplotlib.pyplot as plt
import numpy as np

# ডেটা তৈরি করা
x = np.random.rand(100)
y = np.random.rand(100)

# Scatter Plot তৈরি করা
plt.scatter(x, y)
plt.title('Scatter Plot')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

এটি একটি স্ক্যাটার প্লট তৈরি করবে যা X এবং Y ভেরিয়েবলের মধ্যে সম্পর্ক প্রদর্শন করবে।


সারাংশ

  • Box Plot: ডেটার বিতরণ এবং এক্সট্রিম মান বিশ্লেষণ করে, যেখানে মিন, ম্যাক্স, মিডিয়ান, এবং কুয়ারটাইলস দেখানো হয়।
  • Histogram: ডেটার ঘনত্ব বা বিতরণ বিশ্লেষণ করে, যা ডেটাকে নির্দিষ্ট রেঞ্জে ভাগ করে এবং প্রতিটি রেঞ্জের মধ্যে কতটি ডেটা রয়েছে তা প্রদর্শন করে।
  • Scatter Plot: দুইটি ভেরিয়েবলের মধ্যে সম্পর্ক বা সংযোগ দেখায়, যেখানে প্রতিটি ডেটা পয়েন্ট একটি বিন্দু হিসেবে চিত্রিত হয়।

এই তিনটি ভিজ্যুয়ালাইজেশন ডেটার গঠন এবং বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক বা বৈশিষ্ট্য বুঝতে সাহায্য করে।

Content added By
Promotion

Are you sure to start over?

Loading...