Summary Statistics এবং Correlation Analysis

Exploratory Data Analysis (EDA) - এইচ২ও (H2O) - Machine Learning

379

Summary Statistics

Summary statistics বা সারাংশ পরিসংখ্যান হলো একটি ডেটা সেটের মূল বৈশিষ্ট্যগুলি দ্রুত এবং সহজভাবে বিশ্লেষণ করার জন্য ব্যবহৃত পরিসংখ্যান। এটি ডেটার সারাংশ তুলে ধরার জন্য ব্যবহৃত কিছু মৌলিক পরিসংখ্যানগত মেট্রিক্স সরবরাহ করে, যেমন:

1. Mean (গড়):

গড় হলো ডেটা সেটের সমস্ত মানের যোগফলকে ডেটা পয়েন্টের সংখ্যা দিয়ে ভাগ করার ফল। এটি ডেটার সাধারণ মাত্রা বা কেন্দ্রীয় প্রবণতাকে দেখায়।

ফর্মুলা: $\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n}$ যেখানে $x_i$ প্রতিটি ডেটা পয়েন্ট এবং $n$ মোট পয়েন্টের সংখ্যা।

2. Median (মধ্যম):

মধ্যম হলো ডেটা সেটের মাঝের মান। যখন ডেটা গুলি সাজানো থাকে, তখন মধ্যম হলো সেই মান যা মাঝখানে অবস্থান করে। যদি ডেটার সংখ্যা বিজোড় হয়, তাহলে একক মান হবে; যদি সোজা হয়, তাহলে দুটি মানের গড়।

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

Mode হলো ডেটা সেটের সবচেয়ে বারবার পাওয়া মান। এটি ডেটার প্রবণতাকে চিহ্নিত করতে সহায়ক।

4. Standard Deviation (প্রমিত বিচ্যুতি):

প্রমিত বিচ্যুতি হল একটি পরিসংখ্যান যা ডেটা পয়েন্টের গড় থেকে কতটুকু বিচ্যুত হতে পারে তা পরিমাপ করে।

ফর্মুলা: $\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}$ যেখানে $x_i$ প্রতিটি ডেটা পয়েন্ট, $\mu$ গড়, এবং $n$ মোট ডেটা পয়েন্ট।

5. Variance (বিচ্যুতি):

Variance হলো standard deviation এর বর্গ। এটি ডেটার বিস্তার বা ছড়িয়ে পড়ার পরিমাণকে মাপতে ব্যবহৃত হয়।

ফর্মুলা: $\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}$

6. Range (পরিসীমা):

Range হলো ডেটা সেটের সর্বোচ্চ মান এবং সর্বনিম্ন মানের মধ্যে পার্থক্য।

ফর্মুলা: $\text{Range} = \text{Maximum Value} - \text{Minimum Value}$

7. Quartiles and Interquartile Range (IQR):

Quartiles হলো ডেটা সেটকে চারটি সমান অংশে ভাগ করার পদ্ধতি। IQR হলো তৃতীয় Quartile ( $Q3$ ) এবং প্রথম Quartile ( $Q1$ ) এর মধ্যে পার্থক্য।

IQR: $\text{IQR} = Q3 - Q1$

Correlation Analysis

Correlation analysis হলো দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করার প্রক্রিয়া। এটি সাহায্য করে বুঝতে যে এক ভেরিয়েবল অন্য ভেরিয়েবলের উপর কতটুকু প্রভাব ফেলছে।

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Correlation coefficient একটি পরিসংখ্যানগত মান যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। এটি -1 থেকে 1 এর মধ্যে থাকে, যেখানে:

+1: পূর্ণ ইতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি বাড়ে)
-1: পূর্ণ নেতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি কমে)
0: কোনো সম্পর্ক নেই

Pearson’s Correlation Coefficient:

Pearson’s correlation coefficient সবচেয়ে সাধারণভাবে ব্যবহৃত পরিসংখ্যান যা দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি পরিমাপ করে।

ফর্মুলা: $r = \frac{n \sum{x_i y_i} - \sum{x_i} \sum{y_i}}{\sqrt{[n \sum{x_i^2} - (\sum{x_i})^2][n \sum{y_i^2} - (\sum{y_i})^2]}}$ যেখানে $x_i$ এবং $y_i$ হল দুটি ভেরিয়েবলের মান এবং $n$ হল ডেটা পয়েন্টের সংখ্যা।

Spearman’s Rank Correlation:

Spearman’s rank correlation coefficient রৈখিক সম্পর্কের পরিবর্তে, দুটি ভেরিয়েবলের মধ্যে মন্থন সম্পর্ক (monotonic relationship) পরিমাপ করে।

Kendall’s Tau:

Kendall’s tau coefficient দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ করে, বিশেষত যখন ডেটা শ্রেণীবদ্ধ করা হয়।

Correlation Matrix:

Correlation matrix হলো একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের একটি টেবিল। এটি একসাথে সমস্ত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক প্রদর্শন করে। এটি ডেটা বিশ্লেষণে সাহায্য করে যখন একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের মূল্যায়ন করা দরকার।

Visualizing Correlation:

Correlation visualization গ্রাফিক্যাল উপস্থাপনা দেয়, যেমন:

Heatmap: একটি সাধারণ টুল যেখানে একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক সম্পর্কিত মানগুলো রঙের মাধ্যমে প্রদর্শিত হয়।
Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর জন্য scatter plot ব্যবহার করা হয়, যেখানে সম্পর্কের ধরন পরিষ্কারভাবে বোঝা যায়।

সারাংশ

Summary Statistics: এটি ডেটা সেটের মৌলিক বৈশিষ্ট্য যেমন গড়, প্রমিত বিচ্যুতি, রেঞ্জ, এবং IQR পরিমাপ করে, যা ডেটার সাধারণ প্রবণতা এবং বৈচিত্র্য বুঝতে সাহায্য করে।
Correlation Analysis: এটি বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করে এবং বিভিন্ন ভেরিয়েবলের মধ্যে রৈখিক বা মন্থন সম্পর্কের শক্তি ও দিক বিশ্লেষণ করে। Pearson, Spearman, এবং Kendall এর মত বিভিন্ন কৌশল আছে যা সম্পর্কের শক্তি পরিমাপ করতে ব্যবহৃত হয়।

এই বিশ্লেষণগুলি ডেটা সায়েন্স এবং মেশিন লার্নিং মডেল তৈরির ক্ষেত্রে ডেটার কাঠামো এবং সম্পর্ক বুঝতে সহায়ক।

Content added By

Azizar Rahman Aziz

ডেটা ভিজুয়ালাইজেশন (H2O.ai Flow এবং Python/R ব্যবহার) Feature Engineering এবং Feature Selection Outlier Detection এবং Missing Value Handling

Summary Statistics এবং Correlation Analysis

Summary Statistics

1. Mean (গড়):

2. Median (মধ্যম):

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

4. Standard Deviation (প্রমিত বিচ্যুতি):

5. Variance (বিচ্যুতি):

6. Range (পরিসীমা):

7. Quartiles and Interquartile Range (IQR):

Correlation Analysis

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Pearson’s Correlation Coefficient:

Spearman’s Rank Correlation:

Kendall’s Tau:

Correlation Matrix:

Visualizing Correlation:

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Summary Statistics এবং Correlation Analysis

Summary Statistics

1. Mean (গড়):

2. Median (মধ্যম):

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

4. Standard Deviation (প্রমিত বিচ্যুতি):

5. Variance (বিচ্যুতি):

6. Range (পরিসীমা):

7. Quartiles and Interquartile Range (IQR):

Correlation Analysis

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Pearson’s Correlation Coefficient:

Spearman’s Rank Correlation:

Kendall’s Tau:

Correlation Matrix:

Visualizing Correlation:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!