Summary Statistics এবং Correlation Analysis

Exploratory Data Analysis (EDA) - এইচ২ও (H2O) - Machine Learning

350

Summary Statistics

Summary statistics বা সারাংশ পরিসংখ্যান হলো একটি ডেটা সেটের মূল বৈশিষ্ট্যগুলি দ্রুত এবং সহজভাবে বিশ্লেষণ করার জন্য ব্যবহৃত পরিসংখ্যান। এটি ডেটার সারাংশ তুলে ধরার জন্য ব্যবহৃত কিছু মৌলিক পরিসংখ্যানগত মেট্রিক্স সরবরাহ করে, যেমন:

1. Mean (গড়):

গড় হলো ডেটা সেটের সমস্ত মানের যোগফলকে ডেটা পয়েন্টের সংখ্যা দিয়ে ভাগ করার ফল। এটি ডেটার সাধারণ মাত্রা বা কেন্দ্রীয় প্রবণতাকে দেখায়।

  • ফর্মুলা: Mean=i=1nxin\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n} যেখানে xix_i প্রতিটি ডেটা পয়েন্ট এবং nn মোট পয়েন্টের সংখ্যা।

2. Median (মধ্যম):

মধ্যম হলো ডেটা সেটের মাঝের মান। যখন ডেটা গুলি সাজানো থাকে, তখন মধ্যম হলো সেই মান যা মাঝখানে অবস্থান করে। যদি ডেটার সংখ্যা বিজোড় হয়, তাহলে একক মান হবে; যদি সোজা হয়, তাহলে দুটি মানের গড়।

3. Mode (সর্বাধিক পুনরাবৃত্ত মান):

Mode হলো ডেটা সেটের সবচেয়ে বারবার পাওয়া মান। এটি ডেটার প্রবণতাকে চিহ্নিত করতে সহায়ক।

4. Standard Deviation (প্রমিত বিচ্যুতি):

প্রমিত বিচ্যুতি হল একটি পরিসংখ্যান যা ডেটা পয়েন্টের গড় থেকে কতটুকু বিচ্যুত হতে পারে তা পরিমাপ করে।

  • ফর্মুলা: Standard Deviation=i=1n(xiμ)2n\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}} যেখানে xix_i প্রতিটি ডেটা পয়েন্ট, μ\mu গড়, এবং nn মোট ডেটা পয়েন্ট।

5. Variance (বিচ্যুতি):

Variance হলো standard deviation এর বর্গ। এটি ডেটার বিস্তার বা ছড়িয়ে পড়ার পরিমাণকে মাপতে ব্যবহৃত হয়।

  • ফর্মুলা: Variance=i=1n(xiμ)2n\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}

6. Range (পরিসীমা):

Range হলো ডেটা সেটের সর্বোচ্চ মান এবং সর্বনিম্ন মানের মধ্যে পার্থক্য।

  • ফর্মুলা: Range=Maximum ValueMinimum Value\text{Range} = \text{Maximum Value} - \text{Minimum Value}

7. Quartiles and Interquartile Range (IQR):

Quartiles হলো ডেটা সেটকে চারটি সমান অংশে ভাগ করার পদ্ধতি। IQR হলো তৃতীয় Quartile (Q3Q3) এবং প্রথম Quartile (Q1Q1) এর মধ্যে পার্থক্য।

  • IQR: IQR=Q3Q1\text{IQR} = Q3 - Q1

Correlation Analysis

Correlation analysis হলো দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করার প্রক্রিয়া। এটি সাহায্য করে বুঝতে যে এক ভেরিয়েবল অন্য ভেরিয়েবলের উপর কতটুকু প্রভাব ফেলছে।

1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):

Correlation coefficient একটি পরিসংখ্যানগত মান যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। এটি -1 থেকে 1 এর মধ্যে থাকে, যেখানে:

  • +1: পূর্ণ ইতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি বাড়ে)
  • -1: পূর্ণ নেতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি কমে)
  • 0: কোনো সম্পর্ক নেই

Pearson’s Correlation Coefficient:

Pearson’s correlation coefficient সবচেয়ে সাধারণভাবে ব্যবহৃত পরিসংখ্যান যা দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি পরিমাপ করে।

  • ফর্মুলা: r=nxiyixiyi[nxi2(xi)2][nyi2(yi)2]r = \frac{n \sum{x_i y_i} - \sum{x_i} \sum{y_i}}{\sqrt{[n \sum{x_i^2} - (\sum{x_i})^2][n \sum{y_i^2} - (\sum{y_i})^2]}} যেখানে xix_i এবং yiy_i হল দুটি ভেরিয়েবলের মান এবং nn হল ডেটা পয়েন্টের সংখ্যা।

Spearman’s Rank Correlation:

Spearman’s rank correlation coefficient রৈখিক সম্পর্কের পরিবর্তে, দুটি ভেরিয়েবলের মধ্যে মন্থন সম্পর্ক (monotonic relationship) পরিমাপ করে।

Kendall’s Tau:

Kendall’s tau coefficient দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ করে, বিশেষত যখন ডেটা শ্রেণীবদ্ধ করা হয়।


Correlation Matrix:

Correlation matrix হলো একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের একটি টেবিল। এটি একসাথে সমস্ত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক প্রদর্শন করে। এটি ডেটা বিশ্লেষণে সাহায্য করে যখন একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের মূল্যায়ন করা দরকার।


Visualizing Correlation:

Correlation visualization গ্রাফিক্যাল উপস্থাপনা দেয়, যেমন:

  • Heatmap: একটি সাধারণ টুল যেখানে একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক সম্পর্কিত মানগুলো রঙের মাধ্যমে প্রদর্শিত হয়।
  • Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর জন্য scatter plot ব্যবহার করা হয়, যেখানে সম্পর্কের ধরন পরিষ্কারভাবে বোঝা যায়।

সারাংশ

  • Summary Statistics: এটি ডেটা সেটের মৌলিক বৈশিষ্ট্য যেমন গড়, প্রমিত বিচ্যুতি, রেঞ্জ, এবং IQR পরিমাপ করে, যা ডেটার সাধারণ প্রবণতা এবং বৈচিত্র্য বুঝতে সাহায্য করে।
  • Correlation Analysis: এটি বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করে এবং বিভিন্ন ভেরিয়েবলের মধ্যে রৈখিক বা মন্থন সম্পর্কের শক্তি ও দিক বিশ্লেষণ করে। Pearson, Spearman, এবং Kendall এর মত বিভিন্ন কৌশল আছে যা সম্পর্কের শক্তি পরিমাপ করতে ব্যবহৃত হয়।

এই বিশ্লেষণগুলি ডেটা সায়েন্স এবং মেশিন লার্নিং মডেল তৈরির ক্ষেত্রে ডেটার কাঠামো এবং সম্পর্ক বুঝতে সহায়ক।

Content added By
Promotion

Are you sure to start over?

Loading...