Correlation Coefficient (Pearson, Spearman)

Big Data and Analytics - পরিসংখ্যান (Statistics) - Correlation এবং Causality
474

Correlation coefficient একটি পরিসংখ্যানিক পরিমাপ যা দুটি পরিবর্তনশীলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্ধারণ করে। এটি দুটি ভেরিয়েবলের মধ্যে সরাসরি সম্পর্ক বা প্রতিবিম্ব সম্পর্ক কীভাবে পরিবর্তিত হয় তা বিশ্লেষণ করে। Pearson এবং Spearman হল দুটি গুরুত্বপূর্ণ ধরনের correlation coefficient, যেগুলি বিভিন্ন পরিস্থিতিতে ব্যবহৃত হয়।


১. Pearson Correlation Coefficient (পিয়ারসন করিলেশন কোঅফিসিয়েন্ট)

Pearson Correlation Coefficient (r) হল একটি পরিসংখ্যানিক মাপ যা দুটি ভেরিয়েবলের মধ্যে লাইনার বা সরল সম্পর্ক নির্ধারণ করে। এটি মূলত পরিমাণগত (quantitative) ডেটা সেটের মধ্যে সম্পর্কের শক্তি এবং দিক পরিমাপ করে।

Pearson Correlation এর সূত্র:

r=(XiX)(YiY)(XiX)2(YiY)2r = \frac{\sum (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum (X_i - \overline{X})^2 \sum (Y_i - \overline{Y})^2}}

এখানে,

  • X_i এবং Y_i হল দুটি পরিবর্তনশীলের মান,
  • X\overline{X} এবং Y\overline{Y} হল দুটি পরিবর্তনশীলের গড় মান।

ব্যবহার:

  • Pearson's r সাধারণত পরিমাণগত ডেটার জন্য ব্যবহৃত হয় যেখানে দুটি ভেরিয়েবলের মধ্যে সম্পর্ক সরল এবং লাইনার হতে হবে।
  • এটি সম্পর্কের শক্তি এবং দিক পরিমাপ করে। এর মান -1 থেকে +1 এর মধ্যে থাকে:
    • r = +1: পারফেক্ট পজিটিভ সম্পর্ক।
    • r = -1: পারফেক্ট নেগেটিভ সম্পর্ক।
    • r = 0: কোন সম্পর্ক নেই।

উদাহরণ:

ধরা যাক, দুটি ভেরিয়েবল, যেমন শিক্ষার সংখ্যা (X) এবং আয়ের পরিমাণ (Y), পরস্পরের মধ্যে সম্পর্ক খুঁজে বের করতে চান। Pearson Correlation ব্যবহার করে, আপনি দেখতে পারেন যে এই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক কতটা শক্তিশালী এবং এটি পজিটিভ নাকি নেগেটিভ।


২. Spearman Correlation Coefficient (স্পিয়ারম্যান করিলেশন কোঅফিসিয়েন্ট)

Spearman Correlation Coefficient (ρ বা rs) হল একটি পরিসংখ্যানিক পরিমাপ যা দুটি ভেরিয়েবলের মধ্যে র্যাঙ্ক বা অর্ডার ভিত্তিক সম্পর্ক বিশ্লেষণ করে। এটি মূলত Ordinal (ক্রমবদ্ধ) ডেটা এবং Non-linear সম্পর্ক বিশ্লেষণ করার জন্য ব্যবহৃত হয়, যেখানে Pearson প্রয়োগ করা সম্ভব নয়।

Spearman Correlation এর সূত্র:

ρ=16di2n(n21)\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}

এখানে,

  • d_i হল দুইটি পরিবর্তনশীলের মধ্যে প্রতি পর্যবেক্ষণের র্যাঙ্কের পার্থক্য,
  • n হল পর্যবেক্ষণের সংখ্যা।

ব্যবহার:

  • Spearman’s ρ সাধারণত তখন ব্যবহৃত হয় যখন ভেরিয়েবলের মধ্যে র্যাঙ্কিং সম্পর্ক থাকতে পারে, যেমন, বিক্রির অবস্থান বা বিরল ঘটনার মূল্যায়ন
  • এটি Non-linear সম্পর্কের ক্ষেত্রেও ব্যবহার করা যেতে পারে, যেখানে সম্পর্কটি সরল নয়, তবে এক ধরনের সমন্বয় বা সম্পর্ক থাকতে পারে।

উদাহরণ:

ধরা যাক, একটি প্রতিষ্ঠান তাদের কর্মচারীদের পরীক্ষার স্কোর এবং কর্মক্ষমতার র্যাঙ্ক বিশ্লেষণ করতে চায়। এই ধরনের সম্পর্ক Spearman Correlation দিয়ে বিশ্লেষণ করা যেতে পারে, কারণ এটি অর্ডিনাল (র্যাঙ্কিং) ডেটার মধ্যে সম্পর্ক পরিমাপ করে।


Pearson vs. Spearman Correlation

বৈশিষ্ট্যPearson CorrelationSpearman Correlation
ধরণলাইনার (Linear) সম্পর্কঅর্ডিনাল (Ordinal) বা Non-linear সম্পর্ক
ব্যবহারপরিমাণগত ডেটার জন্য, যেখানে সম্পর্ক সরল বা লাইনারঅর্ডিনাল ডেটা বা Non-linear সম্পর্কের জন্য
অন্তর্বর্তীমান-1 থেকে +1-1 থেকে +1
র্যাঙ্কিং ভিত্তিকনয়হ্যাঁ
ডেটা প্রকারপরিমাণগত (Quantitative)র্যাঙ্ক বা অর্ডিনাল (Ordinal) ডেটা
সুবিধাসরল এবং নির্ভুল সম্পর্ক পরিমাপNon-linear সম্পর্ক এবং র্যাঙ্ক ডেটার ক্ষেত্রে কার্যকর

সারাংশ

Pearson Correlation এবং Spearman Correlation উভয়ই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপের জন্য ব্যবহৃত হয়, তবে তাদের ব্যবহারের ক্ষেত্র এবং পরিমাপের ধরণ ভিন্ন। Pearson Correlation সরল (linear) সম্পর্কের জন্য ব্যবহৃত হয়, যেখানে দুটি ভেরিয়েবলের মধ্যে সরল সম্পর্ক এবং পরিমাণগত ডেটা থাকতে হবে। অন্যদিকে, Spearman Correlation অর্ডিনাল ডেটা বা non-linear সম্পর্কের ক্ষেত্রে ব্যবহৃত হয়, যেখানে ভেরিয়েবলের র্যাঙ্কিং বা অর্ডার থাকা প্রয়োজন। এই দুই ধরনের কোঅফিসিয়েন্ট পরিসংখ্যানিক বিশ্লেষণে সম্পর্কের শক্তি এবং দিক নির্ধারণ করতে সহায়ক।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...