Big Data and Analytics Chi-square Test এর মাধ্যমে Hypothesis Testing গাইড ও নোট

764

Chi-square Test হল একটি পরিসংখ্যানিক পদ্ধতি যা ব্যবহৃত হয় দুটি বা ততোধিক ভেরিয়েবলের মধ্যে সম্পর্ক পরীক্ষা করতে, অথবা জনসংখ্যার প্রকৃত বণ্টন এবং একটি অনুমানকৃত বা প্রত্যাশিত বণ্টনের মধ্যে পার্থক্য নির্ধারণ করতে। এটি সাধারণত Nominal বা Ordinal ডেটার জন্য ব্যবহৃত হয় এবং এটি Categorical Data এর উপর ভিত্তি করে কাজ করে।

Hypothesis Testing এর অংশ হিসেবে, Chi-square Test ব্যবহৃত হয় যখন আমাদের একটি হাইপোথিসিস তৈরি করতে হয় এবং সেটি প্রমাণ বা অস্বীকার করতে হয়। এই পরীক্ষাটি মূলত দুটি ধরনের হাইপোথিসিস পরীক্ষা করতে ব্যবহৃত হয়:

  1. Goodness of Fit Test (ফিটনেস পরীক্ষা)
  2. Test of Independence (স্বাধীনতার পরীক্ষা)

১. Chi-square Goodness of Fit Test (ফিটনেস পরীক্ষা)

এই পরীক্ষাটি ব্যবহৃত হয় একটি ক্যাটেগোরির observed (প্রাপ্ত) ফ্রিকোয়েন্সি এবং expected (অনুমানকৃত) ফ্রিকোয়েন্সির মধ্যে পার্থক্য পরীক্ষা করতে। এটি নির্ধারণ করে যে, প্রাপ্ত ডেটা একটি নির্দিষ্ট তত্ত্ব বা পূর্বাভাসের সাথে সামঞ্জস্যপূর্ণ কিনা।

ফর্মুলা:

χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

এখানে:

  • OiO_i = প্রত্যাশিত ফ্রিকোয়েন্সি
  • EiE_i = পর্যবেক্ষিত (Observed) ফ্রিকোয়েন্সি
  • χ2\chi^2 = Chi-square মান

ধাপসমূহ:

  1. Null Hypothesis (H₀): "ডেটার মধ্যে কোন পার্থক্য নেই, প্রত্যাশিত বণ্টন সঠিক।"
  2. Alternative Hypothesis (H₁): "ডেটার মধ্যে পার্থক্য রয়েছে, প্রত্যাশিত বণ্টন সঠিক নয়।"
  3. Chi-square Statistic গণনা করুন: উপরের ফর্মুলা অনুসারে χ² হিসাব করুন।
  4. Degree of Freedom (df): df=k1df = k - 1, যেখানে kk হল শ্রেণীর সংখ্যা।
  5. Critical Value নির্বাচন করুন: নির্ধারিত সিগনিফিকেন্স লেভেল (α\alpha) এবং dfdf এর উপর ভিত্তি করে Chi-square টেবিল থেকে critical value বের করুন।
  6. χ² এর মান তুলনা করুন: যদি গণনা করা χ² টেবিল থেকে পাওয়া critical value-এর চেয়ে বেশি হয়, তবে null hypothesis অস্বীকার করুন।

উদাহরণ:

একটি পণ্যকে তিনটি ভিন্ন রঙে বাজারজাত করা হয়েছে: লাল, নীল, এবং সবুজ। আপনি 100টি পণ্য বিক্রি করেছেন এবং জানতে চান যে, রঙের বণ্টন সমানভাবে হয়েছে কিনা (যেমন প্রত্যাশিত 33.33% রঙের প্রতি)। এখন আপনি রঙগুলির প্রাপ্ত ফ্রিকোয়েন্সি ব্যবহার করে Chi-square Goodness of Fit Test ব্যবহার করবেন।


২. Chi-square Test of Independence (স্বাধীনতার পরীক্ষা)

Chi-square Test of Independence ব্যবহৃত হয় দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা নির্ভরতা পরীক্ষা করতে। এটি পরীক্ষা করে যে, দুটি ক্যাটেগোরিকাল ভেরিয়েবল একে অপরের উপর নির্ভরশীল কিনা।

ফর্মুলা:

χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

এখানে:

  • OiO_i = পর্যবেক্ষিত ফ্রিকোয়েন্সি
  • EiE_i = প্রত্যাশিত ফ্রিকোয়েন্সি
  • χ2\chi^2 = Chi-square মান

ধাপসমূহ:

  1. Null Hypothesis (H₀): "দুটি ভেরিয়েবল একে অপরের উপর নির্ভরশীল নয় (স্বাধীন)।"
  2. Alternative Hypothesis (H₁): "দুটি ভেরিয়েবল একে অপরের উপর নির্ভরশীল।"
  3. Chi-square Statistic গণনা করুন: উপরের ফর্মুলা অনুসারে χ² হিসাব করুন।
  4. Degree of Freedom (df): df=(r1)(c1)df = (r - 1)(c - 1), যেখানে rr হল সারির সংখ্যা এবং cc হল কলামের সংখ্যা।
  5. Critical Value নির্বাচন করুন: নির্ধারিত সিগনিফিকেন্স লেভেল (α\alpha) এবং dfdf এর উপর ভিত্তি করে critical value বের করুন।
  6. χ² এর মান তুলনা করুন: যদি গণনা করা χ² critical value এর চেয়ে বেশি হয়, তবে null hypothesis অস্বীকার করুন।

উদাহরণ:

একটি দোকানে দুটি ভিন্ন ধরনের পণ্য বিক্রি হচ্ছে: পণ্য A এবং পণ্য B। আপনি জানতে চান যে, পণ্য কেনার জন্য পুরুষ এবং মহিলাদের মধ্যে কোনো পার্থক্য রয়েছে কিনা। এখানে, পুরুষ এবং মহিলার মধ্যে পণ্য নির্বাচন স্বাধীন কিনা তা যাচাই করতে Chi-square Test of Independence ব্যবহার করবেন।


Chi-square Test এর মাধ্যমে Hypothesis Testing এর উদাহরণ

ধরুন, আপনি একটি পরীক্ষায় তিনটি শ্রেণী: A, B, এবং C এর মধ্যে ছাত্রদের শ্রেণি ভাগের উপর একটি পরিসংখ্যান পরিচালনা করছেন।

  • Null Hypothesis (H₀): শ্রেণীভাগ সমানভাবে বিতরণ হয়েছে (অর্থাৎ, ছাত্রদের মধ্যে শ্রেণী A, B, এবং C এর মধ্যে সমানভাবে ভাগ হয়েছে)।
  • Alternative Hypothesis (H₁): শ্রেণীভাগ সমানভাবে বিতরণ হয়নি (অর্থাৎ, ছাত্রদের মধ্যে শ্রেণী A, B, এবং C এর মধ্যে সমানভাবে ভাগ হয়নি)।

আপনি পর্যবেক্ষিত ডেটা অনুযায়ী Chi-square Test প্রয়োগ করবেন। এখানে:

  • Expected Frequency (প্রত্যাশিত ফ্রিকোয়েন্সি) এর জন্য, আপনি Total Students / Number of Categories ব্যবহার করবেন।
  • তারপর Chi-square statistic ব্যবহার করে পরীক্ষা করবেন যে, পর্যবেক্ষিত ফ্রিকোয়েন্সি এবং প্রত্যাশিত ফ্রিকোয়েন্সির মধ্যে পার্থক্য উল্লেখযোগ্য কিনা।

সারাংশ

Chi-square Test একটি শক্তিশালী পরিসংখ্যানিক পদ্ধতি যা বিভিন্ন ধরনের হাইপোথিসিস পরীক্ষা করার জন্য ব্যবহৃত হয়, বিশেষ করে ক্যাটেগোরিকাল ডেটার ক্ষেত্রে। এটি Goodness of Fit Test (ফিটনেস পরীক্ষা) এবং Test of Independence (স্বাধীনতার পরীক্ষা) হিসেবে দুটি প্রধানভাবে ব্যবহৃত হয়। Chi-square Test এর মাধ্যমে আমরা দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা একটি বণ্টনের সঠিকতা পরীক্ষা করতে পারি। Chi-square statistic নির্ধারণ করে, আমরা একটি নির্দিষ্ট critical value এর সাথে তুলনা করে হাইপোথিসিস গ্রহণ বা অস্বীকার করতে পারি।

Content added By
Promotion

Are you sure to start over?

Loading...