Gini Index এবং Information Gain দুটি জনপ্রিয় হিউরিস্টিক ফিচার নির্বাচন এবং সিদ্ধান্ত গাছ (Decision Tree) নির্মাণের জন্য ব্যবহৃত মেট্রিক্স। এরা সিদ্ধান্ত গাছের নোডে বিভাজন (splitting) করার জন্য বিভিন্ন ফিচারের গুণগত মান নির্ধারণ করতে সাহায্য করে। এই মেট্রিক্সগুলির মাধ্যমে, মডেলটি শ্রেণীভেদে কতটা বৈচিত্র্য বা অনিশ্চয়তা রয়েছে তা নির্ধারণ করতে সক্ষম হয় এবং সিদ্ধান্ত নেওয়া হয় কিভাবে ডেটা বিভাজিত হবে।
1. Gini Index (গিনি ইনডেক্স)
Gini Index বা Gini Impurity একটি পরিমাপ যা মাপবে যে, কোন একটি সিদ্ধান্ত নোডে কতটুকু অস্বচ্ছতা (impurity) বা বৈচিত্র্য রয়েছে। এটি ডেটাকে সঠিকভাবে বিভক্ত করতে সাহায্য করে, যাতে সিদ্ধান্ত গাছের প্রতিটি শাখায় সম্ভবত কম বৈচিত্র্য থাকবে। গিনি ইনডেক্স হল একটি সংখ্যার মান যা 0 থেকে 1 এর মধ্যে থাকে:
- 0 মানে, সম্পূর্ণভাবে বিশুদ্ধ (pure) বা একক শ্রেণী।
- 1 মানে, সর্বোচ্চ বৈচিত্র্য বা একাধিক শ্রেণী।
গিনি ইনডেক্সের ফর্মুলা:
এখানে, হলো -তম শ্রেণীর অনুপাত (probability) এবং হলো শ্রেণীগুলির সংখ্যা।
ব্যাখ্যা:
- যদি কোনও নোডে সমস্ত ডেটা এক শ্রেণীতে থাকে, তবে গিনি ইনডেক্স হবে 0, কারণ ডেটা সম্পূর্ণভাবে বিশুদ্ধ।
- যদি শ্রেণীগুলির মধ্যে সমানভাবে বিভক্ত থাকে, তবে গিনি ইনডেক্স হবে 0.5 (যেমন, দুইটি শ্রেণী সমান পরিমাণে বিভক্ত হলে)।
গিনি ইনডেক্সের উদাহরণ:
ধরা যাক, একটি নোডে 100টি উদাহরণ রয়েছে, যার মধ্যে 40টি "A" শ্রেণী এবং 60টি "B" শ্রেণী। এখানে, এবং ।
গিনি ইনডেক্সের সুবিধা:
- সহজে গণনা করা যায়।
- ডেটার ক্লাস ভিত্তিক বৈচিত্র্য সহজেই পরিমাপ করা যায়।
2. Information Gain (ইনফরমেশন গেইন)
Information Gain হলো একটি পরিমাপ যা একটি নির্দিষ্ট বৈশিষ্ট্য বা ফিচারের মাধ্যমে ডেটাকে ভাগ করার পর কতটা তথ্য পাওয়া যাচ্ছে তা নির্ধারণ করে। এটি Entropy থেকে গণনা করা হয় এবং ডেটার বিভাজনের ক্ষেত্রে কতটা অনিশ্চয়তা হ্রাস পেয়েছে তা মাপার জন্য ব্যবহৃত হয়।
Entropy হলো একটি মাপ যা ডেটার অনিশ্চয়তা পরিমাপ করে। একে একটি ফিচার নির্বাচন করার জন্য গুণগত মান নির্ধারণের প্রক্রিয়া হিসাবে ব্যবহার করা হয়।
ইনফরমেশন গেইন ফর্মুলা:
এখানে,
- হলো মূল ডেটাসেটের এনট্রপি।
- হলো বিভাজিত সাব-ডেটাসেট।
- হলো -এর সাইজের অনুপাত।
Entropy এর ফর্মুলা:
এখানে, হলো -তম শ্রেণীর সম্ভাব্যতা (probability) এবং হলো শ্রেণীর সংখ্যা।
ব্যাখ্যা:
- Information Gain উচ্চ হলে, তা নির্দেশ করে যে ডেটা বিভাজনটি বেশি কার্যকরী ছিল এবং অনিশ্চয়তা বা গুণগত বৈচিত্র্য কমেছে।
- Information Gain কম হলে, এটি নির্দেশ করে যে বিভাজনটি তেমন কার্যকরী ছিল না এবং ডেটার বিভাজন করতে বেশি তথ্য পাওয়া যায়নি।
ইনফরমেশন গেইনের উদাহরণ:
ধরা যাক, একটি প্যারেন্ট নোডে 100টি উদাহরণ রয়েছে, যার মধ্যে 80টি "Yes" এবং 20টি "No" শ্রেণী। এখন, আমরা একটি বৈশিষ্ট্য ব্যবহার করে ডেটাকে দুটি ভাগে ভাগ করি:
- গ্রুপ 1: 60টি "Yes", 10টি "No"।
- গ্রুপ 2: 20টি "Yes", 10টি "No"।
এখন, আমরা প্রথমে প্যারেন্ট নোডের এনট্রপি গণনা করি:
তারপর, দুইটি গ্রুপের জন্য এনট্রপি গণনা করা হয় এবং তাদের গড় গুনে যোগ করা হয়:
তাহলে, Information Gain হবে:
ইনফরমেশন গেইনের সুবিধা:
- এটি শ্রেণীবিন্যাসের ক্ষেত্রে একটি শক্তিশালী এবং দক্ষ উপায়।
- Decision Tree নির্মাণের জন্য কার্যকরী।
Gini Index এবং Information Gain এর তুলনা
| বৈশিষ্ট্য | Gini Index | Information Gain |
|---|---|---|
| প্রক্রিয়া | ডেটার বৈচিত্র্য বা অমেধা পরিমাপ | ডেটার অনিশ্চয়তা বা তথ্য পরিমাপ |
| পরিমাণের পরিসীমা | 0 থেকে 1 পর্যন্ত | 0 থেকে 1 পর্যন্ত |
| সাধারণ ব্যবহার | Decision Trees এর জন্য বিশেষত CART অ্যালগরিদম | Decision Trees এর জন্য, বিশেষত ID3 এবং C4.5 অ্যালগরিদম |
| যতটা কম, ততটা ভালো | হ্যাঁ, গিনি ইনডেক্স কম হলে ভালো | হ্যাঁ, ইনফরমেশন গেইন বেশি হলে ভালো |
| অসুবিধা | Sometimes biased towards larger splits | Sensitive to the number of splits in data |
সারাংশ
- Gini Index এবং Information Gain দুটি গুরুত্বপূর্ণ মেট্রিক্স যা Decision Tree নির্মাণে ব্যবহৃত হয়।
- Gini Index ডেটার অমেধা পরিমাপ করে এবং Information Gain ডেটার বিভাজন থেকে তথ্য পাওয়ার পরিমাণ পরিমাপ করে।
- উভয় মেট্রিক্সই মডেলকে ডেটাকে কার্যকরীভাবে ভাগ করতে সাহায্য করে এবং সঠিক সিদ্ধান্ত গ্রহণে গুরুত্বপূর্ণ ভূমিকা রাখে।
Read more