Bag of Words (BoW) এবং Term Frequency-Inverse Document Frequency (TF-IDF) হল টেক্সট প্রক্রিয়াকরণে ব্যবহৃত দুটি জনপ্রিয় বৈশিষ্ট্য সংগ্রহ পদ্ধতি, যা টেক্সট ডেটাকে সংখ্যা আকারে রূপান্তর করতে সাহায্য করে, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেগুলি ব্যবহার করতে পারে। নিচে এই দুটি পদ্ধতির বিস্তারিত আলোচনা করা হলো।
১. Bag of Words (BoW)
Bag of Words (BoW) হল একটি সরল এবং জনপ্রিয় পদ্ধতি যা একটি ডকুমেন্ট বা টেক্সট কনটেন্ট থেকে শব্দের বৈশিষ্ট্য (features) তৈরি করে। এই পদ্ধতিতে, আমরা কেবল শব্দের উপস্থিতি এবং তাদের ফ্রিকোয়েন্সি (frequency) গণনা করি এবং কোনো বাক্য বা শব্দের অর্থ বা অর্ডারকে বিবেচনায় নেয়া হয় না।
প্রক্রিয়া:
- শব্দের ভোকাবুলারি তৈরি: সমস্ত ডকুমেন্টগুলির মধ্যে ব্যবহৃত সমস্ত শব্দগুলির একটি ভোকাবুলারি (word list) তৈরি করা হয়।
- শব্দের উপস্থিতি গণনা: প্রতিটি ডকুমেন্টের জন্য, ভোকাবুলারির প্রতিটি শব্দের জন্য এটি দেখা হয় যে শব্দটি ডকুমেন্টে উপস্থিত কিনা এবং কতবার উপস্থিত।
উদাহরণ:
ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:
- ডকুমেন্ট 1: "I love programming"
- ডকুমেন্ট 2: "Programming is fun"
এখন, ভোকাবুলারি হবে: ["I", "love", "programming", "is", "fun"]
BoW মডেল অনুযায়ী:
- ডকুমেন্ট 1:
I- 1,love- 1,programming- 1,is- 0,fun- 0 - ডকুমেন্ট 2:
I- 0,love- 0,programming- 1,is- 1,fun- 1
এটি একটি ভেক্টর আকারে রূপান্তরিত হবে:
- ডকুমেন্ট 1: [1, 1, 1, 0, 0]
- ডকুমেন্ট 2: [0, 0, 1, 1, 1]
সুবিধা:
- সহজ এবং দ্রুত বাস্তবায়ন।
- শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি দিয়ে একটি ডকুমেন্টের বৈশিষ্ট্য নির্ধারণ করা সহজ।
অসুবিধা:
- শব্দের অর্ডার বা অর্থ বিবেচনায় নেওয়া হয় না।
- উচ্চ মাত্রার ডেটা (High Dimensionality) সমস্যা সৃষ্টি করতে পারে, বিশেষ করে যদি ডকুমেন্টের ভোকাবুলারি বড় হয়।
২. Term Frequency-Inverse Document Frequency (TF-IDF)
TF-IDF একটি উন্নত পদ্ধতি যা শুধুমাত্র শব্দের উপস্থিতি নয়, বরং শব্দটির গুরুত্ব নির্ধারণ করার জন্য ডকুমেন্টের মধ্যে তাদের ফ্রিকোয়েন্সি (Term Frequency) এবং তাদের বিশিষ্টতা (Inverse Document Frequency) বিবেচনায় নেয়। এটি বিশেষত ডকুমেন্টগুলির মধ্যে গুরুত্বপূর্ণ শব্দ চিহ্নিত করতে সহায়ক।
প্রক্রিয়া:
Term Frequency (TF): একটি শব্দ কতবার একটি ডকুমেন্টে প্রদর্শিত হয় তার একটি পরিমাপ।
Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব নির্ধারণ করে। যদি একটি শব্দ বেশিরভাগ ডকুমেন্টে উপস্থিত থাকে, তবে তার IDF কম হবে।
- TF-IDF Calculation: শব্দের TF এবং IDF এর গুণফল হলো সেই শব্দের TF-IDF স্কোর, যা শব্দটির গুরুত্ব নির্দেশ করে।
উদাহরণ:
ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:
- ডকুমেন্ট 1: "I love programming"
- ডকুমেন্ট 2: "Programming is fun"
TF Calculation:
- ডকুমেন্ট 1:
I- 1/3,love- 1/3,programming- 1/3 - ডকুমেন্ট 2:
I- 0,love- 0,programming- 1/3,is- 1/3,fun- 1/3
IDF Calculation:
programming: IDF = log(2/2) = 0I,love,is,fun: IDF = log(2/1) = 0.3010
TF-IDF Calculation:
- ডকুমেন্ট 1:
I- 1/3 * 0.3010 = 0.1003,love- 0.1003,programming- 0 - ডকুমেন্ট 2:
programming- 1/3 * 0 = 0,is- 0.1003,fun- 0.1003
BoW এবং TF-IDF এর মধ্যে পার্থক্য
| বিষয় | Bag of Words (BoW) | TF-IDF |
|---|---|---|
| বৈশিষ্ট্য | কেবল শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি ব্যবহার করে। | শব্দের গুরুত্ব নির্ধারণ করে, ডকুমেন্টের মধ্যে উপস্থিতি এবং বিশিষ্টতা বিশ্লেষণ করে। |
| ডকুমেন্টের আকার | ডকুমেন্টের ভোকাবুলারি অনুযায়ী উচ্চ মাত্রার (High Dimensionality)। | শব্দের গুরুত্বের ভিত্তিতে কম মাত্রার (Low Dimensionality)। |
| পারফরম্যান্স | শব্দের অর্ডার বা গুরুত্ব কিছুই বিবেচনায় নেয় না। | গুরুত্বপূর্ণ শব্দগুলির স্কোর বেশি হয়, অর্থাৎ টপিক অনুসারে শব্দ নির্বাচন করতে পারে। |
| ব্যবহার | সাধারণত ছোট এবং সরল টেক্সট ডেটাতে ব্যবহার হয়। | যখন ডেটা বড় এবং শব্দগুলির গুরুত্ব বিশ্লেষণ করা প্রয়োজন। |
সারাংশ
- Bag of Words সহজ এবং দ্রুত একটি পদ্ধতি, তবে এতে শব্দের অর্ডার বা গুরুত্ব বিবেচনায় নেয়া হয় না। এটি সাধারণত ছোট ডেটাসেটে ব্যবহৃত হয়।
- TF-IDF শব্দের গুরুত্ব নির্ধারণ করে, যা বিশেষ করে গুরুত্বপূর্ণ শব্দগুলিকে প্রাধান্য দেয় এবং ডকুমেন্টের মধ্যে শব্দের গুরুত্ব বিশ্লেষণ করতে সহায়ক। TF-IDF বড় ডেটাসেটে ভাল কাজ করে এবং শব্দের উপর গভীর বিশ্লেষণ প্রদান করে।
Read more