Bag of Words এবং TF-IDF

NLP (Natural Language Processing) এবং Text Mining - এইচ২ও (H2O) - Machine Learning

374

Bag of Words (BoW) এবং Term Frequency-Inverse Document Frequency (TF-IDF) হল টেক্সট প্রক্রিয়াকরণে ব্যবহৃত দুটি জনপ্রিয় বৈশিষ্ট্য সংগ্রহ পদ্ধতি, যা টেক্সট ডেটাকে সংখ্যা আকারে রূপান্তর করতে সাহায্য করে, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেগুলি ব্যবহার করতে পারে। নিচে এই দুটি পদ্ধতির বিস্তারিত আলোচনা করা হলো।


১. Bag of Words (BoW)

Bag of Words (BoW) হল একটি সরল এবং জনপ্রিয় পদ্ধতি যা একটি ডকুমেন্ট বা টেক্সট কনটেন্ট থেকে শব্দের বৈশিষ্ট্য (features) তৈরি করে। এই পদ্ধতিতে, আমরা কেবল শব্দের উপস্থিতি এবং তাদের ফ্রিকোয়েন্সি (frequency) গণনা করি এবং কোনো বাক্য বা শব্দের অর্থ বা অর্ডারকে বিবেচনায় নেয়া হয় না।

প্রক্রিয়া:

  1. শব্দের ভোকাবুলারি তৈরি: সমস্ত ডকুমেন্টগুলির মধ্যে ব্যবহৃত সমস্ত শব্দগুলির একটি ভোকাবুলারি (word list) তৈরি করা হয়।
  2. শব্দের উপস্থিতি গণনা: প্রতিটি ডকুমেন্টের জন্য, ভোকাবুলারির প্রতিটি শব্দের জন্য এটি দেখা হয় যে শব্দটি ডকুমেন্টে উপস্থিত কিনা এবং কতবার উপস্থিত।

উদাহরণ:

ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:

  1. ডকুমেন্ট 1: "I love programming"
  2. ডকুমেন্ট 2: "Programming is fun"

এখন, ভোকাবুলারি হবে: ["I", "love", "programming", "is", "fun"]

BoW মডেল অনুযায়ী:

  • ডকুমেন্ট 1: I - 1, love - 1, programming - 1, is - 0, fun - 0
  • ডকুমেন্ট 2: I - 0, love - 0, programming - 1, is - 1, fun - 1

এটি একটি ভেক্টর আকারে রূপান্তরিত হবে:

  • ডকুমেন্ট 1: [1, 1, 1, 0, 0]
  • ডকুমেন্ট 2: [0, 0, 1, 1, 1]

সুবিধা:

  • সহজ এবং দ্রুত বাস্তবায়ন।
  • শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি দিয়ে একটি ডকুমেন্টের বৈশিষ্ট্য নির্ধারণ করা সহজ।

অসুবিধা:

  • শব্দের অর্ডার বা অর্থ বিবেচনায় নেওয়া হয় না।
  • উচ্চ মাত্রার ডেটা (High Dimensionality) সমস্যা সৃষ্টি করতে পারে, বিশেষ করে যদি ডকুমেন্টের ভোকাবুলারি বড় হয়।

২. Term Frequency-Inverse Document Frequency (TF-IDF)

TF-IDF একটি উন্নত পদ্ধতি যা শুধুমাত্র শব্দের উপস্থিতি নয়, বরং শব্দটির গুরুত্ব নির্ধারণ করার জন্য ডকুমেন্টের মধ্যে তাদের ফ্রিকোয়েন্সি (Term Frequency) এবং তাদের বিশিষ্টতা (Inverse Document Frequency) বিবেচনায় নেয়। এটি বিশেষত ডকুমেন্টগুলির মধ্যে গুরুত্বপূর্ণ শব্দ চিহ্নিত করতে সহায়ক।

প্রক্রিয়া:

  1. Term Frequency (TF): একটি শব্দ কতবার একটি ডকুমেন্টে প্রদর্শিত হয় তার একটি পরিমাপ।

    TF=Specific Term Frequency in a DocumentTotal Terms in the Document\text{TF} = \frac{\text{Specific Term Frequency in a Document}}{\text{Total Terms in the Document}}

  2. Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব নির্ধারণ করে। যদি একটি শব্দ বেশিরভাগ ডকুমেন্টে উপস্থিত থাকে, তবে তার IDF কম হবে।

    IDF=log(Total DocumentsNumber of Documents containing the term)\text{IDF} = \log\left(\frac{\text{Total Documents}}{\text{Number of Documents containing the term}}\right)

  3. TF-IDF Calculation: শব্দের TF এবং IDF এর গুণফল হলো সেই শব্দের TF-IDF স্কোর, যা শব্দটির গুরুত্ব নির্দেশ করে।

TF-IDF=TF×IDF\text{TF-IDF} = \text{TF} \times \text{IDF}

উদাহরণ:

ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:

  1. ডকুমেন্ট 1: "I love programming"
  2. ডকুমেন্ট 2: "Programming is fun"
TF Calculation:
  • ডকুমেন্ট 1: I - 1/3, love - 1/3, programming - 1/3
  • ডকুমেন্ট 2: I - 0, love - 0, programming - 1/3, is - 1/3, fun - 1/3
IDF Calculation:
  • programming: IDF = log(2/2) = 0
  • I, love, is, fun: IDF = log(2/1) = 0.3010
TF-IDF Calculation:
  • ডকুমেন্ট 1: I - 1/3 * 0.3010 = 0.1003, love - 0.1003, programming - 0
  • ডকুমেন্ট 2: programming - 1/3 * 0 = 0, is - 0.1003, fun - 0.1003

BoW এবং TF-IDF এর মধ্যে পার্থক্য

বিষয়Bag of Words (BoW)TF-IDF
বৈশিষ্ট্যকেবল শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি ব্যবহার করে।শব্দের গুরুত্ব নির্ধারণ করে, ডকুমেন্টের মধ্যে উপস্থিতি এবং বিশিষ্টতা বিশ্লেষণ করে।
ডকুমেন্টের আকারডকুমেন্টের ভোকাবুলারি অনুযায়ী উচ্চ মাত্রার (High Dimensionality)।শব্দের গুরুত্বের ভিত্তিতে কম মাত্রার (Low Dimensionality)।
পারফরম্যান্সশব্দের অর্ডার বা গুরুত্ব কিছুই বিবেচনায় নেয় না।গুরুত্বপূর্ণ শব্দগুলির স্কোর বেশি হয়, অর্থাৎ টপিক অনুসারে শব্দ নির্বাচন করতে পারে।
ব্যবহারসাধারণত ছোট এবং সরল টেক্সট ডেটাতে ব্যবহার হয়।যখন ডেটা বড় এবং শব্দগুলির গুরুত্ব বিশ্লেষণ করা প্রয়োজন।

সারাংশ

  • Bag of Words সহজ এবং দ্রুত একটি পদ্ধতি, তবে এতে শব্দের অর্ডার বা গুরুত্ব বিবেচনায় নেয়া হয় না। এটি সাধারণত ছোট ডেটাসেটে ব্যবহৃত হয়।
  • TF-IDF শব্দের গুরুত্ব নির্ধারণ করে, যা বিশেষ করে গুরুত্বপূর্ণ শব্দগুলিকে প্রাধান্য দেয় এবং ডকুমেন্টের মধ্যে শব্দের গুরুত্ব বিশ্লেষণ করতে সহায়ক। TF-IDF বড় ডেটাসেটে ভাল কাজ করে এবং শব্দের উপর গভীর বিশ্লেষণ প্রদান করে।
Content added By
Promotion

Are you sure to start over?

Loading...