Bag of Words এবং TF-IDF

Computer Science - আর্টিফিশিয়াল ইন্টেলিজেন্স (Artificial Intelligence) - Natural Language Processing (NLP)
439

Bag of Words (BoW)

Bag of Words (BoW) হল একটি জনপ্রিয় এবং সাধারণ টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা একটি টেক্সট ডেটাসেট থেকে বৈশিষ্ট্য (features) তৈরি করার জন্য ব্যবহৃত হয়। এই পদ্ধতির মাধ্যমে, একটি ডকুমেন্ট বা টেক্সটকে একটি "ব্যাগ" হিসেবে ধরা হয়, যেখানে শব্দগুলি তাদের ক্রম ছাড়াই থাকে এবং তাদের সংখ্যাও গুরুত্বপূর্ণ নয়।

বৈশিষ্ট্য

  • শব্দের উপস্থিতি: BoW মডেলে প্রতিটি শব্দের উপস্থিতি গণনা করা হয়। এটি শব্দের ফ্রিকোয়েন্সি এবং টেক্সটের মধ্যে শব্দের সংখ্যা বোঝার জন্য ব্যবহার করা হয়।
  • ক্রম এবং ব্যাকরণ সংক্রান্ত তথ্য বাদ দেওয়া: শব্দগুলির ক্রম বা অর্থের সম্পর্কের বিবেচনা করা হয় না; কেবলমাত্র শব্দগুলির উপস্থিতি বা অনুপস্থিতি বিবেচিত হয়।

উদাহরণ

যদি আমাদের দুটি ডকুমেন্ট থাকে:

  1. "আমি ভালোবাসি কুকুর।"
  2. "আমি ভালোবাসি বিড়াল।"

BoW এ শব্দের তালিকা হবে: ["আমি", "ভালোবাসি", "কুকুর", "বিড়াল"]।

শব্দডকুমেন্ট 1ডকুমেন্ট 2
আমি11
ভালোবাসি11
কুকুর10
বিড়াল01

ব্যবহার

  • টেক্সট ক্লাসিফিকেশন
  • তথ্য পুনরুদ্ধার
  • স্প্যাম ফিল্টারিং

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF হল একটি পরিমাপ পদ্ধতি যা শব্দের গুরুত্ব বোঝাতে ব্যবহার করা হয় একটি ডকুমেন্টের মধ্যে এবং একটি বৃহত্তর ডকুমেন্ট কালেকশনের মধ্যে। এটি শব্দের গুরুত্ব নির্ধারণ করে, যা টেক্সট ডেটায় বৈশিষ্ট্য তৈরি করার জন্য খুবই কার্যকর।

TF-IDF-এর গঠন

Term Frequency (TF): একটি নির্দিষ্ট ডকুমেন্টে শব্দের উপস্থিতির সংখ্যা। এটি সাধারণত নিম্নলিখিত ফর্মুলার মাধ্যমে গণনা করা হয়:

 \[
  \text{TF}(t, d) = \frac{\text{Number of times term t appears in document d}}{\text{Total number of terms in document d}}
  \]

Inverse Document Frequency (IDF): এটি ডকুমেন্ট কালেকশনে শব্দের গুরুত্ব নির্দেশ করে। এর মাধ্যমে বোঝা যায় যে শব্দটি কতটা সাধারণ বা বিরল। এটি গণনা করা হয়:

 \[
  \text{IDF}(t, D) = \log\left(\frac{\text{Total number of documents in D}}{\text{Number of documents containing term t}}\right)
  \]

TF-IDF: TF এবং IDF এর গুণফল। এটি শব্দটির গুরুত্ব নির্দেশ করে:

   \[
  \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
  \]

উদাহরণ

ধরা যাক, আমাদের তিনটি ডকুমেন্ট আছে:

  1. "আমি ভালোবাসি কুকুর।"
  2. "আমি ভালোবাসি বিড়াল।"
  3. "কুকুর এবং বিড়াল দুটিই পোষ্য।"

এখন "কুকুর" শব্দের TF-IDF এর গণনা করলে, এটি জানতে হবে শব্দটির কতবার উপস্থিতি এবং কতটি ডকুমেন্টে এটি রয়েছে।

ব্যবহার

  • তথ্য পুনরুদ্ধার
  • টেক্সট ক্লাসিফিকেশন
  • ডেটা মাইনিং

উপসংহার

Bag of Words (BoW) এবং TF-IDF হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মৌলিক টুল, যা টেক্সট ডেটার বৈশিষ্ট্য বের করার জন্য ব্যবহৃত হয়। BoW শব্দগুলির উপস্থিতি ভিত্তিক তথ্য প্রদান করে, যেখানে TF-IDF শব্দগুলির গুরুত্ব নির্ধারণ করে ডকুমেন্টের মধ্যে। এই পদ্ধতিগুলি মেশিন লার্নিং এবং ডেটা অ্যানালিটিক্সে টেক্সট বিশ্লেষণে অত্যন্ত কার্যকর।

Content added || updated By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...