Bag of Words এবং TF-IDF

NLP (Natural Language Processing) এবং Text Mining - এইচ২ও (H2O) - Machine Learning

401

Bag of Words (BoW) এবং Term Frequency-Inverse Document Frequency (TF-IDF) হল টেক্সট প্রক্রিয়াকরণে ব্যবহৃত দুটি জনপ্রিয় বৈশিষ্ট্য সংগ্রহ পদ্ধতি, যা টেক্সট ডেটাকে সংখ্যা আকারে রূপান্তর করতে সাহায্য করে, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেগুলি ব্যবহার করতে পারে। নিচে এই দুটি পদ্ধতির বিস্তারিত আলোচনা করা হলো।

১. Bag of Words (BoW)

Bag of Words (BoW) হল একটি সরল এবং জনপ্রিয় পদ্ধতি যা একটি ডকুমেন্ট বা টেক্সট কনটেন্ট থেকে শব্দের বৈশিষ্ট্য (features) তৈরি করে। এই পদ্ধতিতে, আমরা কেবল শব্দের উপস্থিতি এবং তাদের ফ্রিকোয়েন্সি (frequency) গণনা করি এবং কোনো বাক্য বা শব্দের অর্থ বা অর্ডারকে বিবেচনায় নেয়া হয় না।

প্রক্রিয়া:

শব্দের ভোকাবুলারি তৈরি: সমস্ত ডকুমেন্টগুলির মধ্যে ব্যবহৃত সমস্ত শব্দগুলির একটি ভোকাবুলারি (word list) তৈরি করা হয়।
শব্দের উপস্থিতি গণনা: প্রতিটি ডকুমেন্টের জন্য, ভোকাবুলারির প্রতিটি শব্দের জন্য এটি দেখা হয় যে শব্দটি ডকুমেন্টে উপস্থিত কিনা এবং কতবার উপস্থিত।

উদাহরণ:

ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:

ডকুমেন্ট 1: "I love programming"
ডকুমেন্ট 2: "Programming is fun"

এখন, ভোকাবুলারি হবে: ["I", "love", "programming", "is", "fun"]

BoW মডেল অনুযায়ী:

ডকুমেন্ট 1: I - 1, love - 1, programming - 1, is - 0, fun - 0
ডকুমেন্ট 2: I - 0, love - 0, programming - 1, is - 1, fun - 1

এটি একটি ভেক্টর আকারে রূপান্তরিত হবে:

ডকুমেন্ট 1: [1, 1, 1, 0, 0]
ডকুমেন্ট 2: [0, 0, 1, 1, 1]

সুবিধা:

সহজ এবং দ্রুত বাস্তবায়ন।
শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি দিয়ে একটি ডকুমেন্টের বৈশিষ্ট্য নির্ধারণ করা সহজ।

অসুবিধা:

শব্দের অর্ডার বা অর্থ বিবেচনায় নেওয়া হয় না।
উচ্চ মাত্রার ডেটা (High Dimensionality) সমস্যা সৃষ্টি করতে পারে, বিশেষ করে যদি ডকুমেন্টের ভোকাবুলারি বড় হয়।

২. Term Frequency-Inverse Document Frequency (TF-IDF)

TF-IDF একটি উন্নত পদ্ধতি যা শুধুমাত্র শব্দের উপস্থিতি নয়, বরং শব্দটির গুরুত্ব নির্ধারণ করার জন্য ডকুমেন্টের মধ্যে তাদের ফ্রিকোয়েন্সি (Term Frequency) এবং তাদের বিশিষ্টতা (Inverse Document Frequency) বিবেচনায় নেয়। এটি বিশেষত ডকুমেন্টগুলির মধ্যে গুরুত্বপূর্ণ শব্দ চিহ্নিত করতে সহায়ক।

প্রক্রিয়া:

Term Frequency (TF): একটি শব্দ কতবার একটি ডকুমেন্টে প্রদর্শিত হয় তার একটি পরিমাপ।
$\text{TF} = \frac{\text{Specific Term Frequency in a Document}}{\text{Total Terms in the Document}}$
Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব নির্ধারণ করে। যদি একটি শব্দ বেশিরভাগ ডকুমেন্টে উপস্থিত থাকে, তবে তার IDF কম হবে।
$\text{IDF} = \log\left(\frac{\text{Total Documents}}{\text{Number of Documents containing the term}}\right)$
TF-IDF Calculation: শব্দের TF এবং IDF এর গুণফল হলো সেই শব্দের TF-IDF স্কোর, যা শব্দটির গুরুত্ব নির্দেশ করে।

$\text{TF-IDF} = \text{TF} \times \text{IDF}$

উদাহরণ:

ধরা যাক, আমাদের দুটি ডকুমেন্ট আছে:

ডকুমেন্ট 1: "I love programming"
ডকুমেন্ট 2: "Programming is fun"

TF Calculation:

ডকুমেন্ট 1: I - 1/3, love - 1/3, programming - 1/3
ডকুমেন্ট 2: I - 0, love - 0, programming - 1/3, is - 1/3, fun - 1/3

IDF Calculation:

programming: IDF = log(2/2) = 0
I, love, is, fun: IDF = log(2/1) = 0.3010

TF-IDF Calculation:

ডকুমেন্ট 1: I - 1/3 * 0.3010 = 0.1003, love - 0.1003, programming - 0
ডকুমেন্ট 2: programming - 1/3 * 0 = 0, is - 0.1003, fun - 0.1003

BoW এবং TF-IDF এর মধ্যে পার্থক্য

বিষয়	Bag of Words (BoW)	TF-IDF
বৈশিষ্ট্য	কেবল শব্দের উপস্থিতি এবং ফ্রিকোয়েন্সি ব্যবহার করে।	শব্দের গুরুত্ব নির্ধারণ করে, ডকুমেন্টের মধ্যে উপস্থিতি এবং বিশিষ্টতা বিশ্লেষণ করে।
ডকুমেন্টের আকার	ডকুমেন্টের ভোকাবুলারি অনুযায়ী উচ্চ মাত্রার (High Dimensionality)।	শব্দের গুরুত্বের ভিত্তিতে কম মাত্রার (Low Dimensionality)।
পারফরম্যান্স	শব্দের অর্ডার বা গুরুত্ব কিছুই বিবেচনায় নেয় না।	গুরুত্বপূর্ণ শব্দগুলির স্কোর বেশি হয়, অর্থাৎ টপিক অনুসারে শব্দ নির্বাচন করতে পারে।
ব্যবহার	সাধারণত ছোট এবং সরল টেক্সট ডেটাতে ব্যবহার হয়।	যখন ডেটা বড় এবং শব্দগুলির গুরুত্ব বিশ্লেষণ করা প্রয়োজন।

সারাংশ

Bag of Words সহজ এবং দ্রুত একটি পদ্ধতি, তবে এতে শব্দের অর্ডার বা গুরুত্ব বিবেচনায় নেয়া হয় না। এটি সাধারণত ছোট ডেটাসেটে ব্যবহৃত হয়।
TF-IDF শব্দের গুরুত্ব নির্ধারণ করে, যা বিশেষ করে গুরুত্বপূর্ণ শব্দগুলিকে প্রাধান্য দেয় এবং ডকুমেন্টের মধ্যে শব্দের গুরুত্ব বিশ্লেষণ করতে সহায়ক। TF-IDF বড় ডেটাসেটে ভাল কাজ করে এবং শব্দের উপর গভীর বিশ্লেষণ প্রদান করে।

Content added By

Azizar Rahman Aziz

H2O.ai এ Text Data প্রি-প্রসেসিং Sentiment Analysis এবং Topic Modeling NLP মডেল তৈরি এবং বাস্তবায়ন

Bag of Words এবং TF-IDF

১. Bag of Words (BoW)

প্রক্রিয়া:

উদাহরণ:

সুবিধা:

অসুবিধা:

২. Term Frequency-Inverse Document Frequency (TF-IDF)

প্রক্রিয়া:

উদাহরণ:

TF Calculation:

IDF Calculation:

TF-IDF Calculation:

BoW এবং TF-IDF এর মধ্যে পার্থক্য

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Bag of Words এবং TF-IDF

১. Bag of Words (BoW)

প্রক্রিয়া:

উদাহরণ:

সুবিধা:

অসুবিধা:

২. Term Frequency-Inverse Document Frequency (TF-IDF)

প্রক্রিয়া:

উদাহরণ:

TF Calculation:

IDF Calculation:

TF-IDF Calculation:

BoW এবং TF-IDF এর মধ্যে পার্থক্য

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!