Text Classification এবং Natural Language Processing (NLP)

Machine Learning - সাইকিট-লার্ন (Scikit-Learn)

186

Natural Language Processing (NLP) এবং Text Classification মেশিন লার্নিং এবং কম্পিউটার সায়েন্সের দুটি গুরুত্বপূর্ণ ক্ষেত্র, যা ডেটা এবং ভাষার মধ্যে সম্পর্ক তৈরি করার জন্য ব্যবহৃত হয়। NLP মানুষের ভাষা বুঝতে এবং বিশ্লেষণ করতে ব্যবহৃত হয়, এবং Text Classification হলো NLP-এর একটি বিশেষ অ্যাপ্লিকেশন যা টেক্সট ডেটাকে বিভিন্ন শ্রেণিতে বিভক্ত করতে সাহায্য করে।

Natural Language Processing (NLP) এর বেসিক ধারণা

Natural Language Processing (NLP) হলো একটি কম্পিউটার সায়েন্সের শাখা যা কম্পিউটারকে মানুষের ভাষা বুঝতে, প্রক্রিয়া করতে এবং উৎপন্ন করতে সক্ষম করে। এটি ভাষাগত তথ্য (text, speech) কম্পিউটার দ্বারা স্বয়ংক্রিয়ভাবে প্রক্রিয়া, বিশ্লেষণ এবং অনুবাদ করার জন্য ব্যবহৃত হয়।

NLP এর মূল কাজগুলি:

Tokenization:
- এটি ভাষা বা টেক্সটকে ছোট ছোট অংশে ভেঙে দেয়, যেমন শব্দ (word tokenization) বা বাক্য (sentence tokenization)।
Named Entity Recognition (NER):
- এটি টেক্সটের মধ্যে গুরুত্বপূর্ণ নাম, স্থান, তারিখ ইত্যাদি সনাক্ত করে।
Part-of-Speech (POS) Tagging:
- এটি প্রতিটি শব্দের গ্রাম্যাটিক্যাল ভূমিকা চিহ্নিত করে (যেমন, noun, verb, adjective)।
Sentiment Analysis:
- এটি টেক্সটের মধ্যে মানুষের অনুভূতি চিহ্নিত করে, যেমন, পজিটিভ, নেগেটিভ বা নিউট্রাল।
Machine Translation:
- ভাষা অনুবাদ করা, যেমন ইংরেজি থেকে বাংলা বা অন্য ভাষায় অনুবাদ।
Text Generation:
- মডেল দ্বারা নতুন টেক্সট তৈরি করা, যেমন টেক্সট প্রম্পটের ভিত্তিতে লেখা তৈরি করা।

Text Classification এর বেসিক ধারণা

Text Classification হলো একটি মেশিন লার্নিং কাজ যেখানে টেক্সট ডেটাকে বিভিন্ন শ্রেণিতে বিভক্ত করা হয়। এটি টেক্সট ডেটার উপর ভিত্তি করে বিভিন্ন শ্রেণী বা ক্যাটেগরিতে ভাগ করার প্রক্রিয়া। Text Classification NLP-এর একটি গুরুত্বপূর্ণ অ্যাপ্লিকেশন, যেখানে মডেলটি নির্দিষ্ট টেক্সটের শ্রেণী বা ট্যাগ নির্ধারণ করে।

Text Classification এর উদাহরণ:

Spam Filtering:
- ইমেইলটি স্প্যাম কিনা তা সনাক্ত করা।
Sentiment Analysis:
- টুইট বা রিভিউয়ের উপর ভিত্তি করে এটি পজিটিভ, নেগেটিভ বা নিউট্রাল কিনা তা নির্ধারণ করা।
Topic Categorization:
- সংবাদ বা ব্লগ পোস্টকে নির্দিষ্ট বিষয়ে (রাজনীতি, খেলা, প্রযুক্তি) শ্রেণীবদ্ধ করা।
Language Detection:
- টেক্সটের ভাষা শনাক্ত করা, যেমন ইংরেজি, বাংলা, স্প্যানিশ ইত্যাদি।

Text Classification এর প্রধান ধাপ

Data Collection:
- প্রথমে টেক্সট ডেটা সংগ্রহ করা হয়। এটি কোনো রিভিউ, টুইট, সংবাদ বা অন্য কোনো ধরনের ডেটা হতে পারে।
Text Preprocessing:
- Cleaning: টেক্সটের অপ্রয়োজনীয় অংশ যেমন স্পেশাল ক্যারেক্টার, পাংকচুয়েশন, স্টপওয়ার্ড (যেমন "the", "is", "in") সরিয়ে ফেলা।
- Tokenization: টেক্সটকে ছোট ছোট অংশে (শব্দ বা বাক্য) বিভক্ত করা।
- Stemming / Lemmatization: শব্দের মূল রূপে আনা, যেমন "running" → "run"।
Feature Extraction:
- টেক্সটের বৈশিষ্ট্য বা ফিচার বের করা। সাধারণত Bag of Words, TF-IDF (Term Frequency-Inverse Document Frequency), বা Word Embeddings (যেমন Word2Vec, GloVe) ব্যবহার করা হয়।
Model Training:
- নির্বাচিত ফিচারগুলির ওপর ভিত্তি করে মেশিন লার্নিং মডেল যেমন Logistic Regression, Naive Bayes, SVM, বা Deep Learning models (যেমন LSTM, BERT) প্রশিক্ষণ দেওয়া হয়।
Evaluation:
- মডেলটির কার্যকারিতা পরিমাপ করা হয়। সাধারণ মেট্রিক্স যেমন Accuracy, Precision, Recall, এবং F1-Score ব্যবহার করা হয়।

Text Classification এর জন্য ব্যবহৃত মডেল ও অ্যালগরিদম

Naive Bayes:
- এটি একটি খুব সাধারণ এবং জনপ্রিয় মডেল, যা সাধারণত টেক্সট ক্লাসিফিকেশনের জন্য ব্যবহৃত হয়। এটি probabilistic মডেল যা বেইজ থিওরেমের উপর ভিত্তি করে কাজ করে।
Support Vector Machine (SVM):
- এটি একটি শক্তিশালী ক্লাসিফিকেশন মডেল যা টেক্সটের মধ্যে শ্রেণীভিত্তিক সীমান্ত খুঁজে বের করে। এটি খুব ভালো ফলাফল দেয় বিশেষ করে ছোট ডেটাসেটগুলির জন্য।
Logistic Regression:
- এটি একটি বেসিক ক্লাসিফিকেশন অ্যালগরিদম যা টেক্সটের মধ্যে পজিটিভ বা নেগেটিভ শ্রেণি নির্ধারণ করতে ব্যবহৃত হয়।
Deep Learning Models (LSTM, CNN, BERT):
- Long Short-Term Memory (LSTM) এবং Convolutional Neural Networks (CNN) টেক্সটের গভীর সম্পর্ক বুঝতে সাহায্য করে। BERT (Bidirectional Encoder Representations from Transformers) মডেল টেক্সট ক্লাসিফিকেশন এবং অন্যান্য NLP কাজের জন্য অত্যন্ত শক্তিশালী একটি মডেল।

Text Classification এর জন্য Feature Extraction Techniques

Bag of Words (BoW):
- এটি একটি সাধারণ পদ্ধতি যেখানে শব্দগুলোকে একটি ভেক্টরে পরিণত করা হয় এবং শব্দের উপস্থিতি বা ফ্রিকোয়েন্সি ব্যবহার করা হয়। তবে এটি ঐতিহ্যগতভাবে পার্শ্ববর্তী শব্দের তথ্য ধারণ করে না।
TF-IDF:
- Term Frequency-Inverse Document Frequency একটি পরিমাপ যা শব্দের গুরুত্ব নির্ধারণ করে ডেটাসেটের মধ্যে। এটি একটি শব্দের ফ্রিকোয়েন্সি (TF) এবং যে ডকুমেন্টে শব্দটি উপস্থিত তা কতটা বিরল (IDF) তা বিবেচনায় নেয়।
Word Embeddings:
- Word2Vec, GloVe, এবং FastText হলো জনপ্রিয় word embedding পদ্ধতি যা শব্দগুলোকে একটি গাণিতিক ভেক্টরে রূপান্তর করে এবং সেগুলির মধ্যে অর্থপূর্ণ সম্পর্ক তৈরি করে।

সারাংশ

Natural Language Processing (NLP) হলো একটি গবেষণা ক্ষেত্র যা কম্পিউটারকে মানুষের ভাষা বুঝতে এবং প্রক্রিয়া করতে সহায়ক করে।
Text Classification হলো একটি মেশিন লার্নিং সমস্যা যেখানে টেক্সট ডেটাকে বিভিন্ন শ্রেণীতে বিভক্ত করা হয়। এটি ব্যবহার করা হয় স্প্যাম ফিল্টারিং, সেন্টিমেন্ট এনালাইসিস, টপিক ক্যাটেগোরাইজেশন ইত্যাদি কাজে।
Feature Extraction এবং Modeling হলো টেক্সট ক্লাসিফিকেশনের জন্য গুরুত্বপূর্ণ পদক্ষেপ, যেখানে বিভিন্ন মডেল যেমন Naive Bayes, SVM, Deep Learning models ইত্যাদি ব্যবহার করা হয়।

Text Classification এবং NLP উভয়ই ডেটার গভীর বিশ্লেষণ এবং গুরুত্বপূর্ণ সিদ্ধান্ত গ্রহণের জন্য অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Md Azizur Rahman

Text Preprocessing Techniques (Tokenization, Stopwords Removal)

189

Text Preprocessing হলো যেকোনো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) প্রথম ধাপ, যার মাধ্যমে কাঁচা বা অপরিশোধিত টেক্সট ডেটাকে বিশ্লেষণযোগ্য ফর্মে রূপান্তরিত করা হয়। এটি একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা মডেল তৈরির আগে ডেটার গুণগত মান উন্নত করতে সাহায্য করে। Tokenization এবং Stopwords Removal হলো টেক্সট প্রক্রিয়াকরণের দুটি গুরুত্বপূর্ণ এবং মৌলিক পদক্ষেপ।

1. Tokenization (টোকেনাইজেশন)

Tokenization হলো টেক্সট ডেটাকে ছোট ছোট অংশে (যেমন শব্দ বা বাক্য) ভাগ করার প্রক্রিয়া। এই ছোট অংশগুলোকে tokens বলা হয়। Tokenization হলো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের প্রথম এবং মৌলিক পদক্ষেপ, যেটি মেশিনের জন্য পাঠ্য বিশ্লেষণ সহজ করে তোলে।

Word Tokenization (শব্দ টোকেনাইজেশন):
টেক্সটকে শব্দের ভিত্তিতে ভাগ করা হয়। এটি প্রতিটি শব্দকে একটি আলাদা টোকেন হিসেবে চিহ্নিত করে।
- উদাহরণ:
  "I love programming." → ["I", "love", "programming"]
Sentence Tokenization (বাক্য টোকেনাইজেশন):
টেক্সটকে বাক্যের ভিত্তিতে ভাগ করা হয়। এটি প্রতিটি বাক্যকে একটি আলাদা টোকেন হিসেবে চিহ্নিত করে।
- উদাহরণ:
  "I love programming. It is fun." → ["I love programming.", "It is fun."]

Tokenization এর প্রয়োজনীয়তা:

এটি টেক্সটকে ছোট ছোট ইউনিটে ভাগ করে, যা সহজেই বিশ্লেষণ এবং মডেল তৈরির জন্য ব্যবহৃত হতে পারে।
টোকেনাইজেশন সহায়ক যখন কোনো মেশিন লার্নিং বা ডিপ লার্নিং মডেল তৈরি করা হয়, যেগুলি টেক্সটের বৈশিষ্ট্যগুলো শিখে বা বিশ্লেষণ করে।

2. Stopwords Removal (স্টপওয়ার্ড সরানো)

Stopwords Removal হলো টেক্সট থেকে এমন শব্দগুলো সরানোর প্রক্রিয়া যেগুলোর অর্থ সাধারণত কম গুরুত্বপূর্ণ বা অপাঙক্তেয়। এই ধরনের শব্দগুলি প্রায়ই সাধারণ এবং বারবার ব্যবহৃত হয়, যেমন "is", "the", "in", "at", "on", "a", "and" ইত্যাদি। এই শব্দগুলি সাধারণত টেক্সট প্রক্রিয়াকরণের সময় মডেলকে বিভ্রান্ত করতে পারে, তাই তাদের সরিয়ে ফেলা হয়।

Stopwords এর উদাহরণ:
- "is", "a", "an", "the", "of", "and", "in", "to", "for", "with" ইত্যাদি।

Stopwords Removal এর উদ্দেশ্য:

গুরুত্বপূর্ণ তথ্যের ফোকাস:
এটি এমন শব্দগুলিকে সরিয়ে দেয় যা মডেলের পারফরম্যান্সে কোনো বড় প্রভাব ফেলতে পারে না, এবং মডেলকে আরও দক্ষ করে তোলে।
কম্পিউটেশনাল দক্ষতা বৃদ্ধি:
Stopwords সরানোর মাধ্যমে কম্পিউটেশনাল খরচ কমানো যায়, কারণ এই শব্দগুলির উপর কোনো গভীর বিশ্লেষণ সাধারণত করা হয় না।

Stopwords Removal পদ্ধতি:

Pre-defined List:
একাধিক স্টপওয়ার্ডের একটি পূর্বনির্ধারিত তালিকা ব্যবহার করা হয় এবং টেক্সট থেকে এসব শব্দ সরিয়ে ফেলা হয়।
Custom List:
কিছু ক্ষেত্রে, বিশেষ করে ডোমেইন ভিত্তিক প্রয়োগে, ব্যবহারকারী তার নিজস্ব স্টপওয়ার্ড তালিকা তৈরি করে।

Tokenization এবং Stopwords Removal এর মধ্যে সম্পর্ক

Tokenization এবং Stopwords Removal একে অপরের সাথে সম্পর্কিত। প্রথমে টেক্সটকে টোকেনাইজ করা হয়, অর্থাৎ শব্দ বা বাক্যে ভাগ করা হয়, তারপর Stopwords Removal প্রক্রিয়া চলে যেখানে স্টপওয়ার্ডগুলো সরানো হয়। এই দুটি প্রক্রিয়া একসাথে মডেলের জন্য আরও পরিষ্কার এবং নির্ভুল ডেটা তৈরি করতে সহায়ক।

Python-এ Tokenization এবং Stopwords Removal উদাহরণ

Python-এ nltk (Natural Language Toolkit) লাইব্রেরি ব্যবহার করে টোকেনাইজেশন এবং স্টপওয়ার্ড রিমুভাল করা যায়।

Tokenization উদাহরণ:

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Sample text
text = "I love programming. It is fun and exciting."

# Sentence tokenization
sentences = sent_tokenize(text)
print("Sentence Tokenization:", sentences)

# Word tokenization
words = word_tokenize(text)
print("Word Tokenization:", words)

Stopwords Removal উদাহরণ:

from nltk.corpus import stopwords

# Download the stopwords
nltk.download('stopwords')

# Define stopwords
stop_words = set(stopwords.words('english'))

# Example text
text = "This is an example sentence, showing off the stop words filtration."

# Tokenize text into words
words = word_tokenize(text)

# Remove stopwords
filtered_words = [word for word in words if word.lower() not in stop_words]
print("Filtered Words:", filtered_words)

সারাংশ

Tokenization হলো টেক্সট ডেটাকে ছোট ছোট অংশে ভাগ করার প্রক্রিয়া, যাতে ডেটা সহজে বিশ্লেষণযোগ্য হয়।
Stopwords Removal হলো টেক্সট থেকে অপ্রয়োজনীয় সাধারণ শব্দ সরানোর প্রক্রিয়া, যাতে মডেল গুরুত্বপূর্ণ তথ্যের উপর মনোযোগ দিতে পারে।
এই দুটি প্রক্রিয়া মেশিন লার্নিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেল তৈরির জন্য অপরিহার্য।

Content added By

Md Azizur Rahman

TF-IDF এবং Bag of Words মডেল

189

TF-IDF (Term Frequency-Inverse Document Frequency) এবং Bag of Words (BoW) হলো দুটি জনপ্রিয় টেক্সট প্রক্রিয়াকরণ পদ্ধতি, যা Natural Language Processing (NLP) এবং Text Mining-এ ব্যবহৃত হয়। এগুলি টেক্সট ডেটাকে সংখ্যার আকারে রূপান্তর করতে ব্যবহৃত হয়, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেই ডেটা ব্যবহার করতে পারে।

1. Bag of Words (BoW) মডেল

Bag of Words একটি সহজ এবং বেসিক টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা টেক্সট ডেটাকে একটি শব্দের ভেক্টর হিসেবে রূপান্তরিত করে। এই মডেলটি একটি ডকুমেন্টের মধ্যে উপস্থিত শব্দগুলির উপস্থিতি এবং তাদের গননা (frequency) ব্যবহার করে একটি ভেক্টর তৈরি করে।

BoW মডেলের বৈশিষ্ট্য:

শব্দের অর্ডার গুরুত্বপূর্ণ নয়: শব্দের অর্ডার বা সিকোয়েন্স এখানে গোনা হয় না। শুধু শব্দের উপস্থিতি বা তাদের সংখ্যা গোনা হয়।
শব্দের উপস্থিতি: প্রত্যেকটি শব্দকে একটি ফিচার হিসেবে গণ্য করা হয় এবং এই শব্দগুলির উপস্থিতি ও সংখ্যা ভেক্টর ফিচার হিসেবে রূপান্তরিত করা হয়।

ফর্মুলা:

ধরা যাক, আমাদের দুটি ডকুমেন্ট:

"I love programming"
"Programming is fun"

এখন, সমস্ত ডকুমেন্টের জন্য একটি শব্দভাণ্ডার তৈরি করা হবে:

শব্দভাণ্ডার: ["I", "love", "programming", "is", "fun"]

এখন প্রতিটি ডকুমেন্টের জন্য একটি ভেক্টর তৈরি করা হবে, যেখানে প্রতিটি শব্দের উপস্থিতি গোনা হবে:

ডকুমেন্ট 1: [1, 1, 1, 0, 0] (I, love, programming, is, fun)
ডকুমেন্ট 2: [0, 0, 1, 1, 1] (I, love, programming, is, fun)

ব্যবহার:

BoW মডেল সাধারণত টেক্সট ক্লাসিফিকেশন এবং টেক্সট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।
এটি সাধারণত টেক্সট ক্লাসিফিকেশন সমস্যা (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং অন্যান্য NLP কাজ (যেমন শব্দ বিশ্লেষণ, সেন্টিমেন্ট অ্যানালাইসিস) তে ব্যবহৃত হয়।

সীমাবদ্ধতা:

শব্দের অর্ডার গুরুত্বহীন, তাই ভাষার প্রাকৃতিক গঠন (syntax) বা অর্থ (semantic) মডেলটি বিবেচনায় নেয় না।
এটি বিশাল ভেক্টর তৈরি করতে পারে, বিশেষ করে যদি ডেটাসেটে অনেক বড় শব্দভাণ্ডার থাকে।

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF হলো একটি উন্নত মেট্রিক যা Term Frequency (TF) এবং Inverse Document Frequency (IDF) এর সংমিশ্রণ। এটি শব্দের গুরুত্ব পরিমাপ করে, যাতে সাধারণ শব্দগুলির তুলনায় গুরুত্বপূর্ণ শব্দগুলির উপর বেশি গুরুত্ব দেওয়া হয়।

TF-IDF এর দুটি মূল অংশ:

Term Frequency (TF): এটি একটি নির্দিষ্ট শব্দের ডকুমেন্টে উপস্থিতির গননা (frequency) হিসাব করে। সাধারণত, শব্দের প্রাসঙ্গিকতা যতো বেশি, তার TF ততো বেশি হবে।
ফর্মুলা:
$TF=শব্দের উপস্থিতি গননাডকুমেন্টের মোট শব্দ সংখ্যা<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>TF</mtext><mo>=</mo><mfrac><mtext>শব্দের উপস্থিতি গননা</mtext><mtext>ডকুমেন্টের মোট শব্দ সংখ্যা</mtext></mfrac></mrow><annotation encoding="application/x-tex">\text{TF} = \frac{\text{শব্দের উপস্থিতি গননা}}{\text{ডকুমেন্টের মোট শব্দ সংখ্যা}}</annotation></semantics></math>$
Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব পরিমাপ করে ডকুমেন্টের মধ্যে সেই শব্দের বিরলতা পরিমাপ করে। একটি শব্দ যদি ডকুমেন্টের মধ্যে বেশিরভাগ সময় উপস্থিত থাকে, তবে তার IDF কম হবে, কারণ এটি সাধারণ শব্দ।
ফর্মুলা:
$IDF=log(মোট ডকুমেন্ট সংখ্যাযে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>IDF</mtext><mo>=</mo><mi>log</mi><mo>⁡</mo><mrow><mo fence="true">(</mo><mfrac><mtext>মোট ডকুমেন্ট সংখ্যা</mtext><mtext>যে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা</mtext></mfrac><mo fence="true">)</mo></mrow></mrow><annotation encoding="application/x-tex">\text{IDF} = \log \left( \frac{\text{মোট ডকুমেন্ট সংখ্যা}}{\text{যে ডকুমেন্টগুলিতে শব্দটি উপস্থিত আছে তাদের সংখ্যা}} \right)</annotation></semantics></math>$
TF-IDF: TF এবং IDF এর গুনফল হলো TF-IDF, যা শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করে।
ফর্মুলা:
$TF-IDF=TF×IDF<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>TF-IDF</mtext><mo>=</mo><mtext>TF</mtext><mo>×</mo><mtext>IDF</mtext></mrow><annotation encoding="application/x-tex">\text{TF-IDF} = \text{TF} \times \text{IDF}</annotation></semantics></math>$

ব্যবহার:

TF-IDF বেশি ব্যবহৃত হয় টেক্সট মাইনিং এবং ডকুমেন্ট ক্লাসিফিকেশন এ, যেখানে শুধুমাত্র গুরুত্বপূর্ণ শব্দগুলিকে গুরুত্ব দেয়া হয়।
এটি অনলাইন সার্চ ইঞ্জিন এবং রেকমেন্ডেশন সিস্টেম গুলিতে ব্যবহৃত হয়, যাতে বিভিন্ন শব্দের মধ্যে প্রাসঙ্গিকতা নির্ধারণ করা যায়।

উদাহরণ:

ধরা যাক, দুটি ডকুমেন্ট:

"I love programming"
"Programming is fun"

এখন, "programming" শব্দের TF-IDF বের করার জন্য:

TF(programming) = 1 (কারণ এটি প্রতি ডকুমেন্টে একবারই এসেছে)
IDF(programming) = $log(22)=0<math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>log</mi><mo>⁡</mo><mrow><mo fence="true">(</mo><mfrac><mn>2</mn><mn>2</mn></mfrac><mo fence="true">)</mo></mrow><mo>=</mo><mn>0</mn></mrow><annotation encoding="application/x-tex">\log \left( \frac{2}{2} \right) = 0</annotation></semantics></math>$ (যেহেতু এটি দুইটি ডকুমেন্টেই উপস্থিত)

তাহলে, TF-IDF(programming) = 1 × 0 = 0।

BoW এবং TF-IDF এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Bag of Words (BoW)	TF-IDF
শব্দের গুরুত্ব	সব শব্দকে সমান গুরুত্ব দেয়।	সাধারণ শব্দগুলির তুলনায় বিরল বা গুরুত্বপূর্ণ শব্দকে বেশি গুরুত্ব দেয়।
কম্পিউটেশনাল খরচ	সাধারণ এবং কম্পিউটেশনে সহজ।	একটু বেশি কম্পিউটেশনাল খরচ হতে পারে কারণ TF এবং IDF হিসাব করতে হয়।
পাঠ্য এর বৈশিষ্ট্য	শুধুমাত্র শব্দের উপস্থিতি গোনে, অর্ডার বা সংজ্ঞা বিবেচনায় নেয় না।	শব্দের গুরুত্বকে যাচাই করে, যা টেক্সটের মূল উপাদান বা অর্থ বোঝার জন্য সহায়ক।

সারাংশ

Bag of Words (BoW) একটি সহজ পদ্ধতি যা ডকুমেন্টের শব্দগুলির উপস্থিতি এবং গননা নির্ধারণ করে, তবে শব্দের অর্ডার বা অর্থের মধ্যে কোনো পার্থক্য ধরা হয় না।
TF-IDF একটি উন্নত পদ্ধতি যা শব্দের গুরুত্বকে পরিমাপ করে, যেটি টেক্সটের প্রাসঙ্গিকতা বা মুল বিষয়গুলো চিহ্নিত করতে সাহায্য করে। TF-IDF সাধারণত BoW এর চেয়ে বেশি কার্যকর যখন ডেটাতে সাধারণ বা কম গুরুত্বপূর্ণ শব্দ থাকতে পারে।

TF-IDF মডেল সাধারণত টেক্সট ক্লাসিফিকেশন, ইনফর্মেশন রিট্রিভাল, এবং ডকুমেন্ট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।

Content added By

Md Azizur Rahman

Sentiment Analysis এবং Text Classification

138

Sentiment Analysis এবং Text Classification দুটি গুরুত্বপূর্ণ টাস্ক Natural Language Processing (NLP)-এ, যা টেক্সট ডেটাকে বিভিন্ন শ্রেণীতে ভাগ করার জন্য ব্যবহৃত হয়। এগুলি বিশেষভাবে ব্যবহৃত হয় যখন আপনার টেক্সট ডেটার মধ্যে অনুভূতি বা তথ্য শ্রেণীবদ্ধ করা প্রয়োজন।

1. Sentiment Analysis (সেনটিমেন্ট অ্যানালাইসিস)

Sentiment Analysis হলো একটি প্রক্রিয়া যার মাধ্যমে টেক্সট ডেটার মধ্যে আবেগ বা অনুভূতি শনাক্ত করা হয়। এটি মূলত টেক্সটের পজিটিভ, নেগেটিভ অথবা নিরপেক্ষ (positive, negative, neutral) অনুভূতি বা সেন্টিমেন্ট বোঝার জন্য ব্যবহৃত হয়। এই পদ্ধতিটি অনেক ব্যবসায়িক এবং সামাজিক যোগাযোগ মাধ্যম বিশ্লেষণে ব্যবহার করা হয়, যেখানে টেক্সট বা কমেন্টের মাধ্যমে গ্রাহকদের অনুভূতি বোঝা গুরুত্বপূর্ণ।

Sentiment Analysis এর প্রক্রিয়া:

টেক্সট প্রি-প্রসেসিং:
টেক্সট ডেটা থেকে অপ্রয়োজনীয় শব্দ বা স্টপওয়ার্ডগুলি সরানো, শব্দসমূহের বেসিক ফর্মে আনা (stemming), এবং শব্দগুলোকে সঠিকভাবে এনকোড করা।
বিশ্লেষণ:
মডেলটি টেক্সটের মধ্যে উপস্থিত শব্দের প্রেক্ষিতে অনুভূতি বিশ্লেষণ করে। এখানে সাধারণত machine learning algorithms বা deep learning models (যেমন LSTM, BERT) ব্যবহার করা হয়।
রেজাল্ট (ফলাফল):
মডেলটি প্রতিটি টেক্সটের সেন্টিমেন্ট প্রেডিক্ট করে, যেমন, পজিটিভ, নেগেটিভ বা নিউট্রাল।

উদাহরণ:

পজিটিভ সেন্টিমেন্ট: "এই প্রোডাক্টটি অসাধারণ!"
নেগেটিভ সেন্টিমেন্ট: "এটি একেবারেই ভাল নয়, আমি এটা একেবারে পছন্দ করি না।"
নিউট্রাল সেন্টিমেন্ট: "আজকে আবহাওয়া সাধারণ ছিল।"

ব্যবহার:

Social Media Monitoring: সোশ্যাল মিডিয়া বা রিভিউ সাইটে পণ্য বা পরিষেবা সম্পর্কে গ্রাহকদের মতামত বিশ্লেষণ।
Customer Feedback: গ্রাহকদের প্রতিক্রিয়া থেকে সার্ভিসের মান এবং উন্নতির প্রয়োজনীয়তা বোঝা।
Brand Monitoring: ব্র্যান্ড সম্পর্কে জনমতের বিশ্লেষণ।

Sentiment Analysis এর উদাহরণ (Python):

from textblob import TextBlob

# টেক্সট ডেটা
text = "I love this product, it's amazing!"

# Sentiment Analysis
blob = TextBlob(text)
sentiment = blob.sentiment

print(f"Sentiment: {sentiment}")

আউটপুট:

Sentiment: (polarity=0.5, subjectivity=0.6)

Polarity ০ থেকে ১ এর মধ্যে পজিটিভ সেন্টিমেন্ট এবং ০ থেকে -১ এর মধ্যে নেগেটিভ সেন্টিমেন্ট নির্দেশ করে। Subjectivity নির্ধারণ করে যে টেক্সটটি কতোটা ব্যক্তিগত মতামত বা তথ্য ভিত্তিক।

2. Text Classification (টেক্সট ক্লাসিফিকেশন)

Text Classification হলো একটি প্রক্রিয়া যার মাধ্যমে টেক্সট ডেটাকে বিভিন্ন শ্রেণী বা ক্লাসে ভাগ করা হয়। এটি একটি সাধারণ NLP টাস্ক যা বিভিন্ন ধরনের তথ্য শ্রেণীবদ্ধ করতে সাহায্য করে। Text Classification অনেক কাজে ব্যবহার করা হয়, যেমন স্প্যাম ডিটেকশন, টপিক মডেলিং, ইমেইল ফিল্টারিং, এবং রিভিউ ক্লাসিফিকেশন।

Text Classification এর প্রক্রিয়া:

ডেটা সংগ্রহ এবং প্রি-প্রসেসিং:
ডেটা সংগ্রহ করা হয় এবং আগের মতোই স্টপওয়ার্ড ফিল্টার, স্টেমিং বা লেমাটাইজেশন ইত্যাদি প্রক্রিয়া করা হয়।
ফিচার এক্সট্রাকশন:
টেক্সট ডেটার বৈশিষ্ট্য (features) তৈরি করা হয়। সাধারণত TF-IDF (Term Frequency-Inverse Document Frequency) বা Word Embeddings (যেমন Word2Vec, GloVe) ব্যবহার করা হয়।
মডেল ট্রেনিং:
মডেলটি ট্রেন করা হয় বিভিন্ন টেক্সট ক্লাসের উপর, এবং এটি শিখে যে কোন টেক্সট কোন শ্রেণীতে পড়ে।
ভবিষ্যত ক্লাসিফিকেশন:
মডেলটি নতুন টেক্সটকে শ্রেণীভুক্ত করার জন্য ব্যবহৃত হয়।

উদাহরণ:

স্প্যাম বা নন-স্প্যাম ক্লাসিফিকেশন: ইমেইল বা মেসেজ থেকে স্প্যাম শনাক্ত করা।
টপিক ক্লাসিফিকেশন: সংবাদ বা ব্লগ পোস্টের টপিক (যেমন রাজনীতি, ক্রীড়া, প্রযুক্তি) শনাক্ত করা।

ব্যবহার:

Spam Detection: ইমেইল স্প্যাম ডিটেকশন।
Topic Modeling: সংবাদ বা ব্লগ পোস্টের বিষয়ভিত্তিক শ্রেণীবিভাগ।
Language Detection: কোন ভাষায় লেখা হয়েছে, তা শনাক্ত করা।

Text Classification এর উদাহরণ (Python):

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

# উদাহরণ ডেটাসেট
texts = ['I love programming', 'I hate bugs', 'Python is great', 'I hate errors']
labels = ['positive', 'negative', 'positive', 'negative']

# টেক্সট ফিচার এক্সট্রাকশন
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# ডেটা স্প্লিট
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Naive Bayes মডেল ট্রেনিং
model = MultinomialNB()
model.fit(X_train, y_train)

# পূর্বাভাস
prediction = model.predict(X_test)
print(f"Prediction: {prediction}")

আউটপুট:

Prediction: ['positive']

এখানে, মডেলটি I love programming টেক্সটটি positive শ্রেণীতে শ্রেণীবদ্ধ করেছে।

Sentiment Analysis vs Text Classification

বৈশিষ্ট্য	Sentiment Analysis	Text Classification
উদ্দেশ্য	টেক্সটের অনুভূতি বা আবেগ (পজিটিভ, নেগেটিভ, নিউট্রাল) শনাক্ত করা	টেক্সটকে নির্দিষ্ট শ্রেণীতে ভাগ করা (যেমন, স্প্যাম বা নন-স্প্যাম)
ব্যবহার	গ্রাহকের প্রতিক্রিয়া বা সোশ্যাল মিডিয়া মনিটরিং	টপিক ক্লাসিফিকেশন, স্প্যাম ডিটেকশন, ইমেইল ফিল্টারিং
আবেগ ভিত্তিক	হ্যাঁ, আবেগ শনাক্তকরণ	না, এটি কেবল শ্রেণীভিত্তিক (topic or category) বিশ্লেষণ
আউটপুট	পজিটিভ, নেগেটিভ, নিউট্রাল	শ্রেণী বা ক্লাস (যেমন, স্প্যাম, রাজনৈতিক, ক্রীড়া)

সারাংশ

Sentiment Analysis ব্যবহার করে টেক্সট ডেটার অনুভূতি বা আবেগ শনাক্ত করা হয় (যেমন, পজিটিভ, নেগেটিভ, নিউট্রাল)।
Text Classification ব্যবহার করে টেক্সটকে নির্দিষ্ট শ্রেণীতে ভাগ করা হয় (যেমন, স্প্যাম, টপিক ক্লাসিফিকেশন)।
উভয় পদ্ধতি NLP বা Natural Language Processing-এর মূল টাস্ক, যা ডেটা বিশ্লেষণে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Md Azizur Rahman

Scikit-Learn এর CountVectorizer এবং TfidfVectorizer

167

CountVectorizer এবং TfidfVectorizer হল Scikit-Learn এর দুটি গুরুত্বপূর্ণ টুল, যা টেক্সট ডেটা প্রক্রিয়াকরণ এবং ফিচার এক্সট্র্যাকশন এর জন্য ব্যবহৃত হয়। এই দুইটি ভেক্টরাইজার টেক্সট ডেটা থেকে ফিচার (features) বের করে, যেগুলি মেশিন লার্নিং মডেল ট্রেনিংয়ে ব্যবহৃত হয়।

1. CountVectorizer

CountVectorizer একটি বেসিক টেকনিক যা টেক্সট ডেটাকে একটি ম্যাট্রিক্সে রূপান্তরিত করে, যেখানে প্রতিটি কলাম একটি শব্দের (word) উপস্থিতি বা ফ্রিকোয়েন্সি (frequency) নির্দেশ করে। এটি প্রতিটি শব্দের সংখ্যা গণনা করে এবং টেক্সট ডেটার একটি ডকুমেন্ট-ওয়ার্ড ম্যাট্রিক্স তৈরি করে।

ফিচার:

এটি ডেটা থেকে শব্দের সংখ্যা বের করে।
নির্দিষ্ট শব্দের উপস্থিতি ম্যাট্রিক্স হিসেবে রূপান্তরিত হয়।
বাইনারি উপস্থিতি বা সংখ্যাত্মক সংখ্যা প্রদান করে।

ব্যবহার:

এই ভেক্টরাইজার মূলত টেক্সট ক্লাসিফিকেশন বা নেচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) সমস্যায় ব্যবহৃত হয়, যেখানে প্রতিটি শব্দের উপস্থিতির উপর ভিত্তি করে ডেটা ফিচার তৈরি করা হয়।

উদাহরণ:

from sklearn.feature_extraction.text import CountVectorizer

# টেক্সট ডেটা
corpus = [
    'I love programming',
    'Programming is fun',
    'I love fun'
]

# CountVectorizer ব্যবহার করা
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# আউটপুট দেখানো
print("Feature Names:", vectorizer.get_feature_names_out())
print("Bag of Words Matrix:\n", X.toarray())

আউটপুট:

Feature Names: ['fun' 'is' 'love' 'programming']
Bag of Words Matrix:
 [[0 0 1 1]
 [1 1 0 1]
 [1 0 1 0]]

এখানে, আমরা দেখতে পাচ্ছি যে "fun", "is", "love", "programming" শব্দগুলির উপস্থিতি ম্যাট্রিক্সে গণনা করা হয়েছে।

2. TfidfVectorizer

TfidfVectorizer (Term Frequency - Inverse Document Frequency) একটি উন্নত পদ্ধতি যা শব্দের অহমিয়তা নির্ধারণ করে। এটি শব্দের সাধারণতা এবং বিশেষত্ব (importance) পরিমাপ করে, এবং প্রত্যেক শব্দের জন্য একটি স্কোর প্রদান করে। TF-IDF শব্দের তীব্রতা নির্ধারণ করতে সাহায্য করে, যেখানে একটি শব্দ যতো বেশি বিশেষ (specific) এবং কম সাধারণ (common), তার স্কোর তত বেশি হবে।

Term Frequency (TF): এটি কোন শব্দের উপস্থিতির সংখ্যাকে সাধারণত ডকুমেন্টের মোট শব্দের সাথে তুলনা করে।
$TF=শব্দটির সংখ্যাডকুমেন্টের মোট শব্দের সংখ্যা<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>TF</mtext><mo>=</mo><mfrac><mtext>শব্দটির সংখ্যা</mtext><mtext>ডকুমেন্টের মোট শব্দের সংখ্যা</mtext></mfrac></mrow><annotation encoding="application/x-tex">\text{TF} = \frac{\text{শব্দটির সংখ্যা}}{\text{ডকুমেন্টের মোট শব্দের সংখ্যা}}</annotation></semantics></math>$
Inverse Document Frequency (IDF): এটি একটি শব্দের বিশেষত্ব মাপতে সাহায্য করে, এবং এটি হিসাব করে যে একটি শব্দ ডেটাসেটে কতোটা বিরল (rare)।
$IDF=log(ডকুমেন্ট সংখ্যাবিশেষ শব্দের উপস্থিতি সংখ্যার সাথে ডকুমেন্ট সংখ্যা)<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>IDF</mtext><mo>=</mo><mi>log</mi><mo>⁡</mo><mrow><mo fence="true">(</mo><mfrac><mtext>ডকুমেন্ট সংখ্যা</mtext><mtext>বিশেষ শব্দের উপস্থিতি সংখ্যার সাথে ডকুমেন্ট সংখ্যা</mtext></mfrac><mo fence="true">)</mo></mrow></mrow><annotation encoding="application/x-tex">\text{IDF} = \log\left(\frac{\text{ডকুমেন্ট সংখ্যা}}{\text{বিশেষ শব্দের উপস্থিতি সংখ্যার সাথে ডকুমেন্ট সংখ্যা}}\right)</annotation></semantics></math>$
TF-IDF Calculation:
একটি শব্দের TF-IDF স্কোর উভয় TF এবং IDF এর গুণফল। এর মাধ্যমে, টেক্সট ডেটাতে বেশি গুরুত্বপূর্ণ শব্দগুলো আলাদা করা যায়।
$TF-IDF=TF×IDF<math display="block" xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mtext>TF-IDF</mtext><mo>=</mo><mtext>TF</mtext><mo>×</mo><mtext>IDF</mtext></mrow><annotation encoding="application/x-tex">\text{TF-IDF} = \text{TF} \times \text{IDF}</annotation></semantics></math>$

ব্যবহার:

TfidfVectorizer মূলত বড় ডেটাসেটের মধ্যে গুরুত্বপূর্ণ শব্দগুলি চিহ্নিত করা এবং তাদের স্কোর হিসাব করার জন্য ব্যবহৃত হয়।
এটি ডকুমেন্ট-ওয়ার্ড ম্যাট্রিক্স তৈরি করে, যা মডেল ট্রেনিংয়ের জন্য উপযোগী।

উদাহরণ:

from sklearn.feature_extraction.text import TfidfVectorizer

# টেক্সট ডেটা
corpus = [
    'I love programming',
    'Programming is fun',
    'I love fun'
]

# TfidfVectorizer ব্যবহার করা
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

# আউটপুট দেখানো
print("Feature Names:", vectorizer.get_feature_names_out())
print("TF-IDF Matrix:\n", X.toarray())

আউটপুট:

Feature Names: ['fun' 'is' 'love' 'programming']
TF-IDF Matrix:
 [[0.         0.         0.70710678 0.70710678]
 [0.57735027 0.57735027 0.         0.57735027]
 [0.57735027 0.         0.70710678 0.        ]]

এখানে, প্রতিটি শব্দের জন্য TF-IDF স্কোর তৈরি হয়েছে। দেখা যাচ্ছে যে "love" এবং "programming" শব্দগুলি তুলনামূলকভাবে বেশি গুরুত্বপূর্ণ, কারণ তাদের স্কোর তুলনামূলকভাবে বেশি।

CountVectorizer vs TfidfVectorizer

বৈশিষ্ট্য	CountVectorizer	TfidfVectorizer
ফিচারের মাপ	শব্দের উপস্থিতির সংখ্যা (frequency)	শব্দের উপস্থিতি ও তার গুরুত্ব (importance)
ডেটা স্কেলিং	নয়, শুধুমাত্র শব্দের সংখ্যা	TF-IDF স্কোর দিয়ে স্কেলিং
বিরল শব্দের গুরুত্ব	সকল শব্দের গুরুত্ব সমান	বিরল শব্দের স্কোর বেশি (বিশেষ শব্দের গুরুত্ব বেশি)
ব্যবহার	সাধারণ ডেটা প্রক্রিয়াকরণ	গুরুত্বপূর্ণ শব্দ খুঁজে বের করা

সারাংশ

CountVectorizer টেক্সট ডেটাকে ফিচারে রূপান্তর করে যেখানে শুধুমাত্র শব্দের উপস্থিতি গুনে আনা হয়। এটি সোজা এবং সহজ পদ্ধতি, তবে টেক্সট ডেটাতে বিরল শব্দের গুরুত্ব ধরে রাখতে পারে না।
TfidfVectorizer শব্দের অহমিয়তা নির্ধারণ করে এবং বিশেষ শব্দের স্কোর বেশি দেয়। এটি সাধারণত বেশি ব্যবহৃত হয়, কারণ এটি শব্দের গুরুত্ব ও বিশেষত্ব মাপতে সাহায্য করে, এবং এটি ওজনযুক্ত শব্দ প্রদান করে।

এই দুটি টুল সাধারণত টেক্সট ক্লাসিফিকেশন, স্প্যাম ডিটেকশন, টেক্সট মাইনিং ইত্যাদি কাজে ব্যবহৃত হয়।

Content added By

Md Azizur Rahman

Scikit-Learn পরিচিতি Scikit-Learn ইনস্টলেশন এবং সেটআপ Scikit-Learn এর মৌলিক ধারণা Data Preprocessing Train-Test Split এবং Cross-Validation

Text Classification এবং Natural Language Processing (NLP)

Natural Language Processing (NLP) এর বেসিক ধারণা

NLP এর মূল কাজগুলি:

Text Classification এর বেসিক ধারণা

Text Classification এর উদাহরণ:

Text Classification এর প্রধান ধাপ

Text Classification এর জন্য ব্যবহৃত মডেল ও অ্যালগরিদম

Text Classification এর জন্য Feature Extraction Techniques

সারাংশ

Text Preprocessing Techniques (Tokenization, Stopwords Removal)

1. Tokenization (টোকেনাইজেশন)

Tokenization এর প্রয়োজনীয়তা:

2. Stopwords Removal (স্টপওয়ার্ড সরানো)

Stopwords Removal এর উদ্দেশ্য:

Stopwords Removal পদ্ধতি:

Tokenization এবং Stopwords Removal এর মধ্যে সম্পর্ক

Python-এ Tokenization এবং Stopwords Removal উদাহরণ

Tokenization উদাহরণ:

Stopwords Removal উদাহরণ:

সারাংশ

TF-IDF এবং Bag of Words মডেল

1. Bag of Words (BoW) মডেল

BoW মডেলের বৈশিষ্ট্য:

ফর্মুলা:

ব্যবহার:

সীমাবদ্ধতা:

2. TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF এর দুটি মূল অংশ:

ব্যবহার:

উদাহরণ:

BoW এবং TF-IDF এর মধ্যে পার্থক্য

সারাংশ

Sentiment Analysis এবং Text Classification

1. Sentiment Analysis (সেনটিমেন্ট অ্যানালাইসিস)

Sentiment Analysis এর প্রক্রিয়া:

উদাহরণ:

ব্যবহার:

Sentiment Analysis এর উদাহরণ (Python):

2. Text Classification (টেক্সট ক্লাসিফিকেশন)

Text Classification এর প্রক্রিয়া:

উদাহরণ:

ব্যবহার:

Text Classification এর উদাহরণ (Python):

Sentiment Analysis vs Text Classification

সারাংশ

Scikit-Learn এর CountVectorizer এবং TfidfVectorizer

1. CountVectorizer

ফিচার:

ব্যবহার:

উদাহরণ:

2. TfidfVectorizer

ব্যবহার:

উদাহরণ:

CountVectorizer vs TfidfVectorizer

সারাংশ

All Notifications

Promotion