Text Classification এবং Sentiment Analysis

Natural Language Processing (NLP) এবং Deep Learning - পাইথন ডিপ লার্নিং (Python Deep Learning) - Machine Learning

382

Text Classification এবং Sentiment Analysis হল প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এর দুটি গুরুত্বপূর্ণ টাস্ক। এগুলি মেশিন লার্নিং এবং ডিপ লার্নিং-এর মাধ্যমে টেক্সট ডেটা বিশ্লেষণ করতে ব্যবহৃত হয়। নিচে এই দুটি কনসেপ্টের বিস্তারিত আলোচনা করা হলো।

1. Text Classification

Text Classification হল একটি প্রক্রিয়া যেখানে একটি টেক্সট (যেমন, ইমেল, টুইট, ব্লগ পোস্ট, নিউজ আর্টিকেল ইত্যাদি) কে একটি বা একাধিক শ্রেণীতে ভাগ করা হয়। এই টাস্কে মডেলকে প্রশিক্ষিত করা হয় যাতে এটি নির্দিষ্ট শ্রেণী বা ক্যাটেগরিতে টেক্সটটি অন্তর্ভুক্ত করতে পারে।

Text Classification এর উদ্দেশ্য:

শ্রেণীভুক্ত করা বিভিন্ন ধরনের টেক্সট।
নতুন টেক্সটের ভিত্তিতে শ্রেণী নির্ধারণ করা।

Text Classification এর কিছু উদাহরণ:

স্প্যাম ফিল্টারিং (Spam Filtering):
- ইমেইল বা টেক্সটের মধ্যে স্প্যাম চিহ্নিত করা।
টপিক ক্লাসিফিকেশন (Topic Classification):
- টেক্সটের বিষয়ভিত্তিক শ্রেণী নির্ধারণ করা, যেমন রাজনীতি, বিজ্ঞান, ক্রীড়া ইত্যাদি।
মাল্টিক্লাস ক্লাসিফিকেশন:
- একাধিক শ্রেণীতে টেক্সটের ক্যাটেগরি বিভক্ত করা (যেমন, টুইট বা সংবাদ শিরোনামকে বিভিন্ন শ্রেণীতে ভাগ করা)।
ল্যাঙ্গুয়েজ আইডেন্টিফিকেশন (Language Identification):
- টেক্সটের ভাষা শনাক্তকরণ।

Text Classification এর জন্য সাধারণ পদ্ধতি:

Bag of Words (BoW): এই পদ্ধতিতে টেক্সটকে শব্দের সেট হিসেবে দেখা হয় এবং প্রতিটি শব্দের উপস্থিতি বা অনুপস্থিতি হিসাব করা হয়।
TF-IDF (Term Frequency - Inverse Document Frequency): এটি শব্দের গুরুত্ব নির্ধারণ করে, যাতে কিছু কম প্রচলিত শব্দকে বেশি গুরুত্ব দেয়া হয়।
Word Embeddings (Word2Vec, GloVe): প্রতিটি শব্দকে একটি নির্দিষ্ট ভেক্টর রূপে রূপান্তরিত করা হয়, যা তার অর্থ এবং সম্পর্ক ধরে রাখে।
ডিপ লার্নিং (LSTM, GRU): সিকুয়েন্স ডেটা প্রক্রিয়া করতে LSTM বা GRU ব্যবহার করা হয়, যেমন, টেক্সট থেকে বৈশিষ্ট্য বের করা।

Text Classification এর জন্য কোড (Python):

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# উদাহরণ ডেটাসেট
texts = ["I love programming", "This is a spam email", "Python is great", "Free money now!"]
labels = [0, 1, 0, 1]  # 0 = Not Spam, 1 = Spam

# ডেটা বিভাজন
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.25, random_state=42)

# টেক্সট ক্লাসিফিকেশন পিপলাইন
model = make_pipeline(TfidfVectorizer(), MultinomialNB())

# মডেল প্রশিক্ষণ
model.fit(X_train, y_train)

# টেস্ট ডেটাতে পূর্বাভাস
predictions = model.predict(X_test)
print(predictions)

2. Sentiment Analysis

Sentiment Analysis হল একটি বিশেষ ধরনের টেক্সট ক্লাসিফিকেশন টাস্ক, যেখানে মডেলটি একটি টেক্সটের মধ্যে ইতিবাচক, নেতিবাচক বা নিরপেক্ষ অনুভূতি চিহ্নিত করতে চেষ্টা করে। সাধারণত, এটি customer feedback, product reviews, social media posts ইত্যাদি বিশ্লেষণ করতে ব্যবহৃত হয়।

Sentiment Analysis এর উদ্দেশ্য:

কোন টেক্সট ইতিবাচক (positive), নেতিবাচক (negative), নাকি নিরপেক্ষ (neutral)।
গ্রাহক বা ব্যবহারকারীর অনুভূতি বা মতামত বোঝা।

Sentiment Analysis এর উদাহরণ:

Product Reviews: একটি প্রোডাক্টের রিভিউ বা গ্রাহকের মতামত পড়ে জানানো হবে যে এটি ইতিবাচক, নেতিবাচক বা নিরপেক্ষ।
Social Media Monitoring: সোশ্যাল মিডিয়া পোস্ট বা মন্তব্য থেকে অনুভূতি বিশ্লেষণ করা।
Brand Reputation: ব্র্যান্ডের প্রতি জনগণের মনোভাব বিশ্লেষণ করা।

Sentiment Analysis এর জন্য সাধারণ পদ্ধতি:

Lexicon-based Approach: পূর্বনির্ধারিত শব্দকোষের মাধ্যমে টেক্সটের অনুভূতি নির্ধারণ করা (যেমন, শব্দ "happy" = positive, "sad" = negative)।
Machine Learning Approach: টেক্সটের অনুভূতি সনাক্ত করার জন্য মেশিন লার্নিং মডেল ব্যবহার করা। এখানে, Naive Bayes, Logistic Regression, SVM ইত্যাদি ব্যবহার করা যেতে পারে।
Deep Learning Approach: LSTM, GRU, অথবা Transformer-based models (যেমন BERT) ব্যবহার করা।

Sentiment Analysis এর জন্য কোড (Python):

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# উদাহরণ ডেটাসেট
texts = ["I love this product", "This is the worst purchase I made", "Very satisfied", "Totally disappointed"]
labels = [1, 0, 1, 0]  # 1 = Positive, 0 = Negative

# ডেটা বিভাজন
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.25, random_state=42)

# সেন্টিমেন্ট অ্যানালাইসিস পিপলাইন
model = make_pipeline(TfidfVectorizer(), MultinomialNB())

# মডেল প্রশিক্ষণ
model.fit(X_train, y_train)

# টেস্ট ডেটাতে পূর্বাভাস
predictions = model.predict(X_test)
print(predictions)