টেক্সট ডেটা বিশ্লেষণ করতে হলে, প্রথমে আপনাকে টেক্সট ফিচার তৈরি করতে হবে এবং তারপর সেই ফিচারগুলি ব্যবহার করে মডেল প্রশিক্ষণ দিতে হবে। নিচে আমি একটি উদাহরণ দেব যেখানে আমরা একটি টেক্সট ক্লাসিফিকেশন মডেল তৈরি করব। উদাহরণ হিসেবে আমরা একটি সাধারণ ডেটাসেট ব্যবহার করবো, যেমন IMDb রিভিউ ডেটাসেট, যা সিনেমার রিভিউ এবং তাদের অনুভূতি (ইতিবাচক/নেতিবাচক) অন্তর্ভুক্ত করে।
# প্রয়োজনীয় লাইব্রেরি ইম্পোর্ট করা
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
# ১. ডেটা সংগ্রহ
# উদাহরণ ডেটা তৈরি (ইমেইল ও অনুভূতি)
data = {
'review': [
'This movie is fantastic!',
'I did not like this film.',
'An amazing experience.',
'Worst movie ever.',
'Would watch again!'
],
'sentiment': [1, 0, 1, 0, 1] # 1 = Positive, 0 = Negative
}
df = pd.DataFrame(data)
# ২. টেক্সট প্রিপ্রসেসিং
# এখানে অতিরিক্ত প্রিপ্রসেসিং করা যেতে পারে যেমন স্টপওয়ার্ড সরানো
# ৩. ফিচার তৈরি
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(df['review'])
y = df['sentiment']
# প্রশিক্ষণ ও টেস্ট ডেটাতে বিভক্ত করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# ৪. মডেল তৈরি
model = LogisticRegression()
model.fit(X_train, y_train)
# ৫. মডেল মূল্যায়ন
predictions = model.predict(X_test)
print(classification_report(y_test, predictions))
এই উদাহরণে আমরা একটি টেক্সট ক্লাসিফিকেশন মডেল তৈরি করেছি যেখানে আমরা:
এই প্রকল্পটি আপনাকে টেক্সট ফিচার ব্যবহারের মাধ্যমে মডেল তৈরির প্রক্রিয়া সম্পর্কে ধারণা দেবে। আপনি এই উদাহরণে আরও উন্নতি এবং বিস্তৃতি করতে পারেন, যেমন ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) কৌশল ব্যবহার করে।
আরও দেখুন...