উদাহরণ সহ Tika এবং Machine Learning Integration

Apache Tika এবং Machine Learning Integration - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

291

অ্যাপাচি টিকা (Apache Tika) এর মাধ্যমে ডেটা এক্সট্রাকশন করে সেই ডেটা মেশিন লার্নিং (Machine Learning) মডেলের জন্য প্রিপ্রসেসিং এবং বিশ্লেষণে ব্যবহার করা যায়। এটি মূলত টেক্সট ক্লাসিফিকেশন (Text Classification), স্প্যাম ডিটেকশন (Spam Detection), বা অন্যান্য ডেটা বিশ্লেষণ প্রজেক্টে প্রয়োগ করা যায়।


Tika এবং Machine Learning এর ভূমিকা

১. ডেটা এক্সট্রাকশন

Apache Tika বিভিন্ন ফরম্যাট (PDF, DOCX, HTML, ইমেজ) থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে পারে।

২. প্রিপ্রসেসিং

মেশিন লার্নিং মডেল ট্রেনিংয়ের আগে প্রয়োজনীয় ডেটা পরিষ্কার এবং প্রিপ্রসেসিংয়ের জন্য টিকার ডেটা ব্যবহার করা হয়।

৩. মেশিন লার্নিং বিশ্লেষণ

এক্সট্রাক্ট করা টেক্সট ডেটা NLP (Natural Language Processing) ভিত্তিক মেশিন লার্নিং মডেল (যেমনঃ ক্লাসিফায়ার, সেন্টিমেন্ট অ্যানালাইসিস) ট্রেন করতে ব্যবহার করা যায়।


উদাহরণ: টেক্সট ক্লাসিফিকেশন প্রজেক্ট

আমরা এখানে Apache Tika এবং Python এর scikit-learn লাইব্রেরি ব্যবহার করে টেক্সট ক্লাসিফিকেশন উদাহরণ দেখাব।


ধাপসমূহ

ধাপ ১: প্রয়োজনীয় লাইব্রেরি ইন্সটলেশন

pip install tika scikit-learn pandas nltk

ধাপ ২: Apache Tika দিয়ে টেক্সট এক্সট্রাকশন

Apache Tika API ব্যবহার করে একটি ফাইল থেকে টেক্সট বের করা হবে।

from tika import parser

# ফাইল থেকে টেক্সট এক্সট্রাক্ট করা
def extract_text(file_path):
    raw = parser.from_file(file_path)
    return raw['content']

# উদাহরণ ইনপুট
file_path = 'example.pdf'  
extracted_text = extract_text(file_path)
print(extracted_text)

ধাপ ৩: ডেটাসেট প্রস্তুত করা

এক্সট্রাক্ট করা টেক্সটকে মেশিন লার্নিং মডেল ট্রেনিংয়ের জন্য একটি লেবেলড ডেটাসেটে রূপান্তর করতে হবে।

import pandas as pd

# উদাহরণ ডেটাসেট
data = {
    'text': [
        'This is a finance-related document.',
        'This is a healthcare report.',
        'A new policy is introduced in finance sector.',
        'Medical terms and conditions apply here.'
    ],
    'label': ['finance', 'healthcare', 'finance', 'healthcare']
}

df = pd.DataFrame(data)
print(df)

ধাপ ৪: মডেল ট্রেনিং

scikit-learn ব্যবহার করে টেক্সট ক্লাসিফিকেশন মডেল তৈরি করা হবে।

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# টেক্সট ভেক্টরাইজেশন
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['text'])
y = df['label']

# ডেটা স্প্লিট করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# মডেল ট্রেনিং
model = MultinomialNB()
model.fit(X_train, y_train)

# প্রেডিকশন এবং একুরেসি চেক
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

ধাপ ৫: নতুন ডেটা ক্লাসিফিকেশন

এক্সট্রাক্ট করা টেক্সটকে মডেল দিয়ে ক্লাসিফাই করা হবে।

# নতুন ডেটা থেকে টেক্সট এক্সট্রাক্ট
new_text = extract_text('new_document.pdf')
new_text_vectorized = vectorizer.transform([new_text])

# প্রেডিকশন
prediction = model.predict(new_text_vectorized)
print("Predicted Class:", prediction[0])

সারাংশ

Apache Tika এবং Machine Learning এর সমন্বয়ে ফাইল থেকে ডেটা এক্সট্রাক্ট করা এবং সেই ডেটাকে ক্লাসিফিকেশন বা অন্যান্য বিশ্লেষণের জন্য ব্যবহার করা সম্ভব। এটি বিশেষ করে টেক্সট অ্যানালাইসিস, ডকুমেন্ট ক্লাসিফিকেশন এবং অটোমেটেড ডেটা প্রসেসিং ক্ষেত্রে কার্যকরী।

Content added By
Promotion

Are you sure to start over?

Loading...