Practical উদাহরণ: Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

Lucene তে Stemming এবং Lemmatization - লুসিন (Lucene) - Java Technologies

283

Lucene হল একটি শক্তিশালী ওপেন সোর্স text search library যা Java ভিত্তিক বিভিন্ন অ্যাপ্লিকেশনে ইন্ডেক্সিং এবং সাচিং কার্যক্রম সম্পাদন করতে ব্যবহৃত হয়। Stemming এবং Lemmatization হল দুটি গুরুত্বপূর্ণ টেকনিক যা টেক্সট প্রক্রিয়ার মাধ্যমে শব্দের মূলরূপ বের করে সার্চ একিউরেসি (search accuracy) বৃদ্ধি করতে সাহায্য করে।

এই টিউটোরিয়ালে, আমরা Lucene ব্যবহার করে কীভাবে Stemming এবং Lemmatization এর মাধ্যমে সার্চ একিউরেসি উন্নত করা যায়, তা দেখব।

১. Stemming এবং Lemmatization: ধারণা

Stemming:
- Stemming একটি শব্দের মূল রূপ নির্ধারণ করার প্রক্রিয়া, যা সাধারণত শব্দের শেষে কিছু অক্ষর বাদ দিয়ে শব্দের রুট ফর্ম তৈরি করে। উদাহরণস্বরূপ, running, runner এবং ran শব্দগুলোকে run রুট ফর্মে রিডাক্ট করা।
- Stemming অনেক সময় শব্দের প্রকৃত অর্থের প্রতি মনোযোগ দেয় না, তবে এটি কার্যকরীভাবে শব্দের মূল রূপ বের করার জন্য দ্রুত কাজ করে।
Lemmatization:
- Lemmatization আরও বোধগম্য প্রক্রিয়া, যেখানে একটি শব্দের মূল রূপ (lemma) নির্ধারণ করা হয়, তবে এটি ভাষাগতভাবে সঠিক। যেমন, running এর lemma হল run, কিন্তু এখানে ভাষার গঠন (grammar) সঠিকভাবে বিবেচনা করা হয়, যেমন টাইপ, tense ইত্যাদি।

২. Lucene তে Stemming এবং Lemmatization এর ব্যবহার

Lucene সার্চ ইঞ্জিনে Stemming এবং Lemmatization প্রক্রিয়াগুলি ব্যবহার করার মাধ্যমে টেক্সট অনুসন্ধানের সঠিকতা (accuracy) উন্নত করা যেতে পারে। এটি সাধারণত Analyzer এবং TokenFilter ব্যবহার করে করা হয়।

২.১ Lucene Stemming Example:

Lucene তে PorterStemmer ব্যবহার করে স্টেমিং করা যায়। এটি একটি জনপ্রিয় stemming অ্যালগরিদম যা শব্দের মূল রূপ বের করার জন্য ব্যবহার করা হয়।

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.en.EnglishAnalyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;

import java.io.StringReader;

public class StemmingExample {

    public static void main(String[] args) throws Exception {
        String text = "running runners ran";
        
        // Create an Analyzer instance
        Analyzer analyzer = new EnglishAnalyzer();
        
        // Tokenize and Stem the input text
        TokenStream tokenStream = analyzer.tokenStream("field", new StringReader(text));
        tokenStream.reset();
        
        // Print stemmed tokens
        while (tokenStream.incrementToken()) {
            CharTermAttribute term = tokenStream.getAttribute(CharTermAttribute.class);
            System.out.println(term.toString());
        }
        
        tokenStream.end();
        tokenStream.close();
    }
}

এখানে, EnglishAnalyzer ব্যবহার করা হয়েছে, যা Porter Stemmer এর মধ্যে অন্তর্ভুক্ত রয়েছে। এই কোডে running, runners, ran শব্দগুলোকে run এর মধ্যে স্টেম করা হবে।

২.২ Lucene Lemmatization Example:

Lucene তে সরাসরি Lemmatization উপলব্ধ না থাকলেও, Stanford CoreNLP বা অন্য লেমাটাইজেশন লাইব্রেরি ব্যবহার করা যেতে পারে। নিচে একটি উদাহরণ দেওয়া হল যেখানে Stanford CoreNLP ব্যবহার করা হচ্ছে।

import edu.stanford.nlp.ling.CoreAnnotations;
import edu.stanford.nlp.pipeline.*;
import java.util.Properties;

public class LemmatizationExample {

    public static void main(String[] args) {
        String text = "The boys are running faster than the girls";
        
        // Set up the Stanford NLP pipeline
        Properties props = new Properties();
        props.setProperty("annotators", "tokenize, ssplit, pos, lemma");
        StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
        
        // Create a document object
        CoreDocument document = new CoreDocument(text);
        
        // Annotate the document
        pipeline.annotate(document);
        
        // Print lemmatized output
        for (CoreLabel token : document.tokens()) {
            String lemma = token.get(CoreAnnotations.LemmaAnnotation.class);
            System.out.println(lemma);
        }
    }
}

এখানে, StanfordCoreNLP লাইব্রেরি ব্যবহার করা হয়েছে, যা লেমাটাইজেশন করতে সক্ষম। এই কোডটি running কে run এবং are কে be এ লেমাটাইজ করবে।

৩. Lucene তে Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

Stemming এবং Lemmatization এর মাধ্যমে Lucene এর সার্চ একিউরেসি বৃদ্ধি করা সম্ভব, কারণ এটি বিভিন্ন ফর্মের শব্দের মধ্যে সম্পর্ক খুঁজে পেতে সাহায্য করে। উদাহরণস্বরূপ:

Stemming: যখন আপনি সার্চ করতে চান running শব্দটি, তবে যদি আপনি run শব্দটি সার্চ করেন, তবে Stemming ব্যবহার করে running, runner, ran সমস্ত শব্দ run এ রিডাক্ট হয়ে যাবে।
Lemmatization: এটি ভাষাগতভাবে সঠিকভাবে শব্দগুলিকে তাদের মূল রূপে রূপান্তরিত করে, যেমন better কে good তে রূপান্তরিত করা।

৩.১ Search Example Using Stemming

ধরা যাক, আপনার একটি ডাটাবেসে run, running, runners শব্দগুলি রয়েছে এবং আপনি run শব্দটি সার্চ করতে চান। Stemming ব্যবহার করার মাধ্যমে আপনি এই সব শব্দের মধ্যে সম্পর্ক খুঁজে পাবেন।

Query query = new TermQuery(new Term("content", "run"));

এখানে, TermQuery ব্যবহার করে run শব্দটি সার্চ করা হচ্ছে। যদি আপনি run, running, runners এর মধ্যে কোনও একটি শব্দটি সার্চ করেন, তবে Stemming ব্যবহারের মাধ্যমে সমস্ত শব্দের মধ্যে সম্পর্ক পাওয়া যাবে।

৩.২ Search Example Using Lemmatization

এছাড়া, লেমাটাইজেশন ব্যবহার করে আপনি আরও বুদ্ধিমত্তার সাথে শব্দের মূল রূপ খুঁজে পাবেন, যেখানে grammatical ভিন্নতা গুরুত্বপূর্ণ। উদাহরণস্বরূপ:

Search: better
Lemmatization Output: good

এটি সার্চে সাহায্য করবে, কারণ আপনি better সার্চ করলেও good শব্দের সাথে সম্পর্কিত ডকুমেন্ট খুঁজে পাবেন।

৪. Lucene তে Stemming এবং Lemmatization ব্যবহারের সুবিধা

Improved Search Accuracy: Stemming এবং Lemmatization শব্দের সম্পর্ক বের করতে সাহায্য করে এবং একটি নির্দিষ্ট শব্দের জন্য সমস্ত ভিন্ন ভিন্ন ফর্ম খুঁজে পায়।
Faster Search: Lucene এর Search Analyzer গুলিকে আরও কার্যকরী এবং দ্রুত করে তোলে কারণ এটি বিভিন্ন ফর্মের শব্দের সাথে সম্পর্কিত ডেটা নিয়ে আসে।
Natural Language Processing (NLP) Integration: NLP ব্যবহার করে সঠিকভাবে লেমাটাইজেশন এবং স্টেমিং করলে আপনার সার্চ ফলাফল আরও প্রাসঙ্গিক হয়।

সারাংশ

Stemming এবং Lemmatization এর মাধ্যমে Lucene এর সার্চ একিউরেসি উন্নত করা সম্ভব। Stemming সাধারণত শব্দের শেষে কিছু অংশ বাদ দিয়ে তার রুট ফর্ম তৈরি করে, যা বিভিন্ন শব্দের মধ্যে সম্পর্ক বের করতে সাহায্য করে। অন্যদিকে, Lemmatization ভাষাগতভাবে সঠিকভাবে শব্দের মূল রূপ বের করতে সাহায্য করে। Lucene তে এই টেকনিকগুলো ব্যবহার করলে সার্চ প্রক্রিয়াকে আরও কার্যকরী ও প্রাসঙ্গিক করা যায়, যা ফলস্বরূপ সার্চ একিউরেসি বৃদ্ধি করতে সহায়ক।

Content added By

Md Zahid Hasan

Stemming এবং Lemmatization এর মধ্যে পার্থক্য Stemming এর জন্য PorterStemFilter ব্যবহার Lemmatization Techniques এবং এর Integration

Practical উদাহরণ: Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

১. Stemming এবং Lemmatization: ধারণা

২. Lucene তে Stemming এবং Lemmatization এর ব্যবহার

২.১ Lucene Stemming Example:

২.২ Lucene Lemmatization Example:

৩. Lucene তে Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

৩.১ Search Example Using Stemming

৩.২ Search Example Using Lemmatization

৪. Lucene তে Stemming এবং Lemmatization ব্যবহারের সুবিধা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Practical উদাহরণ: Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

১. Stemming এবং Lemmatization: ধারণা

২. Lucene তে Stemming এবং Lemmatization এর ব্যবহার

২.১ Lucene Stemming Example:

২.২ Lucene Lemmatization Example:

৩. Lucene তে Stemming এবং Lemmatization এর মাধ্যমে Search Accuracy বৃদ্ধি

৩.১ Search Example Using Stemming

৩.২ Search Example Using Lemmatization

৪. Lucene তে Stemming এবং Lemmatization ব্যবহারের সুবিধা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!