Suggestion এবং Auto-Complete System তৈরি করা

Lucene তে Spell Checking এবং Suggestions - লুসিন (Lucene) - Java Technologies

265

Apache Lucene হল একটি জনপ্রিয় ওপেন সোর্স লাইব্রেরি যা টেক্সট অনুসন্ধান এবং ইন্ডেক্সিং কাজের জন্য ব্যবহৃত হয়। এটি ব্যবহৃত হয় মূলত ডেটাবেস, লগ ফাইল, ওয়েব পেজ, অথবা অন্যান্য ডকুমেন্ট সংগ্রহের মধ্যে দ্রুত এবং কার্যকরী অনুসন্ধান সুবিধা প্রদান করার জন্য। Lucene দ্বারা তৈরি করা Suggestion এবং Auto-Complete System টেক্সট ইনপুট প্রক্রিয়া আরও দ্রুত এবং সুনির্দিষ্ট করে তোলে।

এই টিউটোরিয়ালে, আমরা দেখব Lucene ব্যবহার করে কীভাবে একটি Suggestion এবং Auto-Complete সিস্টেম তৈরি করা যায়, যা ব্যবহারকারীর টাইপ করা শব্দ বা প্যাটার্নের সাথে সম্পর্কিত প্রস্তাবনা প্রদান করবে।


১. Lucene এর মাধ্যমে Auto-Complete System এর ধারণা

Auto-Complete বা Suggestion সিস্টেম তৈরি করতে, Lucene আপনাকে ইন্ডেক্সিং এবং অনুসন্ধান (search) করতে সহায়তা করে, যাতে ব্যবহারকারীর টাইপ করা অক্ষরের সাথে সম্পর্কিত প্রস্তাবনা (suggestions) দ্রুত প্রদর্শিত হয়। এটি সাধারণত Prefix Query অথবা Fuzzy Query ব্যবহার করে তৈরি করা হয়।

প্রক্রিয়া:

  1. Indexing: প্রথমে শব্দগুলি (যেমন, প্রোডাক্ট নাম, স্থান, ইউজার নাম) ইন্ডেক্স করতে হবে।
  2. Searching: ব্যবহারকারী যে অংশ টাইপ করবেন তা অনুসারে প্রস্তাবনা প্রদর্শন করতে হবে।
  3. Auto-Completion: যতটুকু টাইপ করা হবে, ততটুকু সাথে সাযুজ্যপূর্ণ প্রস্তাবনা দেখানো হবে।

২. Lucene এর মাধ্যমে Indexing

Lucene এ indexing হল এমন একটি প্রক্রিয়া যেখানে ডেটাকে ইন্ডেক্স ফর্ম্যাটে রূপান্তরিত করা হয়, যাতে পরে দ্রুত অনুসন্ধান করা যায়। এটি ইনপুট শব্দগুলি বা টেক্সট থেকে প্রতিটি শব্দ বা টোকেনের জন্য একটি ইনডেক্স তৈরি করে।

উদাহরণ: Indexing with Lucene

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

import java.io.IOException;
import java.nio.file.Paths;

public class IndexingExample {
    public static void main(String[] args) throws IOException {
        // Directory where the index will be stored
        Directory directory = FSDirectory.open(Paths.get("path_to_index"));

        // Analyzer to use for tokenization and indexing
        StandardAnalyzer analyzer = new StandardAnalyzer();

        // IndexWriter to add documents to the index
        IndexWriter writer = new IndexWriter(directory, new IndexWriterConfig(analyzer));

        // Create a document to index
        Document doc = new Document();
        doc.add(new Field("content", "apple banana orange", Field.Store.YES, Field.Index.ANALYZED));

        // Add the document to the index
        writer.addDocument(doc);

        // Commit and close the index writer
        writer.commit();
        writer.close();
    }
}

এখানে, StandardAnalyzer ব্যবহার করা হয়েছে যা ইনপুট ডেটাকে টোকেনে ভেঙে ইন্ডেক্স তৈরি করবে। IndexWriter দিয়ে আমরা ডেটাকে ইনডেক্স করি এবং এটি একটি "content" ফিল্ডে রাখা হচ্ছে। আপনি এতে অন্যান্য ফিল্ড যেমন title, description ইত্যাদি রাখতে পারেন।


৩. Lucene Query Types for Auto-Complete

Lucene এ Query Types এর মাধ্যমে আপনি অনুসন্ধান করতে পারেন। Auto-Complete সিস্টেম তৈরি করতে PrefixQuery বা WildcardQuery ব্যবহার করা হয় যাতে ব্যবহারকারী টাইপ করার সাথে সাথে সাযুজ্যপূর্ণ ফলাফল আসে।

উদাহরণ: PrefixQuery

import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

import java.io.IOException;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;

public class SearchExample {
    public static void main(String[] args) throws IOException {
        // Directory where the index is stored
        FSDirectory directory = FSDirectory.open(Paths.get("path_to_index"));
        DirectoryReader reader = DirectoryReader.open(directory);

        IndexSearcher searcher = new IndexSearcher(reader);

        // Prefix query to find words starting with "ban"
        PrefixQuery query = new PrefixQuery(new Term("content", "ban"));

        // Search the index
        TopDocs results = searcher.search(query, 10);
        for (ScoreDoc scoreDoc : results.scoreDocs) {
            Document doc = searcher.doc(scoreDoc.doc);
            System.out.println("Found: " + doc.get("content"));
        }
    }
}

এখানে, PrefixQuery ব্যবহার করা হয়েছে, যা content ফিল্ডের মধ্যে যে শব্দগুলি "ban" দিয়ে শুরু হয় তা খুঁজে বের করবে। ফলস্বরূপ, "banana" এবং "ban" প্রস্তাবনা হিসেবে পাওয়া যাবে।

উদাহরণ: WildcardQuery

import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.index.Term;

public class WildcardSearchExample {
    public static void main(String[] args) throws IOException {
        // Wildcard query to find any word starting with "b" and ending with "na"
        WildcardQuery query = new WildcardQuery(new Term("content", "b*na"));

        // Execute the search (similar to the PrefixQuery example above)
    }
}

এখানে, WildcardQuery ব্যবহৃত হয়েছে যাতে "b" দিয়ে শুরু এবং "na" দিয়ে শেষ হওয়া সব শব্দ খুঁজে পাওয়া যায়, যেমন "banana"


৪. Auto-Complete Implementation

Auto-Complete সিস্টেম তৈরির জন্য, Lucene এর PrefixQuery বা FuzzyQuery ব্যবহার করা হয়। ব্যবহারকারী যখন কিছু টাইপ করেন, তখন এর সঙ্গে সম্পর্কিত সব শব্দ প্রস্তাবিত হয়।

উদাহরণ: Auto-Complete System with Lucene

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.store.FSDirectory;

import java.io.IOException;
import java.nio.file.Paths;

public class AutoCompleteSystem {
    public static void main(String[] args) throws IOException {
        // Indexing example
        FSDirectory directory = FSDirectory.open(Paths.get("path_to_index"));
        StandardAnalyzer analyzer = new StandardAnalyzer();
        IndexWriter writer = new IndexWriter(directory, new IndexWriterConfig(analyzer));

        Document doc1 = new Document();
        doc1.add(new TextField("content", "apple", Field.Store.YES));
        writer.addDocument(doc1);

        Document doc2 = new Document();
        doc2.add(new TextField("content", "banana", Field.Store.YES));
        writer.addDocument(doc2);

        writer.commit();
        writer.close();

        // Searching for auto-complete suggestions
        DirectoryReader reader = DirectoryReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        Query query = new PrefixQuery(new Term("content", "ban"));
        
        TopDocs results = searcher.search(query, 10);
        for (ScoreDoc scoreDoc : results.scoreDocs) {
            Document doc = searcher.doc(scoreDoc.doc);
            System.out.println("Auto-complete suggestion: " + doc.get("content"));
        }
    }
}

এখানে, PrefixQuery ব্যবহার করে content ফিল্ডে "ban" দিয়ে শুরু হওয়া সমস্ত শব্দ (যেমন, banana) খোঁজা হয়েছে।


৫. Lucene এবং Auto-Complete এর উপকারিতা

  1. Speed: Lucene দ্রুত ইন্ডেক্সিং এবং অনুসন্ধান পরিচালনা করতে পারে, যা Auto-Complete সিস্টেমকে আরও দ্রুত এবং কার্যকরী করে তোলে।
  2. Scalability: Lucene বড় ডেটাসেটেও কার্যকরীভাবে কাজ করে, তাই বড় ডেটাবেসে Auto-Complete কার্যক্রম পরিচালনা করা সম্ভব।
  3. Flexibility: Lucene অনেক ধরনের কুয়েরি সাপোর্ট করে, যার মাধ্যমে আপনি কাস্টম অনুসন্ধান কুয়েরি তৈরি করতে পারেন।

সারাংশ

Lucene দিয়ে Auto-Complete বা Suggestion সিস্টেম তৈরি করা খুবই সহজ এবং কার্যকরী। PrefixQuery এবং WildcardQuery ব্যবহার করে আপনি ব্যবহারকারীর টাইপ করা অংশের সাথে সম্পর্কিত প্রস্তাবনা প্রদান করতে পারেন। Lucene এর speed এবং scalability সিস্টেমটির কার্যকারিতা নিশ্চিত করে, যা ব্যবহারকারীদের দ্রুত এবং সঠিকভাবে ফলাফল প্রদান করে।


Content added By
Promotion

Are you sure to start over?

Loading...