Java Technologies উদাহরণ সহ Text Extraction গাইড ও নোট

379

Apache Tika একটি শক্তিশালী এবং নমনীয় লাইব্রেরি যা বিভিন্ন ধরনের ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম। Tika প্রধানত বিভিন্ন ফাইল ফরম্যাট যেমন PDF, Microsoft Office, HTML, RTF, Image Files ইত্যাদি থেকে টেক্সট, মেটাডেটা এবং অন্যান্য তথ্য এক্সট্র্যাক্ট করতে ব্যবহৃত হয়।

এখানে, Tika ব্যবহার করে text extraction এর প্রক্রিয়া এবং উদাহরণ দেওয়া হলো, যেখানে বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।

Tika টেক্সট এক্সট্র্যাকশন প্রক্রিয়ায় Tika.parseToString() মেথড ব্যবহার করা হয়। এই মেথডটি একটি ফাইলের কন্টেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করে এবং তা একটি স্ট্রিং হিসেবে প্রদান করে।


Maven ডিপেনডেন্সি:

প্রথমে, Tika লাইব্রেরি ইনস্টল করতে হবে যদি আপনি Maven ব্যবহার করেন।

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.26</version>
</dependency>

Text Extraction উদাহরণ (Java)

এখানে Apache Tika ব্যবহার করে একটি PDF ফাইল এবং Word ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার উদাহরণ দেওয়া হলো।

Step 1: PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // PDF ফাইল নির্দিষ্ট করা
            File pdfFile = new File("example.pdf");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(pdfFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from PDF: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (PDF থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from PDF:
This is an example PDF document. It contains sample text to demonstrate text extraction capabilities.

এখানে Tika একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।

Step 2: Word ফাইল (DOCX) থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class WordTextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // Word ফাইল নির্দিষ্ট করা
            File wordFile = new File("example.docx");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(wordFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from Word: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (Word থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from Word:
This is an example Word document. It contains text for demonstrating text extraction with Apache Tika.

এখানে Tika একটি Word (DOCX) ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।

Step 3: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class HtmlTextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // HTML ফাইল নির্দিষ্ট করা
            File htmlFile = new File("example.html");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(htmlFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from HTML: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (HTML থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from HTML:
Welcome to Apache Tika! This is an example HTML document that demonstrates how Tika extracts text.

এখানে Tika একটি HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।


Apache Tika এর অন্যান্য Text Extraction Features

  1. Metadata Extraction:

    • Tika শুধুমাত্র কন্টেন্ট এক্সট্র্যাক্ট করে না, বরং ফাইলের মেটাডেটা (যেমন author, title, modification date, etc.) এক্সট্র্যাক্ট করতে সহায়তা করে।
    Metadata metadata = new Metadata();
    tika.parse(new FileInputStream("example.pdf"), metadata);
    String author = metadata.get("Author");
    System.out.println("Author: " + author);
    
  2. OCR (Optical Character Recognition):
    • Tika OCR সমর্থন করে, যেটি স্ক্যান করা ইমেজ বা ছবির মধ্যে থাকা টেক্সটকে এক্সট্র্যাক্ট করতে সক্ষম। Tika এই কাজের জন্য Tesseract OCR লাইব্রেরি ব্যবহার করে।
  3. Multiple File Support:
    • Tika বিভিন্ন ফাইল ফরম্যাট (PDF, Word, Excel, HTML, XML, RTF, etc.) থেকে টেক্সট এক্সট্র্যাক্ট করতে পারে।

সারাংশ

Apache Tika একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে text extraction করতে সক্ষম। এটি PDF, Word, HTML, Excel, XML, এবং আরও অনেক ফরম্যাট থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। Tika সহজে এই কাজগুলি সম্পাদন করে এবং ব্যবহারকারীদের ডেটা এক্সট্র্যাকশন প্রক্রিয়াকে দ্রুত এবং কার্যকরী করে তোলে।

  • Text Extraction সহজ, বিশেষ করে যখন বিভিন্ন ফাইল ফরম্যাট থেকে একই সময়ে কন্টেন্ট এক্সট্র্যাক্ট করতে হয়।
  • Metadata Extraction এবং OCR এর মতো ফিচারগুলো Tika এর কার্যকারিতা বাড়ায় এবং এটিকে আরও কার্যকরী করে তোলে বিভিন্ন ডকুমেন্ট ম্যানেজমেন্ট বা ডেটা প্রক্রিয়াকরণের ক্ষেত্রে।
Content added By
Promotion

Are you sure to start over?

Loading...