Java Technologies উদাহরণ সহ Text Extraction গাইড ও নোট

379

Apache Tika একটি শক্তিশালী এবং নমনীয় লাইব্রেরি যা বিভিন্ন ধরনের ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম। Tika প্রধানত বিভিন্ন ফাইল ফরম্যাট যেমন PDF, Microsoft Office, HTML, RTF, Image Files ইত্যাদি থেকে টেক্সট, মেটাডেটা এবং অন্যান্য তথ্য এক্সট্র্যাক্ট করতে ব্যবহৃত হয়।

এখানে, Tika ব্যবহার করে text extraction এর প্রক্রিয়া এবং উদাহরণ দেওয়া হলো, যেখানে বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।

Tika টেক্সট এক্সট্র্যাকশন প্রক্রিয়ায় Tika.parseToString() মেথড ব্যবহার করা হয়। এই মেথডটি একটি ফাইলের কন্টেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করে এবং তা একটি স্ট্রিং হিসেবে প্রদান করে।

Maven ডিপেনডেন্সি:

প্রথমে, Tika লাইব্রেরি ইনস্টল করতে হবে যদি আপনি Maven ব্যবহার করেন।

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.26</version>
</dependency>

Text Extraction উদাহরণ (Java)

এখানে Apache Tika ব্যবহার করে একটি PDF ফাইল এবং Word ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার উদাহরণ দেওয়া হলো।

Step 1: PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // PDF ফাইল নির্দিষ্ট করা
            File pdfFile = new File("example.pdf");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(pdfFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from PDF: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (PDF থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from PDF:
This is an example PDF document. It contains sample text to demonstrate text extraction capabilities.

এখানে Tika একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।

Step 2: Word ফাইল (DOCX) থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class WordTextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // Word ফাইল নির্দিষ্ট করা
            File wordFile = new File("example.docx");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(wordFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from Word: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (Word থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from Word:
This is an example Word document. It contains text for demonstrating text extraction with Apache Tika.

এখানে Tika একটি Word (DOCX) ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।

Step 3: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class HtmlTextExtractionExample {
    public static void main(String[] args) {
        // Tika ইন্সট্যান্স তৈরি করা
        Tika tika = new Tika();

        try {
            // HTML ফাইল নির্দিষ্ট করা
            File htmlFile = new File("example.html");

            // ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String extractedText = tika.parseToString(htmlFile);

            // এক্সট্র্যাক্ট করা টেক্সট আউটপুট করা
            System.out.println("Extracted Text from HTML: \n" + extractedText);
        } catch (IOException e) {
            System.out.println("Error extracting text: " + e.getMessage());
        }
    }
}

আউটপুট (HTML থেকে টেক্সট এক্সট্র্যাক্ট করা):

Extracted Text from HTML:
Welcome to Apache Tika! This is an example HTML document that demonstrates how Tika extracts text.

এখানে Tika একটি HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করেছে।

Apache Tika এর অন্যান্য Text Extraction Features

Metadata Extraction:
- Tika শুধুমাত্র কন্টেন্ট এক্সট্র্যাক্ট করে না, বরং ফাইলের মেটাডেটা (যেমন author, title, modification date, etc.) এক্সট্র্যাক্ট করতে সহায়তা করে।
```
Metadata metadata = new Metadata();
tika.parse(new FileInputStream("example.pdf"), metadata);
String author = metadata.get("Author");
System.out.println("Author: " + author);
```
OCR (Optical Character Recognition):
- Tika OCR সমর্থন করে, যেটি স্ক্যান করা ইমেজ বা ছবির মধ্যে থাকা টেক্সটকে এক্সট্র্যাক্ট করতে সক্ষম। Tika এই কাজের জন্য Tesseract OCR লাইব্রেরি ব্যবহার করে।
Multiple File Support:
- Tika বিভিন্ন ফাইল ফরম্যাট (PDF, Word, Excel, HTML, XML, RTF, etc.) থেকে টেক্সট এক্সট্র্যাক্ট করতে পারে।

সারাংশ

Apache Tika একটি অত্যন্ত শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে text extraction করতে সক্ষম। এটি PDF, Word, HTML, Excel, XML, এবং আরও অনেক ফরম্যাট থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। Tika সহজে এই কাজগুলি সম্পাদন করে এবং ব্যবহারকারীদের ডেটা এক্সট্র্যাকশন প্রক্রিয়াকে দ্রুত এবং কার্যকরী করে তোলে।

Text Extraction সহজ, বিশেষ করে যখন বিভিন্ন ফাইল ফরম্যাট থেকে একই সময়ে কন্টেন্ট এক্সট্র্যাক্ট করতে হয়।
Metadata Extraction এবং OCR এর মতো ফিচারগুলো Tika এর কার্যকারিতা বাড়ায় এবং এটিকে আরও কার্যকরী করে তোলে বিভিন্ন ডকুমেন্ট ম্যানেজমেন্ট বা ডেটা প্রক্রিয়াকরণের ক্ষেত্রে।

Content added By

Md Zahid Hasan

Apache Tika দিয়ে বিভিন্ন ধরনের ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা PDF, Word, Excel, PowerPoint, এবং অন্যান্য ডকুমেন্ট থেকে টেক্সট রিড করা Encoding এবং Character Set Management

Java Technologies উদাহরণ সহ Text Extraction গাইড ও নোট

Maven ডিপেনডেন্সি:

Text Extraction উদাহরণ (Java)

Step 1: PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (PDF থেকে টেক্সট এক্সট্র্যাক্ট করা):

Step 2: Word ফাইল (DOCX) থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (Word থেকে টেক্সট এক্সট্র্যাক্ট করা):

Step 3: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (HTML থেকে টেক্সট এক্সট্র্যাক্ট করা):

Apache Tika এর অন্যান্য Text Extraction Features

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Java Technologies উদাহরণ সহ Text Extraction গাইড ও নোট

Maven ডিপেনডেন্সি:

Text Extraction উদাহরণ (Java)

Step 1: PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (PDF থেকে টেক্সট এক্সট্র্যাক্ট করা):

Step 2: Word ফাইল (DOCX) থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (Word থেকে টেক্সট এক্সট্র্যাক্ট করা):

Step 3: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

আউটপুট (HTML থেকে টেক্সট এক্সট্র্যাক্ট করা):

Apache Tika এর অন্যান্য Text Extraction Features

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!