উদাহরণ সহ PDF থেকে ডেটা রিড করা

PDF থেকে ডেটা পড়া - পিডিএফবক্স (PDFbox) - Java Technologies

320

পিডিএফবক্স (PDFBox) ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা (যেমন টেক্সট) রিড করা একটি সাধারণ প্রক্রিয়া। এই টিউটোরিয়ালে আমরা দেখব কিভাবে পিডিএফ থেকে ডেটা রিড করতে হয়।

পিডিএফবক্স সেটআপ

প্রথমে আপনার Java প্রোজেক্টে PDFBox লাইব্রেরি অন্তর্ভুক্ত থাকতে হবে। আপনি Maven অথবা Gradle ব্যবহার করে এটি যুক্ত করতে পারেন।

Maven (pom.xml):

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.28</version>
</dependency>

Gradle (build.gradle):

implementation 'org.apache.pdfbox:pdfbox:2.0.28'

PDF থেকে ডেটা রিড করার উদাহরণ

এখন, নিচে একটি উদাহরণ দেওয়া হলো যেখানে একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হচ্ছে।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class ReadPDFExample {

    public static void main(String[] args) {
        // পিডিএফ ফাইল লোড করা
        File file = new File("example.pdf");

        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(file);

            // PDFTextStripper অবজেক্ট তৈরি করা
            PDFTextStripper stripper = new PDFTextStripper();

            // পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করা
            String text = stripper.getText(document);

            // এক্সট্র্যাক্টেড টেক্সট প্রিন্ট করা
            System.out.println("Extracted Text: \n" + text);

            // ডকুমেন্ট বন্ধ করা
            document.close();

        } catch (IOException e) {
            System.err.println("Error reading PDF: " + e.getMessage());
        }
    }
}

কোডের ব্যাখ্যা

  • PDDocument: এটি পিডিএফ ডকুমেন্টের একটি অবজেক্ট, যা পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
  • PDFTextStripper: এটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। getText() মেথডের মাধ্যমে পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হয়।
  • PDDocument.load(file): পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
  • document.close(): পিডিএফ ডকুমেন্ট ব্যবহার শেষে বন্ধ করে দেয়া হয়।

পিডিএফ টেক্সট এক্সট্র্যাকশনের কাস্টমাইজেশন

আপনি PDFTextStripper ব্যবহার করে কাস্টমাইজড টেক্সট এক্সট্র্যাকশনও করতে পারেন, যেমন পিডিএফের নির্দিষ্ট পেজ থেকে টেক্সট রিড করা। উদাহরণস্বরূপ, নির্দিষ্ট পেজের টেক্সট এক্সট্র্যাক্ট করতে নিচের কোড ব্যবহার করা যায়:

PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);  // প্রথম পেজ
stripper.setEndPage(1);    // প্রথম পেজের মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট হবে
String text = stripper.getText(document);

এভাবে পিডিএফবক্স ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট রিড করা সম্ভব। এটি বিশেষভাবে তখন কার্যকর যখন আপনি পিডিএফ ফাইলের কনটেন্ট যেমন ডকুমেন্টের বডি থেকে টেক্সট বের করতে চান।

Content added By
Promotion

Are you sure to start over?

Loading...