PDF ফাইল থেকে Text Extraction করা

PDF থেকে ডেটা পড়া - পিডিএফবক্স (PDFbox) - Java Technologies

315

পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাকশন করা অত্যন্ত সহজ এবং কার্যকর। এই লাইব্রেরি আপনাকে পিডিএফ ডকুমেন্টের টেক্সট বের করার জন্য সরঞ্জাম প্রদান করে। পিডিএফবক্সে PDFTextStripper ক্লাস ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করা হয়। এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত বা নির্দিষ্ট পৃষ্ঠার টেক্সট উদ্ধার করতে সক্ষম।

টেক্সট এক্সট্র্যাকশন প্রক্রিয়া

পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য নিম্নলিখিত ধাপগুলি অনুসরণ করতে হবে:

  1. PDDocument তৈরি করুন: পিডিএফ ডকুমেন্টটি লোড করতে হবে।
  2. PDFTextStripper তৈরি করুন: এটি টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
  3. টেক্সট এক্সট্র্যাক্ট করুন: getText() মেথড ব্যবহার করে পিডিএফের টেক্সট এক্সট্র্যাক্ট করুন।
  4. ফলাফল প্রদর্শন করুন: এক্সট্র্যাক্ট করা টেক্সট প্রিন্ট বা সেভ করুন।

উদাহরণ: PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

নিম্নলিখিত কোডটি একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করবে:

import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class PDFTextExtractionExample {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করুন
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // PDFTextStripper তৈরি করুন
            PDFTextStripper stripper = new PDFTextStripper();

            // পুরো ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করুন
            String text = stripper.getText(document);

            // এক্সট্র্যাক্ট করা টেক্সট প্রদর্শন করুন
            System.out.println(text);

            // ডকুমেন্ট বন্ধ করুন
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোডের ব্যাখ্যা

  1. PDDocument document = PDDocument.load(new File("example.pdf"));
    এটি example.pdf নামক পিডিএফ ফাইলটি লোড করে।
  2. PDFTextStripper stripper = new PDFTextStripper();
    এটি PDFTextStripper ক্লাসের একটি অবজেক্ট তৈরি করে, যা পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
  3. String text = stripper.getText(document);
    এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে এবং text নামক স্ট্রিং ভেরিয়েবলে সংরক্ষণ করে।
  4. System.out.println(text);
    এটি এক্সট্র্যাক্ট করা টেক্সট কনসোল বা টার্মিনালে প্রদর্শন করে।
  5. document.close();
    ডকুমেন্টটি বন্ধ করে যাতে কোনো লক বা রিসোর্স লিক না হয়।

পিডিএফের নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাকশন

যদি আপনি পিডিএফের শুধুমাত্র নির্দিষ্ট পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করতে চান, তবে PDFTextStripper ক্লাসে setStartPage() এবং setEndPage() মেথড ব্যবহার করতে পারেন:

// নির্দিষ্ট পৃষ্ঠা (যেমন পৃষ্ঠা 1) থেকে টেক্সট এক্সট্র্যাক্ট করুন
stripper.setStartPage(1);
stripper.setEndPage(1);

এটি পিডিএফের প্রথম পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করবে।

উপসংহার

পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা একটি সহজ প্রক্রিয়া। আপনি সহজেই PDFTextStripper ক্লাস ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট বের করতে পারেন, যা আপনার ডকুমেন্ট ম্যানিপুলেশন এবং বিশ্লেষণের জন্য সহায়ক। এছাড়া, পিডিএফ ফাইলের নির্দিষ্ট পৃষ্ঠা থেকেও টেক্সট এক্সট্র্যাক্ট করা সম্ভব, যা বিশেষত দীর্ঘ পিডিএফ ডকুমেন্টে কার্যকর।

Content added By
Promotion

Are you sure to start over?

Loading...