PDF থেকে ডেটা পড়া

পিডিএফবক্স (PDFbox) - Java Technologies

438

পিডিএফবক্স (PDFBox) একটি শক্তিশালী লাইব্রেরি যা Java ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা পড়তে সহায়তা করে। এটি পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য PDFTextStripper ক্লাস ব্যবহার করে, যা পিডিএফের টেক্সট কনটেন্ট বের করতে খুবই কার্যকর। এছাড়া, এটি পিডিএফের মেটাডেটা, ইমেজ এবং অন্যান্য কনটেন্টও এক্সট্র্যাক্ট করতে সক্ষম।

পিডিএফ থেকে টেক্সট পড়ার প্রক্রিয়া

পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করতে নিচের কোডটি ব্যবহার করা যেতে পারে:

উদাহরণ: পিডিএফ থেকে টেক্সট পড়া

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFDataExtractionExample {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // PDFTextStripper ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করা
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            // টেক্সট প্রিন্ট করা
            System.out.println("Extracted Text: \n" + text);

            // ডকুমেন্ট বন্ধ করা
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোডের ব্যাখ্যা

PDDocument.load(File file): এই মেথড ব্যবহার করে পিডিএফ ফাইলটি লোড করা হয়। এখানে example.pdf পিডিএফ ফাইলটি লোড করা হচ্ছে।
PDFTextStripper: এটি পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। getText() মেথডের মাধ্যমে পুরো পিডিএফ ডকুমেন্টের টেক্সট এক্সট্র্যাক্ট করা যায়।
document.close(): পিডিএফ ডকুমেন্ট বন্ধ করা হয়, যাতে মেমরি সঠিকভাবে মুক্ত হয়।

পিডিএফ থেকে আরও ডেটা এক্সট্র্যাক্ট করা

পিডিএফবক্সের মাধ্যমে শুধু টেক্সট নয়, পিডিএফের আরও নানা তথ্য যেমন মেটাডেটা, ফন্ট, ইমেজ, টেবিল ইত্যাদি এক্সট্র্যাক্ট করা সম্ভব। উদাহরণস্বরূপ, পিডিএফের মেটাডেটা পড়তে PDDocument.getDocumentInformation() ব্যবহার করা যায়।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;

import java.io.File;
import java.io.IOException;

public class PDFMetadataExample {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // মেটাডেটা এক্সট্র্যাক্ট করা
            PDDocumentInformation info = document.getDocumentInformation();
            System.out.println("Title: " + info.getTitle());
            System.out.println("Author: " + info.getAuthor());
            System.out.println("Subject: " + info.getSubject());
            System.out.println("Keywords: " + info.getKeywords());

            // ডকুমেন্ট বন্ধ করা
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করা

পিডিএফবক্স ব্যবহার করে পিডিএফ ডকুমেন্টে থাকা ইমেজগুলি এক্সট্র্যাক্ট করা সম্ভব, তবে এটি কিছুটা জটিল হতে পারে এবং অতিরিক্ত কোডিংয়ের প্রয়োজন হতে পারে। সাধারণভাবে, পিডিএফের টেক্সট এক্সট্র্যাকশন কার্যক্রম আরও সহজ এবং সাধারণ।

পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে ডেটা পড়ার সুবিধা

সহজ টেক্সট এক্সট্র্যাকশন: পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে টেক্সট খুব সহজে এক্সট্র্যাক্ট করা যায়।
পিডিএফ মেটাডেটা পড়া: পিডিএফ ফাইলের মেটাডেটা (যেমন টাইটেল, অথর, সাবজেক্ট ইত্যাদি) খুব সহজেই পড়া যায়।
এডভান্সড এক্সট্র্যাকশন: পিডিএফের টেবিল, ফন্ট, ইমেজ এবং অন্যান্য কনটেন্ট এক্সট্র্যাক্ট করা সম্ভব, তবে সেটি একটু বেশি জটিল হতে পারে।

পিডিএফবক্স (PDFBox) ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা এক্সট্র্যাক্ট করার প্রক্রিয়া অত্যন্ত সহজ এবং কার্যকর। এটি Java অ্যাপ্লিকেশনগুলির মধ্যে পিডিএফ ডকুমেন্টের তথ্য সংগ্রহ করার জন্য একটি শক্তিশালী টুলসেট প্রদান করে।

Content added By

Md Zahid Hasan

PDF ফাইল থেকে Text Extraction করা

315

পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাকশন করা অত্যন্ত সহজ এবং কার্যকর। এই লাইব্রেরি আপনাকে পিডিএফ ডকুমেন্টের টেক্সট বের করার জন্য সরঞ্জাম প্রদান করে। পিডিএফবক্সে PDFTextStripper ক্লাস ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করা হয়। এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত বা নির্দিষ্ট পৃষ্ঠার টেক্সট উদ্ধার করতে সক্ষম।

টেক্সট এক্সট্র্যাকশন প্রক্রিয়া

পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য নিম্নলিখিত ধাপগুলি অনুসরণ করতে হবে:

PDDocument তৈরি করুন: পিডিএফ ডকুমেন্টটি লোড করতে হবে।
PDFTextStripper তৈরি করুন: এটি টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
টেক্সট এক্সট্র্যাক্ট করুন: getText() মেথড ব্যবহার করে পিডিএফের টেক্সট এক্সট্র্যাক্ট করুন।
ফলাফল প্রদর্শন করুন: এক্সট্র্যাক্ট করা টেক্সট প্রিন্ট বা সেভ করুন।

উদাহরণ: PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

নিম্নলিখিত কোডটি একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করবে:

import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class PDFTextExtractionExample {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করুন
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // PDFTextStripper তৈরি করুন
            PDFTextStripper stripper = new PDFTextStripper();

            // পুরো ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করুন
            String text = stripper.getText(document);

            // এক্সট্র্যাক্ট করা টেক্সট প্রদর্শন করুন
            System.out.println(text);

            // ডকুমেন্ট বন্ধ করুন
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোডের ব্যাখ্যা

PDDocument document = PDDocument.load(new File("example.pdf"));
এটি example.pdf নামক পিডিএফ ফাইলটি লোড করে।
PDFTextStripper stripper = new PDFTextStripper();
এটি PDFTextStripper ক্লাসের একটি অবজেক্ট তৈরি করে, যা পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
String text = stripper.getText(document);
এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে এবং text নামক স্ট্রিং ভেরিয়েবলে সংরক্ষণ করে।
System.out.println(text);
এটি এক্সট্র্যাক্ট করা টেক্সট কনসোল বা টার্মিনালে প্রদর্শন করে।
document.close();
ডকুমেন্টটি বন্ধ করে যাতে কোনো লক বা রিসোর্স লিক না হয়।

পিডিএফের নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাকশন

যদি আপনি পিডিএফের শুধুমাত্র নির্দিষ্ট পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করতে চান, তবে PDFTextStripper ক্লাসে setStartPage() এবং setEndPage() মেথড ব্যবহার করতে পারেন:

// নির্দিষ্ট পৃষ্ঠা (যেমন পৃষ্ঠা 1) থেকে টেক্সট এক্সট্র্যাক্ট করুন
stripper.setStartPage(1);
stripper.setEndPage(1);

এটি পিডিএফের প্রথম পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করবে।

উপসংহার

পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা একটি সহজ প্রক্রিয়া। আপনি সহজেই PDFTextStripper ক্লাস ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট বের করতে পারেন, যা আপনার ডকুমেন্ট ম্যানিপুলেশন এবং বিশ্লেষণের জন্য সহায়ক। এছাড়া, পিডিএফ ফাইলের নির্দিষ্ট পৃষ্ঠা থেকেও টেক্সট এক্সট্র্যাক্ট করা সম্ভব, যা বিশেষত দীর্ঘ পিডিএফ ডকুমেন্টে কার্যকর।

Content added By

Md Zahid Hasan

PDFTextStripper ব্যবহার করে Text রিড করা

310

পিডিএফবক্স (PDFBox) লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট (Read) করা খুবই সহজ। এর জন্য PDFTextStripper ক্লাস ব্যবহার করা হয়। এই ক্লাসটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম এবং এটি অনেক কার্যকরী যখন পিডিএফ ফাইলের মধ্যে থেকে নির্দিষ্ট তথ্য সংগ্রহ করতে হয়।

এই টিউটোরিয়ালে, আমরা দেখবো কীভাবে PDFTextStripper ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা যায়।

PDFTextStripper ব্যবহার করে টেক্সট রিড করা

নিম্নলিখিত কোডটিতে একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হয়েছে এবং কনসোলে প্রিন্ট করা হয়েছে।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFTextReader {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            File file = new File("example.pdf");
            PDDocument document = PDDocument.load(file);

            // PDFTextStripper অবজেক্ট তৈরি
            PDFTextStripper stripper = new PDFTextStripper();

            // পিডিএফের সমস্ত পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করা
            String text = stripper.getText(document);

            // এক্সট্র্যাক্ট করা টেক্সট কনসোলে প্রিন্ট করা
            System.out.println("Extracted Text: ");
            System.out.println(text);

            // ডকুমেন্ট বন্ধ করা
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোড ব্যাখ্যা

PDDocument.load(): এই মেথডটি পিডিএফ ফাইল লোড করার জন্য ব্যবহার করা হয়। এখানে document = PDDocument.load(file); এর মাধ্যমে পিডিএফ ফাইলটি লোড করা হচ্ছে।
PDFTextStripper: এটি একটি ক্লাস যা পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। stripper.getText(document); মেথডের মাধ্যমে পিডিএফ ডকুমেন্টের সব পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করা হয়।
document.close(): পিডিএফ ডকুমেন্ট ব্যবহারের পর এটিকে বন্ধ করা হয় যাতে সিস্টেম রিসোর্স সঠিকভাবে মুক্ত হয়।

PDFTextStripper এর কনফিগারেশন

PDFTextStripper এ বেশ কিছু কনফিগারেশন মেথড রয়েছে যা টেক্সট এক্সট্র্যাকশনের আউটপুট কাস্টমাইজ করতে সাহায্য করে:

setStartPage(int page): এক্সট্র্যাকশন শুরু করার জন্য পৃষ্ঠা নম্বর নির্ধারণ করা।
setEndPage(int page): এক্সট্র্যাকশন শেষ করার জন্য পৃষ্ঠা নম্বর নির্ধারণ করা।
setSortByPosition(boolean sort): পজিশন অনুযায়ী টেক্সট সাজানোর জন্য এটি true করতে হবে।

যেমন, যদি শুধুমাত্র প্রথম পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করতে চান, তাহলে কোডটি এরকম হবে:

stripper.setStartPage(1);
stripper.setEndPage(1);

টেক্সট এক্সট্র্যাক্টের আউটপুট

এই কোডটি চালানোর পর, example.pdf নামের পিডিএফ ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট হয়ে কনসোলে প্রিন্ট হবে।

PDFBox এর PDFTextStripper ক্লাসটি একটি শক্তিশালী টুল, যা সহজে পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে সাহায্য করে। এটি বিশেষ করে সেই সমস্ত পরিস্থিতিতে কার্যকরী, যেখানে পিডিএফ ডকুমেন্টে থাকা তথ্য প্রোগ্রাম্যাটিকভাবে সংগ্রহ বা বিশ্লেষণ করতে হয়।

Content added By

Md Zahid Hasan

PDF থেকে Images এবং Graphics পড়া

310

পিডিএফবক্স (PDFBox) Java লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং গ্রাফিক্স (যেমন, লাইন, আয়তক্ষেত্র, বৃত্ত) এক্সট্র্যাক্ট বা পড়া সম্ভব। এই টিউটোরিয়ালে আমরা দেখব কীভাবে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং গ্রাফিক্স বের করা যায়।

পিডিএফ থেকে ইমেজ পড়া

পিডিএফ ডকুমেন্ট থেকে ইমেজ বের করার জন্য PDFBox এর PDFImageReader ক্লাস ব্যবহার করা হয়। পিডিএফ ফাইলের ইমেজগুলি সাধারণত অটোমেটিকভাবে এক্সট্র্যাক্ট করা সম্ভব না হলে, কিছু অতিরিক্ত কোডিংয়ের মাধ্যমে ইমেজ পাওয়া যায়।

পিডিএফ থেকে গ্রাফিক্স পড়া

গ্রাফিক্স (যেমন লাইন, আয়তক্ষেত্র, বৃত্ত) এক্সট্র্যাক্ট করতে PDFTextStripper বা Graphics2D ব্যবহার করা যেতে পারে। তবে গ্রাফিক্স এক্সট্র্যাকশন সাধারণত বেশি চ্যালেঞ্জিং হতে পারে, কারণ পিডিএফে গ্রাফিক্স প্রায়শই একটি বিটম্যাপ বা পাথ হিসেবে থাকে, যা সহজভাবে এক্সট্র্যাক্ট করা যায় না।

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করার উদাহরণ

নিচে একটি উদাহরণ দেওয়া হল, যেখানে একটি পিডিএফ ডকুমেন্ট থেকে ইমেজ এক্সট্র্যাক্ট করা হয়েছে।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;

public class ExtractImagesFromPDF {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(new File("example.pdf"));
            PDFRenderer pdfRenderer = new PDFRenderer(document);

            // প্রথম পৃষ্ঠার ইমেজ রেন্ডার করা
            BufferedImage image = pdfRenderer.renderImage(0); // পৃষ্ঠা 0 এর জন্য
            ImageIO.write(image, "PNG", new File("page_1_image.png"));

            document.close();
            System.out.println("ইমেজ এক্সট্র্যাক্ট করা হয়েছে!");

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোড ব্যাখ্যা

PDDocument.load(): এটি পিডিএফ ডকুমেন্ট লোড করার জন্য ব্যবহৃত হয়।
PDFRenderer: এটি পিডিএফ ডকুমেন্টের পৃষ্ঠাগুলি ইমেজে রেন্ডার করে। এখানে আমরা প্রথম পৃষ্ঠার ইমেজ এক্সট্র্যাক্ট করেছি।
renderImage(): এটি পিডিএফ পৃষ্ঠা থেকে একটি BufferedImage তৈরি করে, যা ইমেজ ফাইল হিসেবে সেভ করা যেতে পারে।
ImageIO.write(): এটি রেন্ডার করা ইমেজটিকে একটি ফাইল (যেমন PNG) ফরম্যাটে সেভ করে।

পিডিএফ থেকে গ্রাফিক্স পড়ার উদাহরণ

গ্রাফিক্স এক্সট্র্যাক্ট করার জন্য বিশেষ কোনো API বা সরাসরি পদ্ধতি নেই, তবে কিছু সময় PDFTextStripper বা Graphics2D ব্যবহার করে পিডিএফের ভিজ্যুয়াল উপাদান পড়া সম্ভব।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.IOException;

public class ExtractTextFromPDF {

    public static void main(String[] args) {
        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(new File("example.pdf"));

            // পিডিএফের টেক্সট এক্সট্র্যাক্ট করা
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);

            System.out.println("পিডিএফ টেক্সট: ");
            System.out.println(text);

            document.close();

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

কোড ব্যাখ্যা

PDFTextStripper: এটি পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। যদিও এটি গ্রাফিক্সের জন্য ব্যবহৃত নয়, তবে গ্রাফিক্সের সাথে সম্পর্কিত টেক্সট অথবা কনটেন্ট এক্সট্র্যাক্ট করা সম্ভব।
getText(): এটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করে।

সারাংশ

পিডিএফবক্স লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং কিছুটা গ্রাফিক্স এক্সট্র্যাক্ট করা সম্ভব, যদিও গ্রাফিক্স এক্সট্র্যাকশন একটি জটিল প্রক্রিয়া হতে পারে এবং অনেক সময় তৃতীয় পক্ষের লাইব্রেরি বা অতিরিক্ত কোডিংয়ের প্রয়োজন হতে পারে। পিডিএফ থেকে ইমেজ পড়তে PDFRenderer এবং গ্রাফিক্স এক্সট্র্যাক্ট করতে PDFTextStripper বা Graphics2D ব্যবহার করা যেতে পারে।

Content added By

Md Zahid Hasan

উদাহরণ সহ PDF থেকে ডেটা রিড করা

320

পিডিএফবক্স (PDFBox) ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা (যেমন টেক্সট) রিড করা একটি সাধারণ প্রক্রিয়া। এই টিউটোরিয়ালে আমরা দেখব কিভাবে পিডিএফ থেকে ডেটা রিড করতে হয়।

পিডিএফবক্স সেটআপ

প্রথমে আপনার Java প্রোজেক্টে PDFBox লাইব্রেরি অন্তর্ভুক্ত থাকতে হবে। আপনি Maven অথবা Gradle ব্যবহার করে এটি যুক্ত করতে পারেন।

Maven (pom.xml):

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.28</version>
</dependency>

Gradle (build.gradle):

implementation 'org.apache.pdfbox:pdfbox:2.0.28'

PDF থেকে ডেটা রিড করার উদাহরণ

এখন, নিচে একটি উদাহরণ দেওয়া হলো যেখানে একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হচ্ছে।

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class ReadPDFExample {

    public static void main(String[] args) {
        // পিডিএফ ফাইল লোড করা
        File file = new File("example.pdf");

        try {
            // পিডিএফ ডকুমেন্ট লোড করা
            PDDocument document = PDDocument.load(file);

            // PDFTextStripper অবজেক্ট তৈরি করা
            PDFTextStripper stripper = new PDFTextStripper();

            // পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করা
            String text = stripper.getText(document);

            // এক্সট্র্যাক্টেড টেক্সট প্রিন্ট করা
            System.out.println("Extracted Text: \n" + text);

            // ডকুমেন্ট বন্ধ করা
            document.close();

        } catch (IOException e) {
            System.err.println("Error reading PDF: " + e.getMessage());
        }
    }
}

কোডের ব্যাখ্যা

PDDocument: এটি পিডিএফ ডকুমেন্টের একটি অবজেক্ট, যা পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
PDFTextStripper: এটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। getText() মেথডের মাধ্যমে পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হয়।
PDDocument.load(file): পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
document.close(): পিডিএফ ডকুমেন্ট ব্যবহার শেষে বন্ধ করে দেয়া হয়।

পিডিএফ টেক্সট এক্সট্র্যাকশনের কাস্টমাইজেশন

আপনি PDFTextStripper ব্যবহার করে কাস্টমাইজড টেক্সট এক্সট্র্যাকশনও করতে পারেন, যেমন পিডিএফের নির্দিষ্ট পেজ থেকে টেক্সট রিড করা। উদাহরণস্বরূপ, নির্দিষ্ট পেজের টেক্সট এক্সট্র্যাক্ট করতে নিচের কোড ব্যবহার করা যায়:

PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);  // প্রথম পেজ
stripper.setEndPage(1);    // প্রথম পেজের মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট হবে
String text = stripper.getText(document);

এভাবে পিডিএফবক্স ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট রিড করা সম্ভব। এটি বিশেষভাবে তখন কার্যকর যখন আপনি পিডিএফ ফাইলের কনটেন্ট যেমন ডকুমেন্টের বডি থেকে টেক্সট বের করতে চান।

Content added By

Md Zahid Hasan

PDFBox এর পরিচিতি PDFBox ইন্সটলেশন এবং সেটআপ PDF তৈরি করা PDF এ Text যোগ করা PDF এ Images যোগ করা

PDF থেকে ডেটা পড়া

পিডিএফ থেকে টেক্সট পড়ার প্রক্রিয়া

উদাহরণ: পিডিএফ থেকে টেক্সট পড়া

কোডের ব্যাখ্যা

পিডিএফ থেকে আরও ডেটা এক্সট্র্যাক্ট করা

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করা

পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে ডেটা পড়ার সুবিধা

PDF ফাইল থেকে Text Extraction করা

টেক্সট এক্সট্র্যাকশন প্রক্রিয়া

উদাহরণ: PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

কোডের ব্যাখ্যা

পিডিএফের নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাকশন

উপসংহার

PDFTextStripper ব্যবহার করে Text রিড করা

PDFTextStripper ব্যবহার করে টেক্সট রিড করা

কোড ব্যাখ্যা

PDFTextStripper এর কনফিগারেশন

টেক্সট এক্সট্র্যাক্টের আউটপুট

PDF থেকে Images এবং Graphics পড়া

পিডিএফ থেকে ইমেজ পড়া

পিডিএফ থেকে গ্রাফিক্স পড়া

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করার উদাহরণ

কোড ব্যাখ্যা

পিডিএফ থেকে গ্রাফিক্স পড়ার উদাহরণ

কোড ব্যাখ্যা

সারাংশ

উদাহরণ সহ PDF থেকে ডেটা রিড করা

পিডিএফবক্স সেটআপ

PDF থেকে ডেটা রিড করার উদাহরণ

কোডের ব্যাখ্যা

পিডিএফ টেক্সট এক্সট্র্যাকশনের কাস্টমাইজেশন

Promotion

Satt AI

Hi, আমি SATT AI!

PDF থেকে ডেটা পড়া

পিডিএফ থেকে টেক্সট পড়ার প্রক্রিয়া

উদাহরণ: পিডিএফ থেকে টেক্সট পড়া

কোডের ব্যাখ্যা

পিডিএফ থেকে আরও ডেটা এক্সট্র্যাক্ট করা

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করা

পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে ডেটা পড়ার সুবিধা

PDF ফাইল থেকে Text Extraction করা

টেক্সট এক্সট্র্যাকশন প্রক্রিয়া

উদাহরণ: PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

কোডের ব্যাখ্যা

পিডিএফের নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাকশন

উপসংহার

PDFTextStripper ব্যবহার করে Text রিড করা

PDFTextStripper ব্যবহার করে টেক্সট রিড করা

কোড ব্যাখ্যা

PDFTextStripper এর কনফিগারেশন

টেক্সট এক্সট্র্যাক্টের আউটপুট

PDF থেকে Images এবং Graphics পড়া

পিডিএফ থেকে ইমেজ পড়া

পিডিএফ থেকে গ্রাফিক্স পড়া

পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করার উদাহরণ

কোড ব্যাখ্যা

পিডিএফ থেকে গ্রাফিক্স পড়ার উদাহরণ

কোড ব্যাখ্যা

সারাংশ

উদাহরণ সহ PDF থেকে ডেটা রিড করা

পিডিএফবক্স সেটআপ

PDF থেকে ডেটা রিড করার উদাহরণ

কোডের ব্যাখ্যা

পিডিএফ টেক্সট এক্সট্র্যাকশনের কাস্টমাইজেশন

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!