পিডিএফবক্স (PDFBox) একটি শক্তিশালী লাইব্রেরি যা Java ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা পড়তে সহায়তা করে। এটি পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য PDFTextStripper ক্লাস ব্যবহার করে, যা পিডিএফের টেক্সট কনটেন্ট বের করতে খুবই কার্যকর। এছাড়া, এটি পিডিএফের মেটাডেটা, ইমেজ এবং অন্যান্য কনটেন্টও এক্সট্র্যাক্ট করতে সক্ষম।
পিডিএফ থেকে টেক্সট পড়ার প্রক্রিয়া
পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করতে নিচের কোডটি ব্যবহার করা যেতে পারে:
উদাহরণ: পিডিএফ থেকে টেক্সট পড়া
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFDataExtractionExample {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করা
PDDocument document = PDDocument.load(new File("example.pdf"));
// PDFTextStripper ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করা
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(document);
// টেক্সট প্রিন্ট করা
System.out.println("Extracted Text: \n" + text);
// ডকুমেন্ট বন্ধ করা
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
কোডের ব্যাখ্যা
PDDocument.load(File file): এই মেথড ব্যবহার করে পিডিএফ ফাইলটি লোড করা হয়। এখানেexample.pdfপিডিএফ ফাইলটি লোড করা হচ্ছে।PDFTextStripper: এটি পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।getText()মেথডের মাধ্যমে পুরো পিডিএফ ডকুমেন্টের টেক্সট এক্সট্র্যাক্ট করা যায়।document.close(): পিডিএফ ডকুমেন্ট বন্ধ করা হয়, যাতে মেমরি সঠিকভাবে মুক্ত হয়।
পিডিএফ থেকে আরও ডেটা এক্সট্র্যাক্ট করা
পিডিএফবক্সের মাধ্যমে শুধু টেক্সট নয়, পিডিএফের আরও নানা তথ্য যেমন মেটাডেটা, ফন্ট, ইমেজ, টেবিল ইত্যাদি এক্সট্র্যাক্ট করা সম্ভব। উদাহরণস্বরূপ, পিডিএফের মেটাডেটা পড়তে PDDocument.getDocumentInformation() ব্যবহার করা যায়।
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;
import java.io.File;
import java.io.IOException;
public class PDFMetadataExample {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করা
PDDocument document = PDDocument.load(new File("example.pdf"));
// মেটাডেটা এক্সট্র্যাক্ট করা
PDDocumentInformation info = document.getDocumentInformation();
System.out.println("Title: " + info.getTitle());
System.out.println("Author: " + info.getAuthor());
System.out.println("Subject: " + info.getSubject());
System.out.println("Keywords: " + info.getKeywords());
// ডকুমেন্ট বন্ধ করা
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করা
পিডিএফবক্স ব্যবহার করে পিডিএফ ডকুমেন্টে থাকা ইমেজগুলি এক্সট্র্যাক্ট করা সম্ভব, তবে এটি কিছুটা জটিল হতে পারে এবং অতিরিক্ত কোডিংয়ের প্রয়োজন হতে পারে। সাধারণভাবে, পিডিএফের টেক্সট এক্সট্র্যাকশন কার্যক্রম আরও সহজ এবং সাধারণ।
পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে ডেটা পড়ার সুবিধা
- সহজ টেক্সট এক্সট্র্যাকশন: পিডিএফবক্স ব্যবহার করে পিডিএফ থেকে টেক্সট খুব সহজে এক্সট্র্যাক্ট করা যায়।
- পিডিএফ মেটাডেটা পড়া: পিডিএফ ফাইলের মেটাডেটা (যেমন টাইটেল, অথর, সাবজেক্ট ইত্যাদি) খুব সহজেই পড়া যায়।
- এডভান্সড এক্সট্র্যাকশন: পিডিএফের টেবিল, ফন্ট, ইমেজ এবং অন্যান্য কনটেন্ট এক্সট্র্যাক্ট করা সম্ভব, তবে সেটি একটু বেশি জটিল হতে পারে।
পিডিএফবক্স (PDFBox) ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা এক্সট্র্যাক্ট করার প্রক্রিয়া অত্যন্ত সহজ এবং কার্যকর। এটি Java অ্যাপ্লিকেশনগুলির মধ্যে পিডিএফ ডকুমেন্টের তথ্য সংগ্রহ করার জন্য একটি শক্তিশালী টুলসেট প্রদান করে।
পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাকশন করা অত্যন্ত সহজ এবং কার্যকর। এই লাইব্রেরি আপনাকে পিডিএফ ডকুমেন্টের টেক্সট বের করার জন্য সরঞ্জাম প্রদান করে। পিডিএফবক্সে PDFTextStripper ক্লাস ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করা হয়। এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত বা নির্দিষ্ট পৃষ্ঠার টেক্সট উদ্ধার করতে সক্ষম।
টেক্সট এক্সট্র্যাকশন প্রক্রিয়া
পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য নিম্নলিখিত ধাপগুলি অনুসরণ করতে হবে:
- PDDocument তৈরি করুন: পিডিএফ ডকুমেন্টটি লোড করতে হবে।
- PDFTextStripper তৈরি করুন: এটি টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
- টেক্সট এক্সট্র্যাক্ট করুন:
getText()মেথড ব্যবহার করে পিডিএফের টেক্সট এক্সট্র্যাক্ট করুন। - ফলাফল প্রদর্শন করুন: এক্সট্র্যাক্ট করা টেক্সট প্রিন্ট বা সেভ করুন।
উদাহরণ: PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন
নিম্নলিখিত কোডটি একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করবে:
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFTextExtractionExample {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করুন
PDDocument document = PDDocument.load(new File("example.pdf"));
// PDFTextStripper তৈরি করুন
PDFTextStripper stripper = new PDFTextStripper();
// পুরো ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করুন
String text = stripper.getText(document);
// এক্সট্র্যাক্ট করা টেক্সট প্রদর্শন করুন
System.out.println(text);
// ডকুমেন্ট বন্ধ করুন
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
কোডের ব্যাখ্যা
- PDDocument document = PDDocument.load(new File("example.pdf"));
এটিexample.pdfনামক পিডিএফ ফাইলটি লোড করে। - PDFTextStripper stripper = new PDFTextStripper();
এটিPDFTextStripperক্লাসের একটি অবজেক্ট তৈরি করে, যা পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। - String text = stripper.getText(document);
এটি পিডিএফ ডকুমেন্ট থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে এবংtextনামক স্ট্রিং ভেরিয়েবলে সংরক্ষণ করে। - System.out.println(text);
এটি এক্সট্র্যাক্ট করা টেক্সট কনসোল বা টার্মিনালে প্রদর্শন করে। - document.close();
ডকুমেন্টটি বন্ধ করে যাতে কোনো লক বা রিসোর্স লিক না হয়।
পিডিএফের নির্দিষ্ট পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাকশন
যদি আপনি পিডিএফের শুধুমাত্র নির্দিষ্ট পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করতে চান, তবে PDFTextStripper ক্লাসে setStartPage() এবং setEndPage() মেথড ব্যবহার করতে পারেন:
// নির্দিষ্ট পৃষ্ঠা (যেমন পৃষ্ঠা 1) থেকে টেক্সট এক্সট্র্যাক্ট করুন
stripper.setStartPage(1);
stripper.setEndPage(1);
এটি পিডিএফের প্রথম পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করবে।
উপসংহার
পিডিএফবক্স (PDFBox) Java ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা একটি সহজ প্রক্রিয়া। আপনি সহজেই PDFTextStripper ক্লাস ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট বের করতে পারেন, যা আপনার ডকুমেন্ট ম্যানিপুলেশন এবং বিশ্লেষণের জন্য সহায়ক। এছাড়া, পিডিএফ ফাইলের নির্দিষ্ট পৃষ্ঠা থেকেও টেক্সট এক্সট্র্যাক্ট করা সম্ভব, যা বিশেষত দীর্ঘ পিডিএফ ডকুমেন্টে কার্যকর।
পিডিএফবক্স (PDFBox) লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট (Read) করা খুবই সহজ। এর জন্য PDFTextStripper ক্লাস ব্যবহার করা হয়। এই ক্লাসটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম এবং এটি অনেক কার্যকরী যখন পিডিএফ ফাইলের মধ্যে থেকে নির্দিষ্ট তথ্য সংগ্রহ করতে হয়।
এই টিউটোরিয়ালে, আমরা দেখবো কীভাবে PDFTextStripper ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা যায়।
PDFTextStripper ব্যবহার করে টেক্সট রিড করা
নিম্নলিখিত কোডটিতে একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হয়েছে এবং কনসোলে প্রিন্ট করা হয়েছে।
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFTextReader {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করা
File file = new File("example.pdf");
PDDocument document = PDDocument.load(file);
// PDFTextStripper অবজেক্ট তৈরি
PDFTextStripper stripper = new PDFTextStripper();
// পিডিএফের সমস্ত পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করা
String text = stripper.getText(document);
// এক্সট্র্যাক্ট করা টেক্সট কনসোলে প্রিন্ট করা
System.out.println("Extracted Text: ");
System.out.println(text);
// ডকুমেন্ট বন্ধ করা
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
কোড ব্যাখ্যা
- PDDocument.load(): এই মেথডটি পিডিএফ ফাইল লোড করার জন্য ব্যবহার করা হয়। এখানে
document = PDDocument.load(file);এর মাধ্যমে পিডিএফ ফাইলটি লোড করা হচ্ছে। - PDFTextStripper: এটি একটি ক্লাস যা পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
stripper.getText(document);মেথডের মাধ্যমে পিডিএফ ডকুমেন্টের সব পৃষ্ঠার টেক্সট এক্সট্র্যাক্ট করা হয়। - document.close(): পিডিএফ ডকুমেন্ট ব্যবহারের পর এটিকে বন্ধ করা হয় যাতে সিস্টেম রিসোর্স সঠিকভাবে মুক্ত হয়।
PDFTextStripper এর কনফিগারেশন
PDFTextStripper এ বেশ কিছু কনফিগারেশন মেথড রয়েছে যা টেক্সট এক্সট্র্যাকশনের আউটপুট কাস্টমাইজ করতে সাহায্য করে:
- setStartPage(int page): এক্সট্র্যাকশন শুরু করার জন্য পৃষ্ঠা নম্বর নির্ধারণ করা।
- setEndPage(int page): এক্সট্র্যাকশন শেষ করার জন্য পৃষ্ঠা নম্বর নির্ধারণ করা।
- setSortByPosition(boolean sort): পজিশন অনুযায়ী টেক্সট সাজানোর জন্য এটি
trueকরতে হবে।
যেমন, যদি শুধুমাত্র প্রথম পৃষ্ঠা থেকে টেক্সট এক্সট্র্যাক্ট করতে চান, তাহলে কোডটি এরকম হবে:
stripper.setStartPage(1);
stripper.setEndPage(1);
টেক্সট এক্সট্র্যাক্টের আউটপুট
এই কোডটি চালানোর পর, example.pdf নামের পিডিএফ ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট হয়ে কনসোলে প্রিন্ট হবে।
PDFBox এর PDFTextStripper ক্লাসটি একটি শক্তিশালী টুল, যা সহজে পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে সাহায্য করে। এটি বিশেষ করে সেই সমস্ত পরিস্থিতিতে কার্যকরী, যেখানে পিডিএফ ডকুমেন্টে থাকা তথ্য প্রোগ্রাম্যাটিকভাবে সংগ্রহ বা বিশ্লেষণ করতে হয়।
পিডিএফবক্স (PDFBox) Java লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং গ্রাফিক্স (যেমন, লাইন, আয়তক্ষেত্র, বৃত্ত) এক্সট্র্যাক্ট বা পড়া সম্ভব। এই টিউটোরিয়ালে আমরা দেখব কীভাবে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং গ্রাফিক্স বের করা যায়।
পিডিএফ থেকে ইমেজ পড়া
পিডিএফ ডকুমেন্ট থেকে ইমেজ বের করার জন্য PDFBox এর PDFImageReader ক্লাস ব্যবহার করা হয়। পিডিএফ ফাইলের ইমেজগুলি সাধারণত অটোমেটিকভাবে এক্সট্র্যাক্ট করা সম্ভব না হলে, কিছু অতিরিক্ত কোডিংয়ের মাধ্যমে ইমেজ পাওয়া যায়।
পিডিএফ থেকে গ্রাফিক্স পড়া
গ্রাফিক্স (যেমন লাইন, আয়তক্ষেত্র, বৃত্ত) এক্সট্র্যাক্ট করতে PDFTextStripper বা Graphics2D ব্যবহার করা যেতে পারে। তবে গ্রাফিক্স এক্সট্র্যাকশন সাধারণত বেশি চ্যালেঞ্জিং হতে পারে, কারণ পিডিএফে গ্রাফিক্স প্রায়শই একটি বিটম্যাপ বা পাথ হিসেবে থাকে, যা সহজভাবে এক্সট্র্যাক্ট করা যায় না।
পিডিএফ থেকে ইমেজ এক্সট্র্যাক্ট করার উদাহরণ
নিচে একটি উদাহরণ দেওয়া হল, যেখানে একটি পিডিএফ ডকুমেন্ট থেকে ইমেজ এক্সট্র্যাক্ট করা হয়েছে।
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
public class ExtractImagesFromPDF {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করা
PDDocument document = PDDocument.load(new File("example.pdf"));
PDFRenderer pdfRenderer = new PDFRenderer(document);
// প্রথম পৃষ্ঠার ইমেজ রেন্ডার করা
BufferedImage image = pdfRenderer.renderImage(0); // পৃষ্ঠা 0 এর জন্য
ImageIO.write(image, "PNG", new File("page_1_image.png"));
document.close();
System.out.println("ইমেজ এক্সট্র্যাক্ট করা হয়েছে!");
} catch (IOException e) {
e.printStackTrace();
}
}
}
কোড ব্যাখ্যা
- PDDocument.load(): এটি পিডিএফ ডকুমেন্ট লোড করার জন্য ব্যবহৃত হয়।
- PDFRenderer: এটি পিডিএফ ডকুমেন্টের পৃষ্ঠাগুলি ইমেজে রেন্ডার করে। এখানে আমরা প্রথম পৃষ্ঠার ইমেজ এক্সট্র্যাক্ট করেছি।
- renderImage(): এটি পিডিএফ পৃষ্ঠা থেকে একটি BufferedImage তৈরি করে, যা ইমেজ ফাইল হিসেবে সেভ করা যেতে পারে।
- ImageIO.write(): এটি রেন্ডার করা ইমেজটিকে একটি ফাইল (যেমন PNG) ফরম্যাটে সেভ করে।
পিডিএফ থেকে গ্রাফিক্স পড়ার উদাহরণ
গ্রাফিক্স এক্সট্র্যাক্ট করার জন্য বিশেষ কোনো API বা সরাসরি পদ্ধতি নেই, তবে কিছু সময় PDFTextStripper বা Graphics2D ব্যবহার করে পিডিএফের ভিজ্যুয়াল উপাদান পড়া সম্ভব।
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.IOException;
public class ExtractTextFromPDF {
public static void main(String[] args) {
try {
// পিডিএফ ডকুমেন্ট লোড করা
PDDocument document = PDDocument.load(new File("example.pdf"));
// পিডিএফের টেক্সট এক্সট্র্যাক্ট করা
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(document);
System.out.println("পিডিএফ টেক্সট: ");
System.out.println(text);
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
কোড ব্যাখ্যা
- PDFTextStripper: এটি পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। যদিও এটি গ্রাফিক্সের জন্য ব্যবহৃত নয়, তবে গ্রাফিক্সের সাথে সম্পর্কিত টেক্সট অথবা কনটেন্ট এক্সট্র্যাক্ট করা সম্ভব।
- getText(): এটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করে।
সারাংশ
পিডিএফবক্স লাইব্রেরি ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ইমেজ এবং কিছুটা গ্রাফিক্স এক্সট্র্যাক্ট করা সম্ভব, যদিও গ্রাফিক্স এক্সট্র্যাকশন একটি জটিল প্রক্রিয়া হতে পারে এবং অনেক সময় তৃতীয় পক্ষের লাইব্রেরি বা অতিরিক্ত কোডিংয়ের প্রয়োজন হতে পারে। পিডিএফ থেকে ইমেজ পড়তে PDFRenderer এবং গ্রাফিক্স এক্সট্র্যাক্ট করতে PDFTextStripper বা Graphics2D ব্যবহার করা যেতে পারে।
পিডিএফবক্স (PDFBox) ব্যবহার করে পিডিএফ ডকুমেন্ট থেকে ডেটা (যেমন টেক্সট) রিড করা একটি সাধারণ প্রক্রিয়া। এই টিউটোরিয়ালে আমরা দেখব কিভাবে পিডিএফ থেকে ডেটা রিড করতে হয়।
পিডিএফবক্স সেটআপ
প্রথমে আপনার Java প্রোজেক্টে PDFBox লাইব্রেরি অন্তর্ভুক্ত থাকতে হবে। আপনি Maven অথবা Gradle ব্যবহার করে এটি যুক্ত করতে পারেন।
Maven (pom.xml):
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.28</version>
</dependency>
Gradle (build.gradle):
implementation 'org.apache.pdfbox:pdfbox:2.0.28'
PDF থেকে ডেটা রিড করার উদাহরণ
এখন, নিচে একটি উদাহরণ দেওয়া হলো যেখানে একটি পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হচ্ছে।
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class ReadPDFExample {
public static void main(String[] args) {
// পিডিএফ ফাইল লোড করা
File file = new File("example.pdf");
try {
// পিডিএফ ডকুমেন্ট লোড করা
PDDocument document = PDDocument.load(file);
// PDFTextStripper অবজেক্ট তৈরি করা
PDFTextStripper stripper = new PDFTextStripper();
// পিডিএফ থেকে টেক্সট এক্সট্র্যাক্ট করা
String text = stripper.getText(document);
// এক্সট্র্যাক্টেড টেক্সট প্রিন্ট করা
System.out.println("Extracted Text: \n" + text);
// ডকুমেন্ট বন্ধ করা
document.close();
} catch (IOException e) {
System.err.println("Error reading PDF: " + e.getMessage());
}
}
}
কোডের ব্যাখ্যা
- PDDocument: এটি পিডিএফ ডকুমেন্টের একটি অবজেক্ট, যা পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
- PDFTextStripper: এটি পিডিএফ ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়।
getText()মেথডের মাধ্যমে পিডিএফ ডকুমেন্ট থেকে টেক্সট রিড করা হয়। - PDDocument.load(file): পিডিএফ ফাইল লোড করার জন্য ব্যবহৃত হয়।
- document.close(): পিডিএফ ডকুমেন্ট ব্যবহার শেষে বন্ধ করে দেয়া হয়।
পিডিএফ টেক্সট এক্সট্র্যাকশনের কাস্টমাইজেশন
আপনি PDFTextStripper ব্যবহার করে কাস্টমাইজড টেক্সট এক্সট্র্যাকশনও করতে পারেন, যেমন পিডিএফের নির্দিষ্ট পেজ থেকে টেক্সট রিড করা। উদাহরণস্বরূপ, নির্দিষ্ট পেজের টেক্সট এক্সট্র্যাক্ট করতে নিচের কোড ব্যবহার করা যায়:
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1); // প্রথম পেজ
stripper.setEndPage(1); // প্রথম পেজের মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট হবে
String text = stripper.getText(document);
এভাবে পিডিএফবক্স ব্যবহার করে পিডিএফ ফাইল থেকে টেক্সট রিড করা সম্ভব। এটি বিশেষভাবে তখন কার্যকর যখন আপনি পিডিএফ ফাইলের কনটেন্ট যেমন ডকুমেন্টের বডি থেকে টেক্সট বের করতে চান।
Read more