অ্যাপাচি পিওআই (Apache POI) লাইব্রেরি ব্যবহারের মাধ্যমে আমরা Microsoft Word (DOCX) এবং Excel (XLSX) ফাইল থেকে টেক্সট এবং টেবিল ডেটা সহজেই এক্সট্র্যাক্ট করতে পারি। এটি ডকুমেন্ট এবং স্প্রেডশিট থেকে প্রয়োজনীয় তথ্য দ্রুত ও কার্যকরভাবে বের করতে সহায়তা করে। এই প্রসেসে POI লাইব্রেরি সেল, রো, কলাম, প্যারাগ্রাফ, টেবিল ইত্যাদি থেকে ডেটা এক্সট্র্যাক্ট করতে সক্ষম।
টেক্সট এক্সট্র্যাক্ট করা
অ্যাপাচি পিওআই এর মাধ্যমে Word (DOCX) ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা সম্ভব। XWPFDocument ক্লাসটি DOCX ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়।
Word ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা
// Example of extracting text from a DOCX file using Apache POI
FileInputStream fis = new FileInputStream("example.docx");
XWPFDocument document = new XWPFDocument(fis);
// Extract text from paragraphs
for (XWPFParagraph paragraph : document.getParagraphs()) {
System.out.println(paragraph.getText());
}
fis.close();
এখানে XWPFDocument ব্যবহার করা হয়েছে, যা DOCX ফাইলের সমস্ত প্যারাগ্রাফ থেকে টেক্সট এক্সট্র্যাক্ট করে প্রিন্ট করবে।
টেবিল ডেটা এক্সট্র্যাক্ট করা
এক্সেল (XLSX) ফাইল থেকে টেবিল ডেটা এক্সট্র্যাক্ট করতে XSSF বা SXSSF ক্লাস ব্যবহার করা হয়। XSSF নতুন Excel ফাইল (.xlsx) প্রসেস করতে ব্যবহৃত হয়।
Excel ফাইল থেকে টেবিল ডেটা এক্সট্র্যাক্ট করা
// Example of extracting table data from an Excel file (XLSX) using Apache POI
FileInputStream fis = new FileInputStream("example.xlsx");
XSSFWorkbook workbook = new XSSFWorkbook(fis);
XSSFSheet sheet = workbook.getSheetAt(0);
// Loop through rows and columns to extract data
for (Row row : sheet) {
for (Cell cell : row) {
System.out.print(cell.toString() + "\t"); // Print the cell data
}
System.out.println();
}
workbook.close();
fis.close();
এখানে XSSFWorkbook ক্লাস ব্যবহার করে Excel শীট থেকে টেবিল ডেটা এক্সট্র্যাক্ট করা হয়েছে। প্রতিটি সেলের ডেটা ধরে System.out.println দিয়ে প্রিন্ট করা হয়েছে।
Excel শীটে টেবিল ডেটা এক্সট্র্যাক্ট করার পরিস্কার উদাহরণ:
একটি টেবিলের সেল থেকে ডেটা এক্সট্র্যাক্ট করার জন্য, Row এবং Cell অবজেক্ট ব্যবহার করা হয়, যাতে সহজেই ডেটা পাওয়া যায়।
Word এবং Excel ডকুমেন্টের মধ্যে পার্থক্য
- টেক্সট এক্সট্র্যাকশন: Word ডকুমেন্টের ক্ষেত্রে টেক্সট এক্সট্র্যাক্ট করার জন্য
XWPFDocumentব্যবহার করা হয়, যেখানে প্যারাগ্রাফ গুলি এক্সট্র্যাক্ট করা হয়। অন্যদিকে Excel ডকুমেন্টে সেলগুলির ডেটা এক্সট্র্যাক্ট করা হয়, যাXSSFWorkbookঅথবাSXSSFWorkbookক্লাস দিয়ে পরিচালিত হয়। - টেবিল ডেটা: Word ডকুমেন্টে টেবিলের ডেটা
XWPFTableক্লাস দিয়ে এক্সট্র্যাক্ট করা হয়, কিন্তু Excel এ সেল এবং রো ভিত্তিক ডেটা প্রক্রিয়া করা হয়।
সারাংশ
অ্যাপাচি পিওআই (Apache POI) লাইব্রেরির মাধ্যমে Microsoft Word এবং Excel ফাইল থেকে টেক্সট এবং টেবিল ডেটা সহজে এক্সট্র্যাক্ট করা সম্ভব। Word ডকুমেন্ট থেকে টেক্সট এবং প্যারাগ্রাফ এক্সট্র্যাক্ট করতে XWPFDocument ব্যবহার করা হয়, এবং Excel শীট থেকে টেবিল ডেটা এক্সট্র্যাক্ট করার জন্য XSSFWorkbook বা SXSSFWorkbook ব্যবহার করা হয়। এই প্রক্রিয়াগুলি ডেটা বিশ্লেষণ এবং রিপোর্ট তৈরির কাজে খুবই কার্যকর।
Read more