Apache Tika একটি ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। আপনি Eclipse অথবা IntelliJ IDEA ব্যবহার করে Apache Tika এর সাথে একটি প্রজেক্ট তৈরি করতে পারেন। এখানে, আমরা দেখাবো কিভাবে Tika লাইব্রেরি Eclipse এবং IntelliJ IDEA তে ব্যবহার করে একটি প্রজেক্ট সেটআপ এবং কোড তৈরি করা যায়।
১. Eclipse তে Maven প্রজেক্ট তৈরি করা
- Eclipse IDE খুলুন।
- File মেনু থেকে New > Maven Project নির্বাচন করুন।
- Create a simple project (skip archetype selection) অপশনটি নির্বাচন করুন এবং Next ক্লিক করুন।
- গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন:
com.exampleএবংtika-project)। - Finish ক্লিক করুন।
২. Maven Dependency যোগ করা
- প্রজেক্ট তৈরি হওয়ার পর, pom.xml ফাইলে Apache Tika এর Maven ডিপেনডেন্সি যোগ করুন।
<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>2.5.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>2.5.0</version>
</dependency>
</dependencies>
- এরপর, Maven ক্লিন এবং ইনস্টল করুন (Right-click on the project > Maven > Update Project)।
৩. Java কোড লিখুন
src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:
import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;
public class TikaExample {
public static void main(String[] args) {
try {
// Tika object to parse the content
Tika tika = new Tika();
// Parse the content of the file
String content = tika.parseToString(new File("example.pdf"));
// Print extracted content
System.out.println("Extracted content from PDF:");
System.out.println(content);
} catch (IOException e) {
e.printStackTrace();
}
}
}
এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।
৪. প্রজেক্ট চালানো
- Run বাটনে ক্লিক করুন বা Ctrl+F11 প্রেস করুন।
- এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।
IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা
১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা
- IntelliJ IDEA খুলুন এবং Create New Project নির্বাচন করুন।
- Maven নির্বাচন করুন এবং Next ক্লিক করুন।
- গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন:
com.exampleএবংtika-project)। - Finish ক্লিক করুন।
২. Maven Dependency যোগ করা
- IntelliJ এ pom.xml ফাইলে নিচের Tika ডিপেনডেন্সি যোগ করুন।
<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>2.5.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>2.5.0</version>
</dependency>
</dependencies>
- এরপর, Maven রিফ্রেশ করুন (Right-click on the project > Maven > Reload Project)।
৩. Java কোড লিখুন
src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:
import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;
public class TikaExample {
public static void main(String[] args) {
try {
// Tika object to parse the content
Tika tika = new Tika();
// Parse the content of the file
String content = tika.parseToString(new File("example.pdf"));
// Print extracted content
System.out.println("Extracted content from PDF:");
System.out.println(content);
} catch (IOException e) {
e.printStackTrace();
}
}
}
এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।
৪. প্রজেক্ট চালানো
- Run বাটনে ক্লিক করুন বা Shift+F10 প্রেস করুন।
- এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।
সারাংশ
Apache Tika একটি শক্তিশালী এবং ফিচার-প্যাকড লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম। এটি Eclipse এবং IntelliJ IDEA এর মতো জনপ্রিয় Java IDE গুলোতে খুব সহজেই ব্যবহার করা যায়। Maven বা Gradle ব্যবহার করে আপনি সহজে Tika লাইব্রেরি প্রজেক্টে যোগ করতে পারেন এবং আপনার ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারবেন। Tika ব্যবহার করে আপনি পিডিএফ, Word, Excel, HTML ইত্যাদি ফাইল ফরম্যাট থেকে দ্রুত তথ্য বের করতে পারবেন।
Read more