Eclipse/IntelliJ IDEA তে Tika প্রজেক্ট তৈরি করা

Apache Tika Setup এবং প্রথম প্রোজেক্ট - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

283

Apache Tika একটি ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। আপনি Eclipse অথবা IntelliJ IDEA ব্যবহার করে Apache Tika এর সাথে একটি প্রজেক্ট তৈরি করতে পারেন। এখানে, আমরা দেখাবো কিভাবে Tika লাইব্রেরি Eclipse এবং IntelliJ IDEA তে ব্যবহার করে একটি প্রজেক্ট সেটআপ এবং কোড তৈরি করা যায়।

১. Eclipse তে Maven প্রজেক্ট তৈরি করা

  1. Eclipse IDE খুলুন।
  2. File মেনু থেকে New > Maven Project নির্বাচন করুন।
  3. Create a simple project (skip archetype selection) অপশনটি নির্বাচন করুন এবং Next ক্লিক করুন।
  4. গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
  5. Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

  1. প্রজেক্ট তৈরি হওয়ার পর, pom.xml ফাইলে Apache Tika এর Maven ডিপেনডেন্সি যোগ করুন।
<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>
  1. এরপর, Maven ক্লিন এবং ইনস্টল করুন (Right-click on the project > Maven > Update Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

  1. Run বাটনে ক্লিক করুন বা Ctrl+F11 প্রেস করুন।
  2. এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা

১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা

  1. IntelliJ IDEA খুলুন এবং Create New Project নির্বাচন করুন।
  2. Maven নির্বাচন করুন এবং Next ক্লিক করুন।
  3. গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
  4. Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

  1. IntelliJ এ pom.xml ফাইলে নিচের Tika ডিপেনডেন্সি যোগ করুন।
<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>
  1. এরপর, Maven রিফ্রেশ করুন (Right-click on the project > Maven > Reload Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

  1. Run বাটনে ক্লিক করুন বা Shift+F10 প্রেস করুন।
  2. এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

সারাংশ

Apache Tika একটি শক্তিশালী এবং ফিচার-প্যাকড লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম। এটি Eclipse এবং IntelliJ IDEA এর মতো জনপ্রিয় Java IDE গুলোতে খুব সহজেই ব্যবহার করা যায়। Maven বা Gradle ব্যবহার করে আপনি সহজে Tika লাইব্রেরি প্রজেক্টে যোগ করতে পারেন এবং আপনার ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারবেন। Tika ব্যবহার করে আপনি পিডিএফ, Word, Excel, HTML ইত্যাদি ফাইল ফরম্যাট থেকে দ্রুত তথ্য বের করতে পারবেন।

Content added By
Promotion

Are you sure to start over?

Loading...