Eclipse/IntelliJ IDEA তে Tika প্রজেক্ট তৈরি করা

Apache Tika Setup এবং প্রথম প্রোজেক্ট - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

330

Apache Tika একটি ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। আপনি Eclipse অথবা IntelliJ IDEA ব্যবহার করে Apache Tika এর সাথে একটি প্রজেক্ট তৈরি করতে পারেন। এখানে, আমরা দেখাবো কিভাবে Tika লাইব্রেরি Eclipse এবং IntelliJ IDEA তে ব্যবহার করে একটি প্রজেক্ট সেটআপ এবং কোড তৈরি করা যায়।

১. Eclipse তে Maven প্রজেক্ট তৈরি করা

Eclipse IDE খুলুন।
File মেনু থেকে New > Maven Project নির্বাচন করুন।
Create a simple project (skip archetype selection) অপশনটি নির্বাচন করুন এবং Next ক্লিক করুন।
গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

প্রজেক্ট তৈরি হওয়ার পর, pom.xml ফাইলে Apache Tika এর Maven ডিপেনডেন্সি যোগ করুন।

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>

এরপর, Maven ক্লিন এবং ইনস্টল করুন (Right-click on the project > Maven > Update Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

Run বাটনে ক্লিক করুন বা Ctrl+F11 প্রেস করুন।
এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা

১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা

IntelliJ IDEA খুলুন এবং Create New Project নির্বাচন করুন।
Maven নির্বাচন করুন এবং Next ক্লিক করুন।
গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

IntelliJ এ pom.xml ফাইলে নিচের Tika ডিপেনডেন্সি যোগ করুন।

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>

এরপর, Maven রিফ্রেশ করুন (Right-click on the project > Maven > Reload Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

Run বাটনে ক্লিক করুন বা Shift+F10 প্রেস করুন।
এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

সারাংশ

Apache Tika একটি শক্তিশালী এবং ফিচার-প্যাকড লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম। এটি Eclipse এবং IntelliJ IDEA এর মতো জনপ্রিয় Java IDE গুলোতে খুব সহজেই ব্যবহার করা যায়। Maven বা Gradle ব্যবহার করে আপনি সহজে Tika লাইব্রেরি প্রজেক্টে যোগ করতে পারেন এবং আপনার ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারবেন। Tika ব্যবহার করে আপনি পিডিএফ, Word, Excel, HTML ইত্যাদি ফাইল ফরম্যাট থেকে দ্রুত তথ্য বের করতে পারবেন।

Content added By

Md Zahid Hasan

Maven/Gradle দিয়ে Apache Tika অন্তর্ভুক্ত করা প্রথম Apache Tika প্রোগ্রাম (Hello Tika Example) Tika এর jar ফাইল এবং লাইন কমান্ড ব্যবহার

Eclipse/IntelliJ IDEA তে Tika প্রজেক্ট তৈরি করা

১. Eclipse তে Maven প্রজেক্ট তৈরি করা

২. Maven Dependency যোগ করা

৩. Java কোড লিখুন

৪. প্রজেক্ট চালানো

IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা

১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা

২. Maven Dependency যোগ করা

৩. Java কোড লিখুন

৪. প্রজেক্ট চালানো

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Eclipse/IntelliJ IDEA তে Tika প্রজেক্ট তৈরি করা

১. Eclipse তে Maven প্রজেক্ট তৈরি করা

২. Maven Dependency যোগ করা

৩. Java কোড লিখুন

৪. প্রজেক্ট চালানো

IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা

১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা

২. Maven Dependency যোগ করা

৩. Java কোড লিখুন

৪. প্রজেক্ট চালানো

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!