Maven/Gradle দিয়ে Apache Tika অন্তর্ভুক্ত করা

Apache Tika Setup এবং প্রথম প্রোজেক্ট - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

316

Apache Tika একটি শক্তিশালী এবং নমনীয় ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। Maven এবং Gradle হল দুটি জনপ্রিয় বিল্ড টুল যা Java প্রজেক্টে লাইব্রেরি এবং ডিপেনডেন্সি ম্যানেজমেন্টের জন্য ব্যবহৃত হয়। এই টিউটোরিয়ালে আমরা দেখব কীভাবে Maven বা Gradle ব্যবহার করে Apache Tika লাইব্রেরি একটি Java প্রজেক্টে অন্তর্ভুক্ত করা যায়।


1. Maven ব্যবহার করে Apache Tika অন্তর্ভুক্ত করা

Maven ব্যবহার করে Apache Tika অন্তর্ভুক্ত করার জন্য আপনাকে আপনার প্রকল্পের pom.xml ফাইলে Tika লাইব্রেরির ডিপেনডেন্সি যুক্ত করতে হবে। Maven একটি কেন্দ্রীয় ডিপেনডেন্সি রিপোজিটরি থেকে এই লাইব্রেরি ডাউনলোড করে আপনার প্রজেক্টে অন্তর্ভুক্ত করবে।

1.1 Apache Tika ডিপেনডেন্সি অন্তর্ভুক্ত করা

এটি করার জন্য, আপনার pom.xml ফাইলের মধ্যে নিম্নলিখিত ডিপেনডেন্সি যুক্ত করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version> <!-- Use the latest stable version -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version> <!-- Use the latest stable version -->
    </dependency>
</dependencies>

এখানে:

  • tika-core: Apache Tika এর মূল ফিচারগুলির জন্য।
  • tika-parsers: বিভিন্ন ফাইল ফরম্যাটের পার্সিংয়ের জন্য ব্যবহৃত অতিরিক্ত ফিচারগুলির জন্য।

1.2 Maven Repositories:

Maven Centra Repository থেকে লাইব্রেরি স্বয়ংক্রিয়ভাবে ডাউনলোড করা হবে, তাই আপনাকে আর নিজে ম্যানুয়ালি ফাইল ডাউনলোড করতে হবে না।

1.3 Maven কমান্ড দিয়ে ডিপেনডেন্সি আপডেট করা

Maven এর মাধ্যমে ডিপেনডেন্সি যুক্ত করার পর আপনার প্রজেক্টে লাইব্রেরি ডাউনলোড করতে নিম্নলিখিত কমান্ডটি চালান:

mvn clean install

এটি আপনার প্রজেক্টে সব ডিপেনডেন্সি এবং লাইব্রেরি ডাউনলোড করবে।


2. Gradle ব্যবহার করে Apache Tika অন্তর্ভুক্ত করা

Gradle হল একটি জনপ্রিয় বিল্ড টুল যা Maven এর বিকল্প হিসেবে কাজ করে। Gradle ব্যবহার করে Apache Tika অন্তর্ভুক্ত করতে আপনাকে আপনার build.gradle ফাইলে Tika লাইব্রেরির ডিপেনডেন্সি যোগ করতে হবে।

2.1 Apache Tika ডিপেনডেন্সি অন্তর্ভুক্ত করা

build.gradle ফাইলে নিম্নলিখিত ডিপেনডেন্সি যোগ করুন:

dependencies {
    implementation 'org.apache.tika:tika-core:2.5.0' // Use the latest stable version
    implementation 'org.apache.tika:tika-parsers:2.5.0' // Use the latest stable version
}

এখানে:

  • tika-core: Apache Tika এর মূল ফিচারগুলির জন্য।
  • tika-parsers: বিভিন্ন ফাইল ফরম্যাটের পার্সিংয়ের জন্য ব্যবহৃত অতিরিক্ত ফিচারগুলির জন্য।

2.2 Gradle Repositories:

Gradle স্বয়ংক্রিয়ভাবে Maven Central Repository থেকে লাইব্রেরি ডাউনলোড করবে, তাই আলাদাভাবে রিপোজিটরি কনফিগার করার প্রয়োজন নেই।

2.3 Gradle কমান্ড দিয়ে ডিপেনডেন্সি আপডেট করা

Gradle দিয়ে ডিপেনডেন্সি যুক্ত করার পর, আপনার প্রজেক্টে লাইব্রেরি ডাউনলোড করতে নিম্নলিখিত কমান্ডটি চালান:

gradle build

এটি সব ডিপেনডেন্সি ডাউনলোড করবে এবং প্রজেক্টের বিল্ড প্রক্রিয়া সম্পন্ন করবে।


3. Apache Tika ব্যবহার করে XML ডেটা প্রসেস করা (উদাহরণ)

এখন আমরা একটি সাধারণ উদাহরণ দেখব, যেখানে Apache Tika ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।

3.1 Tika ব্যবহার করে PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

import org.apache.tika.Tika;

import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            Tika tika = new Tika();
            File file = new File("example.pdf"); // Path to your PDF file

            // Extract text from the PDF file
            String text = tika.parseToString(file);
            System.out.println("Extracted Text: " + text);

            // Detect MIME type
            String mimeType = tika.detect(file);
            System.out.println("MIME Type: " + mimeType);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Output:

Extracted Text: This is an example PDF document.
MIME Type: application/pdf

এখানে, Apache Tika ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এবং MIME type এক্সট্র্যাক্ট করা হচ্ছে।


4. সারাংশ

Apache Tika একটি শক্তিশালী টুল যা Java প্রজেক্টে বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট, মেটাডেটা এবং কনটেন্ট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। এটি Maven বা Gradle এর মাধ্যমে খুব সহজেই অন্তর্ভুক্ত করা যায়, যা ডিপেনডেন্সি ম্যানেজমেন্ট এবং লাইব্রেরি ইনস্টলেশন সহজ করে তোলে। Tika ডকুমেন্ট ফরম্যাট সনাক্তকরণ এবং টেক্সট এক্সট্র্যাকশন, বিশেষ করে ওয়েব স্ক্র্যাপিং, ডেটা প্রোসেসিং, এবং সার্চ ইঞ্জিন সিস্টেমে ব্যবহৃত হয়।


Content added By
Promotion

Are you sure to start over?

Loading...