Apache Tika Setup এবং প্রথম প্রোজেক্ট

অ্যাপাচি টিকা (Apache Tika) - Java Technologies

368

Apache Tika একটি ওপেন সোর্স লাইব্রেরি যা ডকুমেন্ট কন্টেন্ট এক্সট্র্যাকশন এবং মেটাডেটা এক্সট্র্যাকশন এর জন্য ব্যবহৃত হয়। এটি বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে ডেটা এবং মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম, যেমন PDF, Microsoft Office Documents, HTML, XML, OpenOffice, এবং অন্যান্য ফাইল ফরম্যাট।

এই আর্টিকেলে, আমরা Apache Tika এর সেটআপ প্রক্রিয়া এবং একটি প্রথম প্রোজেক্ট তৈরি করার প্রক্রিয়া নিয়ে আলোচনা করব।


১. Apache Tika সেটআপ

Apache Tika লাইব্রেরি ইনস্টলেশন

Apache Tika Java প্রোজেক্টে ইনস্টল করা খুবই সহজ। এটি মেভেন, গ্র্যাডল অথবা জার ফাইল হিসাবে ইনস্টল করা যেতে পারে।

Maven Dependency দিয়ে ইনস্টলেশন

Maven ব্যবহার করে আপনি Tika লাইব্রেরিটি সহজেই আপনার প্রকল্পে যুক্ত করতে পারেন। মেভেন প্রোজেক্টে pom.xml ফাইলে নিচের ডিপেনডেন্সি যোগ করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.6.0</version> <!-- সর্বশেষ ভার্সন চেক করুন -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.6.0</version> <!-- সর্বশেষ ভার্সন চেক করুন -->
    </dependency>
</dependencies>

Gradle Dependency দিয়ে ইনস্টলেশন

গ্র্যাডল ব্যবহার করে Apache Tika ইনস্টল করতে, আপনার build.gradle ফাইলে নিচের ডিপেনডেন্সি যুক্ত করুন:

dependencies {
    implementation 'org.apache.tika:tika-core:2.6.0'  // সর্বশেষ ভার্সন চেক করুন
    implementation 'org.apache.tika:tika-parsers:2.6.0'  // সর্বশেষ ভার্সন চেক করুন
}

JAR ফাইল ব্যবহার করে ইনস্টলেশন

Apache Tika এর JAR ফাইল ডাউনলোড করতে অ্যাপাচি টিকা অফিসিয়াল সাইট থেকে JAR ফাইল ডাউনলোড করে আপনার প্রকল্পে অন্তর্ভুক্ত করতে পারেন।


২. প্রথম প্রোজেক্ট তৈরি

এখন, আমরা Apache Tika ব্যবহার করে একটি সিম্পল Java প্রোগ্রাম তৈরি করব যা একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে। এই উদাহরণে আমরা Tika ব্যবহার করে কিভাবে একটি ফাইল থেকে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায় তা দেখব।

প্রথম Java প্রোজেক্ট উদাহরণ

ধাপ ১: Java কোড তৈরি করা

এখানে, আমরা একটি Java প্রোগ্রাম তৈরি করব যা Apache Tika ব্যবহার করে একটি PDF ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করবে।

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        // Tika অবজেক্ট তৈরি
        Tika tika = new Tika();

        try {
            // PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা
            String text = tika.parseToString(new File("example.pdf"));
            System.out.println("Extracted Text: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ধাপ ২: প্রকল্প তৈরি এবং রান করা

  • Maven/Gradle প্রোজেক্টে যোগ করুন।
  • Apache Tika JAR ফাইল যদি ডাউনলোড করেন, তাহলে ফাইলটি আপনার প্রোজেক্টে অন্তর্ভুক্ত করুন এবং build path-এ যোগ করুন।
  • একবার সেটআপ হয়ে গেলে, example.pdf নামক একটি PDF ফাইল তৈরি করুন এবং সেটি প্রোগ্রামের রুট ডিরেক্টরিতে রাখুন।

ধাপ ৩: কোড রান করা

এই প্রোগ্রামটি example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে এবং কনসোল আউটপুট হিসাবে প্রিন্ট করবে। আপনার example.pdf ফাইলের কন্টেন্ট প্রদর্শিত হবে।


৩. মেটাডেটা এক্সট্র্যাক্ট করা

Apache Tika কেবল কন্টেন্ট এক্সট্র্যাক্টই করে না, এটি ফাইলের মেটাডেটাও এক্সট্র্যাক্ট করতে পারে, যেমন author, title, keywords, modification date, ইত্যাদি।

মেটাডেটা এক্সট্র্যাক্ট করার উদাহরণ

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.FileInputStream;

public class TikaMetadataExample {
    public static void main(String[] args) {
        try {
            // ফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করা
            FileInputStream stream = new FileInputStream("example.pdf");
            Metadata metadata = new Metadata();
            AutoDetectParser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            parser.parse(stream, handler, metadata);

            // মেটাডেটা প্রিন্ট করা
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

এখানে, Apache Tika example.pdf ফাইলের মেটাডেটা এক্সট্র্যাক্ট করবে এবং সেটি কনসোল আউটপুট হিসাবে প্রিন্ট করবে। এটি মেটাডেটা যেমন author, title, modification date, keywords ইত্যাদি প্রদর্শন করবে।


৪. MIME টাইপ ডিটেকশন

Tika ফাইলের MIME টাইপ সঠিকভাবে ডিটেক্ট করতে পারে, যেমন PDF, HTML, text/plain, image/jpeg, ইত্যাদি। এটি একটি খুবই গুরুত্বপূর্ণ বৈশিষ্ট্য, যেহেতু এটি স্বয়ংক্রিয়ভাবে ফাইলের প্রকৃত টাইপ ডিটেক্ট করে।

MIME টাইপ ডিটেকশন উদাহরণ

import org.apache.tika.Tika;
import java.io.File;

public class MimeDetectionExample {
    public static void main(String[] args) {
        Tika tika = new Tika();
        try {
            // MIME টাইপ ডিটেকশন
            String mimeType = tika.detect(new File("example.pdf"));
            System.out.println("MIME Type: " + mimeType);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

এই কোডে Apache Tika example.pdf ফাইলের MIME টাইপ ডিটেক্ট করবে এবং তা কনসোলে প্রিন্ট করবে।


সারাংশ

Apache Tika একটি অত্যন্ত কার্যকরী লাইব্রেরি যা ডকুমেন্টের টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। এটি বিভিন্ন ধরনের ফাইল ফরম্যাট সমর্থন করে এবং Java অ্যাপ্লিকেশনগুলোতে খুব সহজে ইন্টিগ্রেট করা যায়। Apache Tika Setup এবং প্রথম প্রোজেক্ট তৈরি করার উদাহরণগুলির মাধ্যমে আপনি Tika এর ফিচারগুলি ব্যবহার শুরু করতে পারেন, যেমন কন্টেন্ট এক্সট্র্যাকশন, MIME টাইপ ডিটেকশন, এবং মেটাডেটা এক্সট্র্যাকশন। Apache Tika সহজ, দ্রুত, এবং কার্যকরীভাবে ফাইল প্রসেসিংয়ের জন্য একটি শক্তিশালী টুলসেট সরবরাহ করে।


Content added By

Apache Tika একটি শক্তিশালী এবং নমনীয় ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। Maven এবং Gradle হল দুটি জনপ্রিয় বিল্ড টুল যা Java প্রজেক্টে লাইব্রেরি এবং ডিপেনডেন্সি ম্যানেজমেন্টের জন্য ব্যবহৃত হয়। এই টিউটোরিয়ালে আমরা দেখব কীভাবে Maven বা Gradle ব্যবহার করে Apache Tika লাইব্রেরি একটি Java প্রজেক্টে অন্তর্ভুক্ত করা যায়।


1. Maven ব্যবহার করে Apache Tika অন্তর্ভুক্ত করা

Maven ব্যবহার করে Apache Tika অন্তর্ভুক্ত করার জন্য আপনাকে আপনার প্রকল্পের pom.xml ফাইলে Tika লাইব্রেরির ডিপেনডেন্সি যুক্ত করতে হবে। Maven একটি কেন্দ্রীয় ডিপেনডেন্সি রিপোজিটরি থেকে এই লাইব্রেরি ডাউনলোড করে আপনার প্রজেক্টে অন্তর্ভুক্ত করবে।

1.1 Apache Tika ডিপেনডেন্সি অন্তর্ভুক্ত করা

এটি করার জন্য, আপনার pom.xml ফাইলের মধ্যে নিম্নলিখিত ডিপেনডেন্সি যুক্ত করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version> <!-- Use the latest stable version -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version> <!-- Use the latest stable version -->
    </dependency>
</dependencies>

এখানে:

  • tika-core: Apache Tika এর মূল ফিচারগুলির জন্য।
  • tika-parsers: বিভিন্ন ফাইল ফরম্যাটের পার্সিংয়ের জন্য ব্যবহৃত অতিরিক্ত ফিচারগুলির জন্য।

1.2 Maven Repositories:

Maven Centra Repository থেকে লাইব্রেরি স্বয়ংক্রিয়ভাবে ডাউনলোড করা হবে, তাই আপনাকে আর নিজে ম্যানুয়ালি ফাইল ডাউনলোড করতে হবে না।

1.3 Maven কমান্ড দিয়ে ডিপেনডেন্সি আপডেট করা

Maven এর মাধ্যমে ডিপেনডেন্সি যুক্ত করার পর আপনার প্রজেক্টে লাইব্রেরি ডাউনলোড করতে নিম্নলিখিত কমান্ডটি চালান:

mvn clean install

এটি আপনার প্রজেক্টে সব ডিপেনডেন্সি এবং লাইব্রেরি ডাউনলোড করবে।


2. Gradle ব্যবহার করে Apache Tika অন্তর্ভুক্ত করা

Gradle হল একটি জনপ্রিয় বিল্ড টুল যা Maven এর বিকল্প হিসেবে কাজ করে। Gradle ব্যবহার করে Apache Tika অন্তর্ভুক্ত করতে আপনাকে আপনার build.gradle ফাইলে Tika লাইব্রেরির ডিপেনডেন্সি যোগ করতে হবে।

2.1 Apache Tika ডিপেনডেন্সি অন্তর্ভুক্ত করা

build.gradle ফাইলে নিম্নলিখিত ডিপেনডেন্সি যোগ করুন:

dependencies {
    implementation 'org.apache.tika:tika-core:2.5.0' // Use the latest stable version
    implementation 'org.apache.tika:tika-parsers:2.5.0' // Use the latest stable version
}

এখানে:

  • tika-core: Apache Tika এর মূল ফিচারগুলির জন্য।
  • tika-parsers: বিভিন্ন ফাইল ফরম্যাটের পার্সিংয়ের জন্য ব্যবহৃত অতিরিক্ত ফিচারগুলির জন্য।

2.2 Gradle Repositories:

Gradle স্বয়ংক্রিয়ভাবে Maven Central Repository থেকে লাইব্রেরি ডাউনলোড করবে, তাই আলাদাভাবে রিপোজিটরি কনফিগার করার প্রয়োজন নেই।

2.3 Gradle কমান্ড দিয়ে ডিপেনডেন্সি আপডেট করা

Gradle দিয়ে ডিপেনডেন্সি যুক্ত করার পর, আপনার প্রজেক্টে লাইব্রেরি ডাউনলোড করতে নিম্নলিখিত কমান্ডটি চালান:

gradle build

এটি সব ডিপেনডেন্সি ডাউনলোড করবে এবং প্রজেক্টের বিল্ড প্রক্রিয়া সম্পন্ন করবে।


3. Apache Tika ব্যবহার করে XML ডেটা প্রসেস করা (উদাহরণ)

এখন আমরা একটি সাধারণ উদাহরণ দেখব, যেখানে Apache Tika ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।

3.1 Tika ব্যবহার করে PDF ফাইল থেকে টেক্সট এক্সট্র্যাকশন

import org.apache.tika.Tika;

import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            Tika tika = new Tika();
            File file = new File("example.pdf"); // Path to your PDF file

            // Extract text from the PDF file
            String text = tika.parseToString(file);
            System.out.println("Extracted Text: " + text);

            // Detect MIME type
            String mimeType = tika.detect(file);
            System.out.println("MIME Type: " + mimeType);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Output:

Extracted Text: This is an example PDF document.
MIME Type: application/pdf

এখানে, Apache Tika ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এবং MIME type এক্সট্র্যাক্ট করা হচ্ছে।


4. সারাংশ

Apache Tika একটি শক্তিশালী টুল যা Java প্রজেক্টে বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট, মেটাডেটা এবং কনটেন্ট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। এটি Maven বা Gradle এর মাধ্যমে খুব সহজেই অন্তর্ভুক্ত করা যায়, যা ডিপেনডেন্সি ম্যানেজমেন্ট এবং লাইব্রেরি ইনস্টলেশন সহজ করে তোলে। Tika ডকুমেন্ট ফরম্যাট সনাক্তকরণ এবং টেক্সট এক্সট্র্যাকশন, বিশেষ করে ওয়েব স্ক্র্যাপিং, ডেটা প্রোসেসিং, এবং সার্চ ইঞ্জিন সিস্টেমে ব্যবহৃত হয়।


Content added By

Apache Tika একটি ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। আপনি Eclipse অথবা IntelliJ IDEA ব্যবহার করে Apache Tika এর সাথে একটি প্রজেক্ট তৈরি করতে পারেন। এখানে, আমরা দেখাবো কিভাবে Tika লাইব্রেরি Eclipse এবং IntelliJ IDEA তে ব্যবহার করে একটি প্রজেক্ট সেটআপ এবং কোড তৈরি করা যায়।

১. Eclipse তে Maven প্রজেক্ট তৈরি করা

  1. Eclipse IDE খুলুন।
  2. File মেনু থেকে New > Maven Project নির্বাচন করুন।
  3. Create a simple project (skip archetype selection) অপশনটি নির্বাচন করুন এবং Next ক্লিক করুন।
  4. গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
  5. Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

  1. প্রজেক্ট তৈরি হওয়ার পর, pom.xml ফাইলে Apache Tika এর Maven ডিপেনডেন্সি যোগ করুন।
<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>
  1. এরপর, Maven ক্লিন এবং ইনস্টল করুন (Right-click on the project > Maven > Update Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

  1. Run বাটনে ক্লিক করুন বা Ctrl+F11 প্রেস করুন।
  2. এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

IntelliJ IDEA তে Apache Tika প্রজেক্ট তৈরি করা

১. IntelliJ IDEA তে Maven প্রজেক্ট তৈরি করা

  1. IntelliJ IDEA খুলুন এবং Create New Project নির্বাচন করুন।
  2. Maven নির্বাচন করুন এবং Next ক্লিক করুন।
  3. গ্রুপ আইডি এবং আর্টিফ্যাক্ট আইডি দিন (যেমন: com.example এবং tika-project)।
  4. Finish ক্লিক করুন।

২. Maven Dependency যোগ করা

  1. IntelliJ এ pom.xml ফাইলে নিচের Tika ডিপেনডেন্সি যোগ করুন।
<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.5.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.5.0</version>
    </dependency>
</dependencies>
  1. এরপর, Maven রিফ্রেশ করুন (Right-click on the project > Maven > Reload Project)।

৩. Java কোড লিখুন

src/main/java/com/example/TikaExample.java ফাইলে নিম্নলিখিত কোড লিখুন:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Tika object to parse the content
            Tika tika = new Tika();

            // Parse the content of the file
            String content = tika.parseToString(new File("example.pdf"));

            // Print extracted content
            System.out.println("Extracted content from PDF:");
            System.out.println(content);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

এখানে, Tika ব্যবহার করে example.pdf ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হচ্ছে।

৪. প্রজেক্ট চালানো

  1. Run বাটনে ক্লিক করুন বা Shift+F10 প্রেস করুন।
  2. এটি example.pdf ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করে কনসোলে দেখাবে।

সারাংশ

Apache Tika একটি শক্তিশালী এবং ফিচার-প্যাকড লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম। এটি Eclipse এবং IntelliJ IDEA এর মতো জনপ্রিয় Java IDE গুলোতে খুব সহজেই ব্যবহার করা যায়। Maven বা Gradle ব্যবহার করে আপনি সহজে Tika লাইব্রেরি প্রজেক্টে যোগ করতে পারেন এবং আপনার ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারবেন। Tika ব্যবহার করে আপনি পিডিএফ, Word, Excel, HTML ইত্যাদি ফাইল ফরম্যাট থেকে দ্রুত তথ্য বের করতে পারবেন।

Content added By

Apache Tika ব্যবহার করে একটি সহজ Hello Tika Example তৈরি করার জন্য, আমরা একটি Tika ইনস্ট্যান্স তৈরি করে একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি। এই উদাহরণটি Apache Tika এর সহজ ব্যবহারের জন্য একটি প্রাথমিক প্রোগ্রাম হবে।

এখানে একটি সাধারণ উদাহরণ দেওয়া হলো যেখানে Apache Tika একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে। আমরা একটি ফাইল ইনপুট হিসেবে দেব এবং সেই ফাইলের textual content প্রদর্শন করব।

প্রথমে, আপনার Maven প্রজেক্টে Apache Tika লাইব্রেরি যুক্ত করতে হবে। এজন্য আপনার pom.xml ফাইলে এই ডিপেনডেন্সি যোগ করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.0.0</version> <!-- Use the latest version -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.0.0</version> <!-- Use the latest version -->
    </dependency>
</dependencies>

Step 2: Hello Tika Example - Text Extraction

এখন, একটি সিম্পল Java প্রোগ্রাম তৈরি করা হবে যা Apache Tika ব্যবহার করে একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে।

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class HelloTika {

    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();

            // Specify the file (For example: example.txt or example.pdf or example.docx)
            File file = new File("example.txt");

            // Extract text from the file
            String text = tika.parseToString(file);

            // Output the extracted text
            System.out.println("Extracted Text: ");
            System.out.println(text);
        } catch (IOException e) {
            System.err.println("Error reading the file.");
            e.printStackTrace();
        }
    }
}

Step 3: Sample Input File (example.txt)

এখানে একটি সাধারণ টেক্সট ফাইলের উদাহরণ দেওয়া হলো, যা আপনি example.txt নামে সংরক্ষণ করতে পারেন:

example.txt:

Hello, this is an example of text extraction using Apache Tika!
Tika is a toolkit for detecting and extracting metadata and structured text content from various document types.

Step 4: Output

যখন আপনি HelloTika প্রোগ্রামটি চালাবেন, এটি example.txt ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করে এবং কনসোলে প্রিন্ট করবে।

Output:

Extracted Text: 
Hello, this is an example of text extraction using Apache Tika!
Tika is a toolkit for detecting and extracting metadata and structured text content from various document types.

Step 5: What Happens in This Program?

  1. Tika Instance Creation:
    • Tika tika = new Tika(); এই লাইনটি Tika ইনস্ট্যান্স তৈরি করে, যা টেক্সট এক্সট্র্যাক্ট করতে ব্যবহৃত হবে।
  2. File Specification:
    • File file = new File("example.txt"); এখানে আমরা ফাইলটিকে স্পেসিফাই করছি, যা থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।
  3. Text Extraction:
    • String text = tika.parseToString(file); এই লাইনটি Tika ব্যবহার করে ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করে এবং একটি স্ট্রিং হিসেবে সংরক্ষণ করে।
  4. Output:
    • System.out.println(text); এখানে এক্সট্র্যাক্ট করা টেক্সট কনসোলে প্রদর্শিত হয়।

Conclusion

এটি ছিল Apache Tika ব্যবহার করে একটি সহজ Hello Tika Example প্রোগ্রাম। Apache Tika একটি শক্তিশালী টুলকিট যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট, মেটাডেটা এবং স্ট্রাকচারড কন্টেন্ট এক্সট্র্যাক্ট করতে সাহায্য করে। এই প্রোগ্রামের মাধ্যমে, আপনি Tika এর ব্যবহার শুরু করতে পারেন এবং বিভিন্ন ডকুমেন্ট ফরম্যাট থেকে কন্টেন্ট এক্সট্র্যাক্ট করার জন্য এটি ব্যবহার করতে পারবেন।

Content added By

Apache Tika হল একটি শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। এটি বিভিন্ন ধরনের ফাইল, যেমন PDF, Word, Excel, HTML, XML, এবং অডিও/ভিডিও ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে পারে। আপনি Apache Tika এর JAR ফাইল এবং লাইন কমান্ড (Command-Line) টুল ব্যবহার করে সহজেই ফাইলগুলির টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে পারেন।

এই টিউটোরিয়ালে, আমরা Apache Tika এর JAR ফাইল ডাউনলোড এবং কমান্ড লাইন ইন্টারফেস ব্যবহার করে কিভাবে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়, তা আলোচনা করব।


১. Apache Tika JAR ফাইল ডাউনলোড করা

আপনি Apache Tika এর JAR ফাইল এখান থেকে ডাউনলোড করতে পারেন। এর মধ্যে কয়েকটি গুরুত্বপূর্ণ ফাইল রয়েছে:

  • tika-app-x.x.jar: এটি সমস্ত ফিচার সহ একক JAR ফাইল। এই ফাইলটি টেক্সট এবং মেটাডেটা এক্সট্র্যাকশন, বিভিন্ন ফাইল ফরম্যাট সমর্থন করে এবং টুল হিসাবে কমান্ড লাইন থেকে ব্যবহার করা যায়।

JAR ফাইল ডাউনলোড করার পর, আপনি এটি ব্যবহার করতে পারেন নিম্নলিখিতভাবে:

  1. JAR ফাইল ডাউনলোড করুন: https://tika.apache.org/download.html থেকে উপযুক্ত ভার্সনের JAR ফাইল ডাউনলোড করুন।
  2. Tika Jar ফাইল রান করার জন্য কমান্ড: একবার JAR ফাইল ডাউনলোড হলে, আপনি এটি ব্যবহার করতে পারেন।

২. কমান্ড লাইন থেকে Tika ব্যবহার করা

Apache Tika এর কমান্ড লাইন টুল আপনাকে যেকোনো ফাইল থেকে টেক্সট বা মেটাডেটা এক্সট্র্যাক্ট করতে সহায়তা করবে। এটি অত্যন্ত সহজ এবং দ্রুত উপায়।

Tika কমান্ড লাইন টুল ব্যবহার করার জন্য:

  1. কমান্ড লাইন খুলুন (উইন্ডোজে Command Prompt অথবা লিনাক্সে Terminal)।
  2. Tika JAR ফাইল রান করুন: নিচের কমান্ডের মতো tika-app-x.x.jar ফাইলটি চালান, যেখানে x.x আপনার ডাউনলোড করা ভার্সন।

ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --text example.pdf

এটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।

ফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --metadata example.pdf

এই কমান্ডটি example.pdf ফাইলের মেটাডেটা (যেমন, লেখক, শিরোনাম, তৈরি হওয়ার তারিখ) এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।

কোনো নির্দিষ্ট ফাইলের ধরণ চেক করা:

java -jar tika-app-x.x.jar --detect example.pdf

এটি ফাইলের ধরন (যেমন application/pdf) নির্ধারণ করবে এবং কনসোলে প্রদর্শন করবে।

ফাইলের সমস্ত টেক্সট এক্সট্র্যাক্ট করা এবং একটি ফাইলে সংরক্ষণ করা:

java -jar tika-app-x.x.jar --text example.pdf > output.txt

এই কমান্ডটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করবে এবং সেই টেক্সট output.txt ফাইলে সংরক্ষণ করবে।

HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --text example.html

এটি example.html ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।


৩. Tika এর কিছু গুরুত্বপূর্ণ কমান্ড লাইন অপশন

  • --text: টেক্সট এক্সট্র্যাক্ট করে।
  • --metadata: ফাইলের মেটাডেটা এক্সট্র্যাক্ট করে।
  • --detect: ফাইলের ধরন (MIME type) নির্ধারণ করে।
  • --output: টেক্সট বা মেটাডেটা একটি ফাইলে সংরক্ষণ করে।
  • --html: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়।

৪. Java ব্যবহার করে Tika এর ইনস্ট্যান্স রুপে ব্যবহার

আপনি Apache Tika এর JAR ফাইল ব্যবহার করে Java কোডের মাধ্যমে ডকুমেন্ট ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে পারেন।

Java কোড উদাহরণ (টেক্সট এক্সট্র্যাকশন):

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Create a Tika instance
            Tika tika = new Tika();

            // Specify the file
            File file = new File("example.pdf");

            // Extract text from the file
            String text = tika.parseToString(file);

            // Print the extracted text
            System.out.println("Extracted Text: ");
            System.out.println(text);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Java কোড (মেটাডেটা এক্সট্র্যাকশন):

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.FileInputStream;
import java.io.InputStream;

public class TikaMetadataExample {
    public static void main(String[] args) {
        try {
            // Specify the PDF file
            InputStream input = new FileInputStream("example.pdf");

            // Create a metadata object
            Metadata metadata = new Metadata();

            // Create a PDF parser
            Parser parser = new PDFParser();

            // Parse the PDF file to extract text and metadata
            parser.parse(input, new BodyContentHandler(), metadata, null);

            // Print the extracted metadata
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

৫. সারাংশ

Apache Tika একটি শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সহায়তা করে। আপনি Tika JAR ফাইল ডাউনলোড করে কমান্ড লাইন অথবা Java কোডের মাধ্যমে এটি ব্যবহার করতে পারেন। Command-line interface ব্যবহার করে আপনি খুব সহজেই PDF, HTML, Word, Excel এবং অন্যান্য ফরম্যাট থেকে ডেটা এক্সট্র্যাক্ট করতে পারেন, যা কন্টেন্ট ম্যানেজমেন্ট, সার্চ ইন্ডেক্সিং এবং ডেটা অ্যানালাইসিসের জন্য খুবই কার্যকর।


Content added By
Promotion

Are you sure to start over?

Loading...