Tika এর jar ফাইল এবং লাইন কমান্ড ব্যবহার

Apache Tika Setup এবং প্রথম প্রোজেক্ট - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

257

Apache Tika হল একটি শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে ব্যবহৃত হয়। এটি বিভিন্ন ধরনের ফাইল, যেমন PDF, Word, Excel, HTML, XML, এবং অডিও/ভিডিও ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে পারে। আপনি Apache Tika এর JAR ফাইল এবং লাইন কমান্ড (Command-Line) টুল ব্যবহার করে সহজেই ফাইলগুলির টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে পারেন।

এই টিউটোরিয়ালে, আমরা Apache Tika এর JAR ফাইল ডাউনলোড এবং কমান্ড লাইন ইন্টারফেস ব্যবহার করে কিভাবে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়, তা আলোচনা করব।


১. Apache Tika JAR ফাইল ডাউনলোড করা

আপনি Apache Tika এর JAR ফাইল এখান থেকে ডাউনলোড করতে পারেন। এর মধ্যে কয়েকটি গুরুত্বপূর্ণ ফাইল রয়েছে:

  • tika-app-x.x.jar: এটি সমস্ত ফিচার সহ একক JAR ফাইল। এই ফাইলটি টেক্সট এবং মেটাডেটা এক্সট্র্যাকশন, বিভিন্ন ফাইল ফরম্যাট সমর্থন করে এবং টুল হিসাবে কমান্ড লাইন থেকে ব্যবহার করা যায়।

JAR ফাইল ডাউনলোড করার পর, আপনি এটি ব্যবহার করতে পারেন নিম্নলিখিতভাবে:

  1. JAR ফাইল ডাউনলোড করুন: https://tika.apache.org/download.html থেকে উপযুক্ত ভার্সনের JAR ফাইল ডাউনলোড করুন।
  2. Tika Jar ফাইল রান করার জন্য কমান্ড: একবার JAR ফাইল ডাউনলোড হলে, আপনি এটি ব্যবহার করতে পারেন।

২. কমান্ড লাইন থেকে Tika ব্যবহার করা

Apache Tika এর কমান্ড লাইন টুল আপনাকে যেকোনো ফাইল থেকে টেক্সট বা মেটাডেটা এক্সট্র্যাক্ট করতে সহায়তা করবে। এটি অত্যন্ত সহজ এবং দ্রুত উপায়।

Tika কমান্ড লাইন টুল ব্যবহার করার জন্য:

  1. কমান্ড লাইন খুলুন (উইন্ডোজে Command Prompt অথবা লিনাক্সে Terminal)।
  2. Tika JAR ফাইল রান করুন: নিচের কমান্ডের মতো tika-app-x.x.jar ফাইলটি চালান, যেখানে x.x আপনার ডাউনলোড করা ভার্সন।

ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --text example.pdf

এটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।

ফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --metadata example.pdf

এই কমান্ডটি example.pdf ফাইলের মেটাডেটা (যেমন, লেখক, শিরোনাম, তৈরি হওয়ার তারিখ) এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।

কোনো নির্দিষ্ট ফাইলের ধরণ চেক করা:

java -jar tika-app-x.x.jar --detect example.pdf

এটি ফাইলের ধরন (যেমন application/pdf) নির্ধারণ করবে এবং কনসোলে প্রদর্শন করবে।

ফাইলের সমস্ত টেক্সট এক্সট্র্যাক্ট করা এবং একটি ফাইলে সংরক্ষণ করা:

java -jar tika-app-x.x.jar --text example.pdf > output.txt

এই কমান্ডটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করবে এবং সেই টেক্সট output.txt ফাইলে সংরক্ষণ করবে।

HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা:

java -jar tika-app-x.x.jar --text example.html

এটি example.html ফাইল থেকে সমস্ত টেক্সট এক্সট্র্যাক্ট করে কনসোলে প্রদর্শন করবে।


৩. Tika এর কিছু গুরুত্বপূর্ণ কমান্ড লাইন অপশন

  • --text: টেক্সট এক্সট্র্যাক্ট করে।
  • --metadata: ফাইলের মেটাডেটা এক্সট্র্যাক্ট করে।
  • --detect: ফাইলের ধরন (MIME type) নির্ধারণ করে।
  • --output: টেক্সট বা মেটাডেটা একটি ফাইলে সংরক্ষণ করে।
  • --html: HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে ব্যবহৃত হয়।

৪. Java ব্যবহার করে Tika এর ইনস্ট্যান্স রুপে ব্যবহার

আপনি Apache Tika এর JAR ফাইল ব্যবহার করে Java কোডের মাধ্যমে ডকুমেন্ট ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে পারেন।

Java কোড উদাহরণ (টেক্সট এক্সট্র্যাকশন):

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try {
            // Create a Tika instance
            Tika tika = new Tika();

            // Specify the file
            File file = new File("example.pdf");

            // Extract text from the file
            String text = tika.parseToString(file);

            // Print the extracted text
            System.out.println("Extracted Text: ");
            System.out.println(text);

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Java কোড (মেটাডেটা এক্সট্র্যাকশন):

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.FileInputStream;
import java.io.InputStream;

public class TikaMetadataExample {
    public static void main(String[] args) {
        try {
            // Specify the PDF file
            InputStream input = new FileInputStream("example.pdf");

            // Create a metadata object
            Metadata metadata = new Metadata();

            // Create a PDF parser
            Parser parser = new PDFParser();

            // Parse the PDF file to extract text and metadata
            parser.parse(input, new BodyContentHandler(), metadata, null);

            // Print the extracted metadata
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

৫. সারাংশ

Apache Tika একটি শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সহায়তা করে। আপনি Tika JAR ফাইল ডাউনলোড করে কমান্ড লাইন অথবা Java কোডের মাধ্যমে এটি ব্যবহার করতে পারেন। Command-line interface ব্যবহার করে আপনি খুব সহজেই PDF, HTML, Word, Excel এবং অন্যান্য ফরম্যাট থেকে ডেটা এক্সট্র্যাক্ট করতে পারেন, যা কন্টেন্ট ম্যানেজমেন্ট, সার্চ ইন্ডেক্সিং এবং ডেটা অ্যানালাইসিসের জন্য খুবই কার্যকর।


Content added By
Promotion

Are you sure to start over?

Loading...