উদাহরণ সহ Tika CLI ব্যবহার

Tika CLI (Command Line Interface) - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

319

Apache Tika এর Command Line Interface (CLI) ব্যবহার করে বিভিন্ন ডকুমেন্ট থেকে Content (টেক্সট) এবং Metadata সহজেই এক্সট্রাক্ট করা যায়। CLI ব্যবহার করার জন্য প্রোগ্রামিং জ্ঞান প্রয়োজন হয় না, তাই এটি সহজ এবং দ্রুত সমাধান।


Tika CLI সেটআপ

১. Apache Tika এর tika-app.jar ডাউনলোড করুন:
Apache Tika ডাউনলোড পেজ

২. Tika CLI চালানোর জন্য আপনার সিস্টেমে Java ইনস্টল থাকতে হবে।

৩. Tika CLI চালানোর কমান্ড:

java -jar tika-app-x.x.jar --help

(x.x হলো Tika এর ভার্সন নাম্বার)


Tika CLI এর মূল কমান্ড

১. Content Extraction (টেক্সট এক্সট্রাকশন)

একটি ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে নিচের কমান্ডটি ব্যবহার করুন:

java -jar tika-app-x.x.jar -t example.pdf

Output:

This is a sample PDF file.  
It contains some text for demonstration purposes.

২. Metadata Extraction (মেটাডেটা এক্সট্রাকশন)

ফাইলের Metadata সংগ্রহ করতে -m ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-app-x.x.jar -m example.pdf

Output:

Content-Type: application/pdf  
Creation-Date: 2023-01-01T10:00:00Z  
Last-Modified: 2023-01-02T12:00:00Z  
Author: John Doe  
Title: Sample PDF Document  

৩. Language Detection (ভাষা শনাক্তকরণ)

টেক্সট ফাইলের ভাষা শনাক্ত করতে:

java -jar tika-app-x.x.jar -l example.txt

Output:

en

(এটি নির্দেশ করে যে ভাষাটি English)


৪. XHTML আউটপুট তৈরি করা

Tika ডকুমেন্ট প্রসেস করে XHTML ফরম্যাটে আউটপুট দিতে পারে:

java -jar tika-app-x.x.jar -x example.pdf

Output:

<html xmlns="http://www.w3.org/1999/xhtml">
<head><title>Sample PDF Document</title></head>
<body>
<p>This is a sample PDF file.</p>
</body>
</html>

৫. Recursive Processing (ফোল্ডারের সকল ফাইল প্রসেস করা)

একটি ফোল্ডারের সব ফাইল প্রসেস করতে --recursive ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-app-x.x.jar --recursive -t /path/to/folder

৬. Output File এ সংরক্ষণ

টেক্সট এক্সট্রাকশন এর আউটপুট ফাইলে সংরক্ষণ করতে > ব্যবহার করুন:

java -jar tika-app-x.x.jar -t example.pdf > output.txt

৭. MIME টাইপ শনাক্তকরণ

ফাইলের MIME টাইপ শনাক্ত করতে:

java -jar tika-app-x.x.jar -d example.pdf

Output:

application/pdf

উদাহরণ: Tika CLI দিয়ে কাজ করা

একটি PDF ফাইলের Content এবং Metadata সংগ্রহ করে আউটপুট ফাইলে সংরক্ষণ করার উদাহরণ:

# Content Extraction
java -jar tika-app-x.x.jar -t example.pdf > content.txt

# Metadata Extraction
java -jar tika-app-x.x.jar -m example.pdf > metadata.txt

Tika CLI এর সুবিধা

১. সহজে ব্যবহারযোগ্য: Command Line ব্যবহার করে দ্রুত ডেটা এক্সট্রাক্ট করা যায়।
২. বহু ফরম্যাট সাপোর্ট: PDF, DOCX, PPTX, HTML, ZIP, ইমেজ ফাইল এবং আরও অনেক ধরনের ফরম্যাট।
৩. বাল্ক প্রসেসিং: একটি ফোল্ডারের সকল ফাইল একসাথে প্রসেস করা যায়।
৪. অতিরিক্ত সফটওয়্যার প্রয়োজন নেই: শুধুমাত্র Java Runtime এবং tika-app.jar ফাইলই যথেষ্ট।


Apache Tika এর CLI ব্যবহার করে আপনি দ্রুত এবং দক্ষতার সাথে বিভিন্ন ধরনের ডকুমেন্ট প্রসেস করে Content এবং Metadata সংগ্রহ করতে পারবেন। এটি প্রোগ্রামিং ছাড়াই সহজ সমাধান দেয়।

Content added By
Promotion

Are you sure to start over?

Loading...