Tika CLI (Command Line Interface)

Java Technologies - অ্যাপাচি টিকা (Apache Tika)

106

অ্যাপাচি টিকা (Apache Tika) এর Command Line Interface (CLI) একটি সহজ উপায়ে বিভিন্ন ফাইল থেকে টেক্সট এবং মেটাডাটা এক্সট্র্যাক্ট করার সুযোগ করে দেয়। এটি টিকা লাইব্রেরির একটি লাইটওয়েট টুল যা Java Runtime Environment (JRE) ব্যবহার করে কমান্ড লাইনের মাধ্যমে দ্রুত প্রসেসিং করতে পারে।

Tika CLI ইন্সটলেশন

Tika CLI ব্যবহার করতে আপনাকে Tika-app JAR ফাইল ডাউনলোড করতে হবে।

Apache Tika Downloads পেজে যান।
tika-app-x.x.jar (শেষ সংস্করণ অনুযায়ী) ডাউনলোড করুন।

JAR ফাইলটি ডাউনলোড হওয়ার পর, এটি কমান্ড লাইনে ব্যবহার করা যাবে।

Tika CLI ব্যবহার করার পদ্ধতি

Tika CLI চালানোর কমান্ড:

java -jar tika-app-x.x.jar [options] file

বিকল্পগুলো (Options):

-t: কন্টেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা।
-m: মেটাডাটা এক্সট্র্যাক্ট করা।
-l: ফাইলের ভাষা শনাক্ত করা।
-j: JSON আউটপুট।
-h: সাহায্যের জন্য কমান্ড।

উদাহরণসমূহ

১. টেক্সট এক্সট্র্যাকশন

ফাইল থেকে শুধুমাত্র টেক্সট এক্সট্র্যাক্ট করার জন্য নিচের কমান্ড ব্যবহার করুন:

java -jar tika-app-x.x.jar -t example.pdf

আউটপুট:

This is an example text extracted from the PDF file.

২. মেটাডাটা এক্সট্র্যাকশন

ফাইল থেকে মেটাডাটা সংগ্রহ করতে -m অপশন ব্যবহার করুন:

java -jar tika-app-x.x.jar -m example.pdf

আউটপুট:

Content-Type: application/pdf
Author: John Doe
Creation-Date: 2024-06-16T12:00:00Z
Last-Modified: 2024-06-16T12:30:00Z
Content-Length: 12345

৩. ভাষা শনাক্তকরণ

ফাইলের ভাষা শনাক্ত করতে -l অপশন ব্যবহার করুন:

java -jar tika-app-x.x.jar -l example.txt

আউটপুট:

en (English)

৪. JSON আউটপুট

ফাইলের টেক্সট এবং মেটাডাটা JSON ফরম্যাটে এক্সট্র্যাক্ট করতে -j অপশন ব্যবহার করুন:

java -jar tika-app-x.x.jar -j example.pdf

আউটপুট:

{
  "Content-Type": "application/pdf",
  "Author": "John Doe",
  "Creation-Date": "2024-06-16T12:00:00Z",
  "Content-Length": 12345,
  "Text": "This is an example text extracted from the PDF file."
}

৫. সমস্ত তথ্য এক্সট্র্যাকশন

একটি কমান্ডের মাধ্যমে ফাইলের সমস্ত তথ্য (টেক্সট ও মেটাডাটা) এক্সট্র্যাক্ট করতে চাইলে:

java -jar tika-app-x.x.jar example.pdf

Tika CLI এর সুবিধা

সহজ ব্যবহার: কমান্ড লাইনে দ্রুত কাজ করা যায়।
নির্ভরযোগ্য টেক্সট এক্সট্র্যাকশন: বিভিন্ন ধরনের ফরম্যাট সাপোর্ট করে।
মেটাডাটা প্রসেসিং: ফাইল সম্পর্কিত গুরুত্বপূর্ণ তথ্য সংগ্রহ করা যায়।
JSON আউটপুট: ডেটা প্রসেসিং টুলের জন্য JSON ফরম্যাটে আউটপুট প্রদান করে।

ব্যবহারক্ষেত্র

ডেটা স্ক্যানিং: বড় আকারের ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা।
মেটাডাটা অ্যানালাইসিস: ফাইল সম্পর্কিত তথ্য বিশ্লেষণ।
ল্যাঙ্গুয়েজ ডিটেকশন: ফাইলের ভাষা শনাক্ত করা।
বাল্ক প্রসেসিং: স্ক্রিপ্টের মাধ্যমে একাধিক ফাইল প্রসেস করা।

সারাংশ:
Tika CLI একটি সহজ ও শক্তিশালী টুল, যা কমান্ড লাইনের মাধ্যমে ফাইলের টেক্সট এবং মেটাডাটা দ্রুত এক্সট্র্যাক্ট করতে ব্যবহার করা যায়। এটি বিশেষভাবে উপকারী বড় আকারের ডেটাসেট বা ফাইল প্রসেসিংয়ের জন্য।

Content added By

Md Zahid Hasan

Tika CLI কি এবং কেন এটি ব্যবহার করা হয়?

Apache Tika CLI (Command Line Interface) হলো Apache Tika-এর একটি সহজ এবং দ্রুত কমান্ড লাইন টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে ব্যবহার করা হয়। এটি Tika-এর শক্তিশালী ফিচারগুলোকে কোনো প্রোগ্রামিং ছাড়াই সরাসরি কমান্ড লাইন থেকে অ্যাক্সেস করার সুযোগ দেয়।

Tika CLI কি?

Tika CLI মূলত Tika App নামে পরিচিত একটি .jar ফাইল। এই JAR ফাইল রান করে বিভিন্ন ফাইল প্রসেসিং করা যায়। এটি সহজ এবং বহুমুখী, বিশেষ করে যারা প্রোগ্রামিং না জানলেও দ্রুত ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে চান।

ফাইলের ধরন:

PDF
Word (DOC/DOCX)
Excel (XLS/XLSX)
PowerPoint (PPT/PPTX)
ইমেজ (JPEG, PNG)
MP3/MP4
HTML/XML

Tika CLI কেন ব্যবহার করা হয়?

সহজ এবং দ্রুত: Tika CLI কোনো প্রোগ্রামিং ছাড়াই ব্যবহার করা যায়।
বহুমুখী: বিভিন্ন ফাইল ফরম্যাট সাপোর্ট করে।
স্ক্রিপ্টিং: এটি স্ক্রিপ্টে সহজেই ইন্টিগ্রেট করা যায়।
ডেটা প্রসেসিং: ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করে বিশ্লেষণ করা যায়।

Tika CLI কিভাবে কাজ করে?

Tika CLI রান করার জন্য tika-app-x.x.jar ফাইল প্রয়োজন হয়।

১. Tika CLI ডাউনলোড করা

Apache Tika-এর .jar ফাইল নিচের লিংক থেকে ডাউনলোড করা যায়:

Apache Tika Downloads

ডাউনলোড করার পর কমান্ড লাইন থেকে JAR ফাইল রান করা হয়।

Tika CLI এর কমান্ড উদাহরণ

১. ফাইল থেকে টেক্সট এক্সট্রাক্ট করা

কমান্ড:

java -jar tika-app-x.x.jar -t example.pdf

ব্যাখ্যা:

-t ফ্ল্যাগ: টেক্সট এক্সট্রাক্ট করার জন্য ব্যবহৃত হয়।
Output: ফাইলের টেক্সট টার্মিনালে প্রিন্ট হবে।

২. ফাইল থেকে মেটাডেটা এক্সট্রাক্ট করা

কমান্ড:

java -jar tika-app-x.x.jar -m example.pdf

ব্যাখ্যা:

-m ফ্ল্যাগ: ফাইলের মেটাডেটা এক্সট্রাক্ট করে।
Output: ফাইলের মেটাডেটা যেমন লেখকের নাম, তৈরি হওয়ার তারিখ, ফাইল টাইপ প্রিন্ট হবে।

৩. ফাইলের MIME টাইপ সনাক্ত করা

কমান্ড:

java -jar tika-app-x.x.jar -d example.pdf

ব্যাখ্যা:

-d ফ্ল্যাগ: ফাইলের MIME টাইপ (যেমন application/pdf) সনাক্ত করে।
Output: ফাইলের টাইপ (MIME Type) টার্মিনালে দেখানো হবে।

৪. ফোল্ডার প্রসেস করা

ফোল্ডারের সব ফাইল প্রসেস করতে Tika CLI ব্যবহার করা যায়।

কমান্ড:

java -jar tika-app-x.x.jar -t /path/to/directory/*

ব্যাখ্যা:
এই কমান্ডে নির্দিষ্ট ফোল্ডারের সব ফাইল থেকে টেক্সট এক্সট্রাক্ট করা হবে।

৫. HTML ফরম্যাটে আউটপুট তৈরি করা

কমান্ড:

java -jar tika-app-x.x.jar -h example.pdf

ব্যাখ্যা:

-h ফ্ল্যাগ: HTML ফরম্যাটে আউটপুট তৈরি করে।
Output: HTML আউটপুট টার্মিনালে প্রিন্ট হবে।

Tika CLI এর সুবিধা

ইজি টু ইউজ: কোনো কোডিং জ্ঞান ছাড়াই ব্যবহারযোগ্য।
বিভিন্ন ফরম্যাট সাপোর্ট: বিভিন্ন ধরনের ফাইল থেকে ডেটা এক্সট্রাক্ট করা যায়।
স্ক্রিপ্টে ইন্টিগ্রেশন: বড় স্কেল ডেটা প্রসেসিংয়ের জন্য সহজেই ব্যাচ প্রসেসিং করা যায়।
ফ্লেক্সিবিলিটি: আউটপুট টেক্সট, মেটাডেটা, অথবা HTML ফরম্যাটে পেতে পারেন।

সারসংক্ষেপ

Apache Tika CLI একটি কমান্ড লাইন টুল যা Tika-এর সব ফিচার সহজে এবং দ্রুত ব্যবহার করার সুযোগ দেয়। এটি ফাইল থেকে টেক্সট, মেটাডেটা এবং MIME টাইপ সনাক্ত করতে পারে এবং ব্যাচ প্রসেসিংয়ের জন্য আদর্শ। বিশেষ করে বিগ ডেটা প্রসেসিং বা ডকুমেন্ট অ্যানালাইসিসের ক্ষেত্রে Tika CLI খুবই কার্যকর।

Content added By

Md Zahid Hasan

Tika CLI দিয়ে ফাইলের ধরন, টেক্সট, এবং মেটাডাটা নির্ধারণ করা

অ্যাপাচি টিকা (Apache Tika)-এর Command Line Interface (CLI) একটি সহজ পদ্ধতি যা ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডাটা এক্সট্রাক্ট করা যায়। CLI ব্যবহার করলে প্রোগ্রামিং ভাষার প্রয়োজন হয় না, এটি দ্রুত এবং সরাসরি কমান্ড লাইন থেকে কাজ করতে পারে।

Tika CLI সেটআপ

Tika CLI চালানোর জন্য প্রথমে tika-app JAR ফাইল ডাউনলোড করতে হবে। এটি Apache Tika Official Website থেকে পাওয়া যায়।

Tika CLI চালু করার কমান্ড:

java -jar tika-app-x.x.jar

এখানে x.x হল Tika-এর ভার্সন নাম্বার।

১. ফাইলের ধরন (File Type) নির্ধারণ

Tika CLI দিয়ে সহজে একটি ফাইলের ধরন (MIME Type) নির্ধারণ করা যায়।

Command:

java -jar tika-app-x.x.jar -d example.pdf

Output:

application/pdf

এখানে -d ফ্ল্যাগ ফাইলের MIME Type সনাক্ত করার জন্য ব্যবহৃত হয়।

২. ফাইল থেকে টেক্সট এক্সট্রাকশন

ফাইল থেকে কাঁচা টেক্সট এক্সট্রাক্ট করতে Tika CLI ব্যবহার করা যায়।

Command:

java -jar tika-app-x.x.jar -t example.pdf

Output:

This is a sample PDF document.
It contains text data for testing purposes.

Explanation:

-t ফ্ল্যাগ Text Extraction নির্দেশ করে।
Tika ফাইলের ভিতরের টেক্সট কন্টেন্ট প্রসেস করে সরাসরি কমান্ড লাইনে আউটপুট দেয়।

৩. ফাইলের মেটাডাটা (Metadata) নির্ধারণ

ফাইল থেকে মেটাডাটা (Metadata) নির্ধারণ করার জন্য -m ফ্ল্যাগ ব্যবহার করা হয়।

Command:

java -jar tika-app-x.x.jar -m example.pdf

Output:

Content-Type: application/pdf
Last-Modified: 2024-06-01T10:45:00Z
X-Parsed-By: org.apache.tika.parser.pdf.PDFParser
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z

Explanation:

-m ফ্ল্যাগ মেটাডাটা প্রসেস করে দেখায়।
এখানে Author, Title, Creation-Date এর মতো তথ্য নির্ধারণ করা হয়েছে।

৪. টেক্সট এবং মেটাডাটা একসাথে প্রসেস করা

যদি একই সাথে ফাইলের টেক্সট এবং মেটাডাটা দেখতে চান, তাহলে নিচের কমান্ড ব্যবহার করুন।

Command:

java -jar tika-app-x.x.jar -J example.pdf

Output:

Content-Type: application/pdf
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z

Extracted Text:
This is a sample PDF document.
It contains text data for testing purposes.

Explanation:

-J ফ্ল্যাগটি টেক্সট এবং মেটাডাটা একসাথে আউটপুট দেয়।

৫. ব্যাচ প্রসেসিং (Multiple Files)

একসাথে একাধিক ফাইল প্রসেস করতে Tika CLI ব্যবহার করা যায়।

Command:

java -jar tika-app-x.x.jar -t *.pdf > output.txt

Explanation:

*.pdf নির্দেশ করে সব .pdf ফাইল প্রসেস করা হবে।
আউটপুট output.txt ফাইলে সংরক্ষণ করা হবে।

৬. HTML বা Structured Output

ফাইলের টেক্সট বা মেটাডাটা HTML বা অন্য ফরম্যাটে দেখতে চাইলে নিচের কমান্ড ব্যবহার করুন।

Command:

java -jar tika-app-x.x.jar -h example.docx

Output:

<html>
<head><title>Sample Document</title></head>
<body>
<p>This is a sample Word document.</p>
</body>
</html>

Explanation:

-h ফ্ল্যাগ HTML ফরম্যাটে আউটপুট প্রদান করে।

CLI কমান্ড সংক্ষেপ

ফ্ল্যাগ	ব্যাখ্যা
`-d`	ফাইলের ধরন (MIME Type) নির্ধারণ
`-t`	টেক্সট এক্সট্রাকশন
`-m`	মেটাডাটা নির্ধারণ
`-J`	টেক্সট এবং মেটাডাটা একসাথে দেখানো
`-h`	HTML আউটপুট

সারাংশ

Apache Tika CLI একটি সহজ এবং কার্যকর টুল যা ব্যবহার করে দ্রুত ফাইলের ধরন, টেক্সট কন্টেন্ট, এবং মেটাডাটা নির্ধারণ করা যায়। এটি কমান্ড লাইন থেকে সহজেই প্রসেসিং এবং অটোমেশন কাজে ব্যবহার করা যায়। বড় আকারের ডেটা প্রসেস করার জন্য Tika CLI একটি শক্তিশালী এবং ব্যবহার উপযোগী সমাধান।

Content added By

Md Zahid Hasan

উদাহরণ সহ Tika CLI ব্যবহার

Apache Tika এর Command Line Interface (CLI) ব্যবহার করে বিভিন্ন ডকুমেন্ট থেকে Content (টেক্সট) এবং Metadata সহজেই এক্সট্রাক্ট করা যায়। CLI ব্যবহার করার জন্য প্রোগ্রামিং জ্ঞান প্রয়োজন হয় না, তাই এটি সহজ এবং দ্রুত সমাধান।

Tika CLI সেটআপ

১. Apache Tika এর tika-app.jar ডাউনলোড করুন:
Apache Tika ডাউনলোড পেজ

২. Tika CLI চালানোর জন্য আপনার সিস্টেমে Java ইনস্টল থাকতে হবে।

৩. Tika CLI চালানোর কমান্ড:

java -jar tika-app-x.x.jar --help

(x.x হলো Tika এর ভার্সন নাম্বার)

Tika CLI এর মূল কমান্ড

১. Content Extraction (টেক্সট এক্সট্রাকশন)

একটি ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে নিচের কমান্ডটি ব্যবহার করুন:

java -jar tika-app-x.x.jar -t example.pdf

Output:

This is a sample PDF file.  
It contains some text for demonstration purposes.

২. Metadata Extraction (মেটাডেটা এক্সট্রাকশন)

ফাইলের Metadata সংগ্রহ করতে -m ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-app-x.x.jar -m example.pdf

Output:

Content-Type: application/pdf  
Creation-Date: 2023-01-01T10:00:00Z  
Last-Modified: 2023-01-02T12:00:00Z  
Author: John Doe  
Title: Sample PDF Document

৩. Language Detection (ভাষা শনাক্তকরণ)

টেক্সট ফাইলের ভাষা শনাক্ত করতে:

java -jar tika-app-x.x.jar -l example.txt

Output:

en

(এটি নির্দেশ করে যে ভাষাটি English)

৪. XHTML আউটপুট তৈরি করা

Tika ডকুমেন্ট প্রসেস করে XHTML ফরম্যাটে আউটপুট দিতে পারে:

java -jar tika-app-x.x.jar -x example.pdf

Output:

<html xmlns="http://www.w3.org/1999/xhtml">
<head><title>Sample PDF Document</title></head>
<body>
<p>This is a sample PDF file.</p>
</body>
</html>

৫. Recursive Processing (ফোল্ডারের সকল ফাইল প্রসেস করা)

একটি ফোল্ডারের সব ফাইল প্রসেস করতে --recursive ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-app-x.x.jar --recursive -t /path/to/folder

৬. Output File এ সংরক্ষণ

টেক্সট এক্সট্রাকশন এর আউটপুট ফাইলে সংরক্ষণ করতে > ব্যবহার করুন:

java -jar tika-app-x.x.jar -t example.pdf > output.txt

৭. MIME টাইপ শনাক্তকরণ

ফাইলের MIME টাইপ শনাক্ত করতে:

java -jar tika-app-x.x.jar -d example.pdf

Output:

application/pdf

উদাহরণ: Tika CLI দিয়ে কাজ করা

একটি PDF ফাইলের Content এবং Metadata সংগ্রহ করে আউটপুট ফাইলে সংরক্ষণ করার উদাহরণ:

# Content Extraction
java -jar tika-app-x.x.jar -t example.pdf > content.txt

# Metadata Extraction
java -jar tika-app-x.x.jar -m example.pdf > metadata.txt

Tika CLI এর সুবিধা

১. সহজে ব্যবহারযোগ্য: Command Line ব্যবহার করে দ্রুত ডেটা এক্সট্রাক্ট করা যায়।
২. বহু ফরম্যাট সাপোর্ট: PDF, DOCX, PPTX, HTML, ZIP, ইমেজ ফাইল এবং আরও অনেক ধরনের ফরম্যাট।
৩. বাল্ক প্রসেসিং: একটি ফোল্ডারের সকল ফাইল একসাথে প্রসেস করা যায়।
৪. অতিরিক্ত সফটওয়্যার প্রয়োজন নেই: শুধুমাত্র Java Runtime এবং tika-app.jar ফাইলই যথেষ্ট।

Apache Tika এর CLI ব্যবহার করে আপনি দ্রুত এবং দক্ষতার সাথে বিভিন্ন ধরনের ডকুমেন্ট প্রসেস করে Content এবং Metadata সংগ্রহ করতে পারবেন। এটি প্রোগ্রামিং ছাড়াই সহজ সমাধান দেয়।

Content added By

Md Zahid Hasan

Apache Tika এর পরিচিতি Apache Tika Setup এবং প্রথম প্রোজেক্ট Apache Tika এর MIME Type Detection File Type এবং Content Detection Apache Tika দিয়ে Text Extraction

Tika CLI (Command Line Interface)

Tika CLI ইন্সটলেশন

Tika CLI ব্যবহার করার পদ্ধতি

উদাহরণসমূহ

১. টেক্সট এক্সট্র্যাকশন

২. মেটাডাটা এক্সট্র্যাকশন

৩. ভাষা শনাক্তকরণ

৪. JSON আউটপুট

৫. সমস্ত তথ্য এক্সট্র্যাকশন

Tika CLI এর সুবিধা

ব্যবহারক্ষেত্র

Tika CLI কি এবং কেন এটি ব্যবহার করা হয়?

Tika CLI কি?

Tika CLI কেন ব্যবহার করা হয়?

Tika CLI কিভাবে কাজ করে?

১. Tika CLI ডাউনলোড করা

Tika CLI এর কমান্ড উদাহরণ

১. ফাইল থেকে টেক্সট এক্সট্রাক্ট করা

২. ফাইল থেকে মেটাডেটা এক্সট্রাক্ট করা

৩. ফাইলের MIME টাইপ সনাক্ত করা

৪. ফোল্ডার প্রসেস করা

৫. HTML ফরম্যাটে আউটপুট তৈরি করা

Tika CLI এর সুবিধা

সারসংক্ষেপ

Tika CLI দিয়ে ফাইলের ধরন, টেক্সট, এবং মেটাডাটা নির্ধারণ করা

Tika CLI সেটআপ

১. ফাইলের ধরন (File Type) নির্ধারণ

২. ফাইল থেকে টেক্সট এক্সট্রাকশন

৩. ফাইলের মেটাডাটা (Metadata) নির্ধারণ

৪. টেক্সট এবং মেটাডাটা একসাথে প্রসেস করা

৫. ব্যাচ প্রসেসিং (Multiple Files)

৬. HTML বা Structured Output

CLI কমান্ড সংক্ষেপ

সারাংশ

উদাহরণ সহ Tika CLI ব্যবহার

Tika CLI সেটআপ

Tika CLI এর মূল কমান্ড

১. Content Extraction (টেক্সট এক্সট্রাকশন)

২. Metadata Extraction (মেটাডেটা এক্সট্রাকশন)

৩. Language Detection (ভাষা শনাক্তকরণ)

৪. XHTML আউটপুট তৈরি করা

৫. Recursive Processing (ফোল্ডারের সকল ফাইল প্রসেস করা)

৬. Output File এ সংরক্ষণ

৭. MIME টাইপ শনাক্তকরণ

উদাহরণ: Tika CLI দিয়ে কাজ করা

Tika CLI এর সুবিধা

All Notifications

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Lorem ipsum dolor sit amet consectetur adipisicing elit. Eaque, officia!

Promotion