অ্যাপাচি টিকা (Apache Tika) এর Command Line Interface (CLI) একটি সহজ উপায়ে বিভিন্ন ফাইল থেকে টেক্সট এবং মেটাডাটা এক্সট্র্যাক্ট করার সুযোগ করে দেয়। এটি টিকা লাইব্রেরির একটি লাইটওয়েট টুল যা Java Runtime Environment (JRE) ব্যবহার করে কমান্ড লাইনের মাধ্যমে দ্রুত প্রসেসিং করতে পারে।
Tika CLI ব্যবহার করতে আপনাকে Tika-app JAR ফাইল ডাউনলোড করতে হবে।
JAR ফাইলটি ডাউনলোড হওয়ার পর, এটি কমান্ড লাইনে ব্যবহার করা যাবে।
Tika CLI চালানোর কমান্ড:
java -jar tika-app-x.x.jar [options] file
বিকল্পগুলো (Options):
-t
: কন্টেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা।-m
: মেটাডাটা এক্সট্র্যাক্ট করা।-l
: ফাইলের ভাষা শনাক্ত করা।-j
: JSON আউটপুট।-h
: সাহায্যের জন্য কমান্ড।ফাইল থেকে শুধুমাত্র টেক্সট এক্সট্র্যাক্ট করার জন্য নিচের কমান্ড ব্যবহার করুন:
java -jar tika-app-x.x.jar -t example.pdf
আউটপুট:
This is an example text extracted from the PDF file.
ফাইল থেকে মেটাডাটা সংগ্রহ করতে -m
অপশন ব্যবহার করুন:
java -jar tika-app-x.x.jar -m example.pdf
আউটপুট:
Content-Type: application/pdf
Author: John Doe
Creation-Date: 2024-06-16T12:00:00Z
Last-Modified: 2024-06-16T12:30:00Z
Content-Length: 12345
ফাইলের ভাষা শনাক্ত করতে -l
অপশন ব্যবহার করুন:
java -jar tika-app-x.x.jar -l example.txt
আউটপুট:
en (English)
ফাইলের টেক্সট এবং মেটাডাটা JSON ফরম্যাটে এক্সট্র্যাক্ট করতে -j
অপশন ব্যবহার করুন:
java -jar tika-app-x.x.jar -j example.pdf
আউটপুট:
{
"Content-Type": "application/pdf",
"Author": "John Doe",
"Creation-Date": "2024-06-16T12:00:00Z",
"Content-Length": 12345,
"Text": "This is an example text extracted from the PDF file."
}
একটি কমান্ডের মাধ্যমে ফাইলের সমস্ত তথ্য (টেক্সট ও মেটাডাটা) এক্সট্র্যাক্ট করতে চাইলে:
java -jar tika-app-x.x.jar example.pdf
সারাংশ:
Tika CLI একটি সহজ ও শক্তিশালী টুল, যা কমান্ড লাইনের মাধ্যমে ফাইলের টেক্সট এবং মেটাডাটা দ্রুত এক্সট্র্যাক্ট করতে ব্যবহার করা যায়। এটি বিশেষভাবে উপকারী বড় আকারের ডেটাসেট বা ফাইল প্রসেসিংয়ের জন্য।
Apache Tika CLI (Command Line Interface) হলো Apache Tika-এর একটি সহজ এবং দ্রুত কমান্ড লাইন টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে ব্যবহার করা হয়। এটি Tika-এর শক্তিশালী ফিচারগুলোকে কোনো প্রোগ্রামিং ছাড়াই সরাসরি কমান্ড লাইন থেকে অ্যাক্সেস করার সুযোগ দেয়।
Tika CLI মূলত Tika App নামে পরিচিত একটি .jar
ফাইল। এই JAR ফাইল রান করে বিভিন্ন ফাইল প্রসেসিং করা যায়। এটি সহজ এবং বহুমুখী, বিশেষ করে যারা প্রোগ্রামিং না জানলেও দ্রুত ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে চান।
ফাইলের ধরন:
Tika CLI রান করার জন্য tika-app-x.x.jar
ফাইল প্রয়োজন হয়।
Apache Tika-এর .jar
ফাইল নিচের লিংক থেকে ডাউনলোড করা যায়:
ডাউনলোড করার পর কমান্ড লাইন থেকে JAR ফাইল রান করা হয়।
কমান্ড:
java -jar tika-app-x.x.jar -t example.pdf
ব্যাখ্যা:
-t
ফ্ল্যাগ: টেক্সট এক্সট্রাক্ট করার জন্য ব্যবহৃত হয়।কমান্ড:
java -jar tika-app-x.x.jar -m example.pdf
ব্যাখ্যা:
-m
ফ্ল্যাগ: ফাইলের মেটাডেটা এক্সট্রাক্ট করে।কমান্ড:
java -jar tika-app-x.x.jar -d example.pdf
ব্যাখ্যা:
-d
ফ্ল্যাগ: ফাইলের MIME টাইপ (যেমন application/pdf
) সনাক্ত করে।ফোল্ডারের সব ফাইল প্রসেস করতে Tika CLI ব্যবহার করা যায়।
কমান্ড:
java -jar tika-app-x.x.jar -t /path/to/directory/*
ব্যাখ্যা:
এই কমান্ডে নির্দিষ্ট ফোল্ডারের সব ফাইল থেকে টেক্সট এক্সট্রাক্ট করা হবে।
কমান্ড:
java -jar tika-app-x.x.jar -h example.pdf
ব্যাখ্যা:
-h
ফ্ল্যাগ: HTML ফরম্যাটে আউটপুট তৈরি করে।Apache Tika CLI একটি কমান্ড লাইন টুল যা Tika-এর সব ফিচার সহজে এবং দ্রুত ব্যবহার করার সুযোগ দেয়। এটি ফাইল থেকে টেক্সট, মেটাডেটা এবং MIME টাইপ সনাক্ত করতে পারে এবং ব্যাচ প্রসেসিংয়ের জন্য আদর্শ। বিশেষ করে বিগ ডেটা প্রসেসিং বা ডকুমেন্ট অ্যানালাইসিসের ক্ষেত্রে Tika CLI খুবই কার্যকর।
অ্যাপাচি টিকা (Apache Tika)-এর Command Line Interface (CLI) একটি সহজ পদ্ধতি যা ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডাটা এক্সট্রাক্ট করা যায়। CLI ব্যবহার করলে প্রোগ্রামিং ভাষার প্রয়োজন হয় না, এটি দ্রুত এবং সরাসরি কমান্ড লাইন থেকে কাজ করতে পারে।
Tika CLI চালানোর জন্য প্রথমে tika-app JAR ফাইল ডাউনলোড করতে হবে। এটি Apache Tika Official Website থেকে পাওয়া যায়।
Tika CLI চালু করার কমান্ড:
java -jar tika-app-x.x.jar
এখানে x.x
হল Tika-এর ভার্সন নাম্বার।
Tika CLI দিয়ে সহজে একটি ফাইলের ধরন (MIME Type) নির্ধারণ করা যায়।
Command:
java -jar tika-app-x.x.jar -d example.pdf
Output:
application/pdf
এখানে -d
ফ্ল্যাগ ফাইলের MIME Type সনাক্ত করার জন্য ব্যবহৃত হয়।
ফাইল থেকে কাঁচা টেক্সট এক্সট্রাক্ট করতে Tika CLI ব্যবহার করা যায়।
Command:
java -jar tika-app-x.x.jar -t example.pdf
Output:
This is a sample PDF document.
It contains text data for testing purposes.
Explanation:
-t
ফ্ল্যাগ Text Extraction নির্দেশ করে।ফাইল থেকে মেটাডাটা (Metadata) নির্ধারণ করার জন্য -m
ফ্ল্যাগ ব্যবহার করা হয়।
Command:
java -jar tika-app-x.x.jar -m example.pdf
Output:
Content-Type: application/pdf
Last-Modified: 2024-06-01T10:45:00Z
X-Parsed-By: org.apache.tika.parser.pdf.PDFParser
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z
Explanation:
-m
ফ্ল্যাগ মেটাডাটা প্রসেস করে দেখায়।যদি একই সাথে ফাইলের টেক্সট এবং মেটাডাটা দেখতে চান, তাহলে নিচের কমান্ড ব্যবহার করুন।
Command:
java -jar tika-app-x.x.jar -J example.pdf
Output:
Content-Type: application/pdf
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z
Extracted Text:
This is a sample PDF document.
It contains text data for testing purposes.
Explanation:
-J
ফ্ল্যাগটি টেক্সট এবং মেটাডাটা একসাথে আউটপুট দেয়।একসাথে একাধিক ফাইল প্রসেস করতে Tika CLI ব্যবহার করা যায়।
Command:
java -jar tika-app-x.x.jar -t *.pdf > output.txt
Explanation:
*.pdf
নির্দেশ করে সব .pdf
ফাইল প্রসেস করা হবে।ফাইলের টেক্সট বা মেটাডাটা HTML বা অন্য ফরম্যাটে দেখতে চাইলে নিচের কমান্ড ব্যবহার করুন।
Command:
java -jar tika-app-x.x.jar -h example.docx
Output:
<html>
<head><title>Sample Document</title></head>
<body>
<p>This is a sample Word document.</p>
</body>
</html>
Explanation:
-h
ফ্ল্যাগ HTML ফরম্যাটে আউটপুট প্রদান করে।ফ্ল্যাগ | ব্যাখ্যা |
---|---|
-d | ফাইলের ধরন (MIME Type) নির্ধারণ |
-t | টেক্সট এক্সট্রাকশন |
-m | মেটাডাটা নির্ধারণ |
-J | টেক্সট এবং মেটাডাটা একসাথে দেখানো |
-h | HTML আউটপুট |
Apache Tika CLI একটি সহজ এবং কার্যকর টুল যা ব্যবহার করে দ্রুত ফাইলের ধরন, টেক্সট কন্টেন্ট, এবং মেটাডাটা নির্ধারণ করা যায়। এটি কমান্ড লাইন থেকে সহজেই প্রসেসিং এবং অটোমেশন কাজে ব্যবহার করা যায়। বড় আকারের ডেটা প্রসেস করার জন্য Tika CLI একটি শক্তিশালী এবং ব্যবহার উপযোগী সমাধান।
Apache Tika এর Command Line Interface (CLI) ব্যবহার করে বিভিন্ন ডকুমেন্ট থেকে Content (টেক্সট) এবং Metadata সহজেই এক্সট্রাক্ট করা যায়। CLI ব্যবহার করার জন্য প্রোগ্রামিং জ্ঞান প্রয়োজন হয় না, তাই এটি সহজ এবং দ্রুত সমাধান।
১. Apache Tika এর tika-app.jar ডাউনলোড করুন:
Apache Tika ডাউনলোড পেজ
২. Tika CLI চালানোর জন্য আপনার সিস্টেমে Java ইনস্টল থাকতে হবে।
৩. Tika CLI চালানোর কমান্ড:
java -jar tika-app-x.x.jar --help
(x.x হলো Tika এর ভার্সন নাম্বার)
একটি ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে নিচের কমান্ডটি ব্যবহার করুন:
java -jar tika-app-x.x.jar -t example.pdf
Output:
This is a sample PDF file.
It contains some text for demonstration purposes.
ফাইলের Metadata সংগ্রহ করতে -m
ফ্ল্যাগ ব্যবহার করুন:
java -jar tika-app-x.x.jar -m example.pdf
Output:
Content-Type: application/pdf
Creation-Date: 2023-01-01T10:00:00Z
Last-Modified: 2023-01-02T12:00:00Z
Author: John Doe
Title: Sample PDF Document
টেক্সট ফাইলের ভাষা শনাক্ত করতে:
java -jar tika-app-x.x.jar -l example.txt
Output:
en
(এটি নির্দেশ করে যে ভাষাটি English)
Tika ডকুমেন্ট প্রসেস করে XHTML ফরম্যাটে আউটপুট দিতে পারে:
java -jar tika-app-x.x.jar -x example.pdf
Output:
<html xmlns="http://www.w3.org/1999/xhtml">
<head><title>Sample PDF Document</title></head>
<body>
<p>This is a sample PDF file.</p>
</body>
</html>
একটি ফোল্ডারের সব ফাইল প্রসেস করতে --recursive ফ্ল্যাগ ব্যবহার করুন:
java -jar tika-app-x.x.jar --recursive -t /path/to/folder
টেক্সট এক্সট্রাকশন এর আউটপুট ফাইলে সংরক্ষণ করতে >
ব্যবহার করুন:
java -jar tika-app-x.x.jar -t example.pdf > output.txt
ফাইলের MIME টাইপ শনাক্ত করতে:
java -jar tika-app-x.x.jar -d example.pdf
Output:
application/pdf
একটি PDF ফাইলের Content এবং Metadata সংগ্রহ করে আউটপুট ফাইলে সংরক্ষণ করার উদাহরণ:
# Content Extraction
java -jar tika-app-x.x.jar -t example.pdf > content.txt
# Metadata Extraction
java -jar tika-app-x.x.jar -m example.pdf > metadata.txt
১. সহজে ব্যবহারযোগ্য: Command Line ব্যবহার করে দ্রুত ডেটা এক্সট্রাক্ট করা যায়।
২. বহু ফরম্যাট সাপোর্ট: PDF, DOCX, PPTX, HTML, ZIP, ইমেজ ফাইল এবং আরও অনেক ধরনের ফরম্যাট।
৩. বাল্ক প্রসেসিং: একটি ফোল্ডারের সকল ফাইল একসাথে প্রসেস করা যায়।
৪. অতিরিক্ত সফটওয়্যার প্রয়োজন নেই: শুধুমাত্র Java Runtime এবং tika-app.jar ফাইলই যথেষ্ট।
Apache Tika এর CLI ব্যবহার করে আপনি দ্রুত এবং দক্ষতার সাথে বিভিন্ন ধরনের ডকুমেন্ট প্রসেস করে Content এবং Metadata সংগ্রহ করতে পারবেন। এটি প্রোগ্রামিং ছাড়াই সহজ সমাধান দেয়।
Read more