Tika Server কনফিগার এবং রান করা

Tika REST Server ব্যবহার - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

301

Apache Tika Server হলো একটি RESTful সার্ভার যা Apache Tika এর ফিচারগুলোকে HTTP API এর মাধ্যমে এক্সপোজ করে। এটি ডকুমেন্ট প্রসেসিং, কন্টেন্ট এক্সট্রাকশন, এবং মেটাডেটা বিশ্লেষণ সহজেই রিমোট ক্লায়েন্ট থেকে ব্যবহার করতে দেয়।


Tika Server সেটআপ

১. Tika Server ডাউনলোড

প্রথমে Apache Tika ডাউনলোড পেজ থেকে tika-server-.jar ফাইল ডাউনলোড করুন।

কমান্ড লাইন থেকে নিচের মতো wget দিয়ে ডাউনলোড করতে পারেন:

wget https://dlcdn.apache.org/tika/tika-server-2.x.x.jar

২. Tika Server রান করা

Tika Server চালানোর জন্য আপনাকে Java Runtime Environment (JRE) প্রয়োজন হবে। কমান্ড লাইন থেকে নিচের কমান্ডটি রান করুন:

java -jar tika-server-2.x.x.jar

যদি আপনি বিশেষ কোনো পোর্টে সার্ভার চালাতে চান, তাহলে -p ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-server-2.x.x.jar -p 9998

এখানে 9998 হলো সার্ভারের পোর্ট নম্বর। সার্ভার ডিফল্টভাবে 9998 পোর্টে চালু হয়।


৩. Tika Server যাচাই করা

সার্ভার রান হওয়ার পর আপনি ব্রাউজার বা কমান্ড লাইন থেকে Tika Server কে যাচাই করতে পারবেন।

Tika Server Status Check:

curl http://localhost:9998/

যদি সার্ভার সফলভাবে রান হয়, তাহলে Tika এর সম্পর্কে তথ্য দেখাবে।


Tika Server ব্যবহার

Tika Server এর REST API ব্যবহার করে ডকুমেন্ট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাকশন করা যায়।

১. টেক্সট এক্সট্রাকশন

টেক্সট এক্সট্রাকশন করতে নিম্নলিখিত curl কমান্ড ব্যবহার করুন:

curl -T example.pdf http://localhost:9998/tika

এই কমান্ডটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্রাক্ট করবে এবং কমান্ড লাইন এ প্রিন্ট করবে।

২. মেটাডেটা এক্সট্রাকশন

ফাইলের মেটাডেটা এক্সট্রাক্ট করতে /meta এন্ডপয়েন্ট ব্যবহার করুন:

curl -T example.pdf http://localhost:9998/meta

Tika Server কনফিগারেশন

সার্ভারের জন্য টাইমআউট সেট করা

রান করার সময় সার্ভার টাইমআউট কনফিগার করতে পারবেন:

java -jar tika-server-2.x.x.jar -p 9998 --timeout 120

এখানে 120 সেকেন্ড টাইমআউট সেট করা হয়েছে।


ফাইল সাইজ সীমা সেট করা

আপনি কনফিগার করতে পারবেন সর্বোচ্চ ফাইল সাইজ:

java -jar tika-server-2.x.x.jar --max-file-size 10m

এখানে 10MB ফাইল সাইজ লিমিট সেট করা হয়েছে।


Tika Server স্টপ করা

আপনি সার্ভার বন্ধ করতে চাইলে Ctrl + C চাপতে পারেন অথবা নিচের মতো কমান্ড দিয়ে নির্দিষ্ট পোর্টে থাকা সার্ভার বন্ধ করতে পারবেন:

lsof -i :9998
kill <process_id>

সারাংশ

Apache Tika Server একটি সহজ ও কার্যকরী পদ্ধতি প্রোভাইড করে Tika এর কন্টেন্ট এবং মেটাডেটা এক্সট্রাকশন রিমোটলি করতে। সার্ভার সেটআপ এবং রান করা খুব সহজ, এবং REST API এর মাধ্যমে ডকুমেন্ট প্রসেসিং কাজকে দ্রুত করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...