Apache Tika Server হলো একটি RESTful সার্ভার যা Apache Tika এর ফিচারগুলোকে HTTP API এর মাধ্যমে এক্সপোজ করে। এটি ডকুমেন্ট প্রসেসিং, কন্টেন্ট এক্সট্রাকশন, এবং মেটাডেটা বিশ্লেষণ সহজেই রিমোট ক্লায়েন্ট থেকে ব্যবহার করতে দেয়।
Tika Server সেটআপ
১. Tika Server ডাউনলোড
প্রথমে Apache Tika ডাউনলোড পেজ থেকে tika-server-.jar ফাইল ডাউনলোড করুন।
কমান্ড লাইন থেকে নিচের মতো wget দিয়ে ডাউনলোড করতে পারেন:
wget https://dlcdn.apache.org/tika/tika-server-2.x.x.jar
২. Tika Server রান করা
Tika Server চালানোর জন্য আপনাকে Java Runtime Environment (JRE) প্রয়োজন হবে। কমান্ড লাইন থেকে নিচের কমান্ডটি রান করুন:
java -jar tika-server-2.x.x.jar
যদি আপনি বিশেষ কোনো পোর্টে সার্ভার চালাতে চান, তাহলে -p ফ্ল্যাগ ব্যবহার করুন:
java -jar tika-server-2.x.x.jar -p 9998
এখানে 9998 হলো সার্ভারের পোর্ট নম্বর। সার্ভার ডিফল্টভাবে 9998 পোর্টে চালু হয়।
৩. Tika Server যাচাই করা
সার্ভার রান হওয়ার পর আপনি ব্রাউজার বা কমান্ড লাইন থেকে Tika Server কে যাচাই করতে পারবেন।
Tika Server Status Check:
curl http://localhost:9998/
যদি সার্ভার সফলভাবে রান হয়, তাহলে Tika এর সম্পর্কে তথ্য দেখাবে।
Tika Server ব্যবহার
Tika Server এর REST API ব্যবহার করে ডকুমেন্ট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাকশন করা যায়।
১. টেক্সট এক্সট্রাকশন
টেক্সট এক্সট্রাকশন করতে নিম্নলিখিত curl কমান্ড ব্যবহার করুন:
curl -T example.pdf http://localhost:9998/tika
এই কমান্ডটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্রাক্ট করবে এবং কমান্ড লাইন এ প্রিন্ট করবে।
২. মেটাডেটা এক্সট্রাকশন
ফাইলের মেটাডেটা এক্সট্রাক্ট করতে /meta এন্ডপয়েন্ট ব্যবহার করুন:
curl -T example.pdf http://localhost:9998/meta
Tika Server কনফিগারেশন
সার্ভারের জন্য টাইমআউট সেট করা
রান করার সময় সার্ভার টাইমআউট কনফিগার করতে পারবেন:
java -jar tika-server-2.x.x.jar -p 9998 --timeout 120
এখানে 120 সেকেন্ড টাইমআউট সেট করা হয়েছে।
ফাইল সাইজ সীমা সেট করা
আপনি কনফিগার করতে পারবেন সর্বোচ্চ ফাইল সাইজ:
java -jar tika-server-2.x.x.jar --max-file-size 10m
এখানে 10MB ফাইল সাইজ লিমিট সেট করা হয়েছে।
Tika Server স্টপ করা
আপনি সার্ভার বন্ধ করতে চাইলে Ctrl + C চাপতে পারেন অথবা নিচের মতো কমান্ড দিয়ে নির্দিষ্ট পোর্টে থাকা সার্ভার বন্ধ করতে পারবেন:
lsof -i :9998
kill <process_id>
সারাংশ
Apache Tika Server একটি সহজ ও কার্যকরী পদ্ধতি প্রোভাইড করে Tika এর কন্টেন্ট এবং মেটাডেটা এক্সট্রাকশন রিমোটলি করতে। সার্ভার সেটআপ এবং রান করা খুব সহজ, এবং REST API এর মাধ্যমে ডকুমেন্ট প্রসেসিং কাজকে দ্রুত করা যায়।
Read more