Tika REST Server ব্যবহার গাইড ও নোট

Java Technologies - অ্যাপাচি টিকা (Apache Tika)
385

Apache Tika একটি ওপেন সোর্স টুলকিট যা বিভিন্ন ফাইল ফরম্যাট থেকে text এবং metadata এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। Tika REST Server একটি সহজ RESTful API প্রদান করে, যা Apache Tika এর কন্টেন্ট এক্সট্র্যাকশন ক্ষমতাকে সার্ভিস হিসেবে ব্যবহারের সুযোগ দেয়। এর মাধ্যমে আপনি ফাইল আপলোড করে তার কন্টেন্ট এবং মেটাডেটা সহজে এক্সট্র্যাক্ট করতে পারবেন, শুধুমাত্র HTTP রিকোয়েস্ট পাঠিয়ে।

Tika REST Server এর মাধ্যমে আপনার ফাইল এক্সট্র্যাকশন প্রক্রিয়াটি একটি সার্ভিস হিসাবে উপলব্ধ করা হয়, যা অ্যাপ্লিকেশন এবং ক্লায়েন্ট সিস্টেমগুলির সাথে যোগাযোগ করতে পারে।

এখানে আমরা Tika REST Server সেটআপ এবং ব্যবহারের জন্য প্রয়োজনীয় ধাপগুলি এবং উদাহরণ দেখব।


Step 1: Tika REST Server ইনস্টলেশন

Apache Tika REST Server ইনস্টল করতে হলে আপনাকে Tika-server JAR ফাইলটি ডাউনলোড করতে হবে। এটি Apache Tika এর RESTful API সংস্করণ।

  1. Tika REST Server JAR ডাউনলোড: Tika REST Server JAR ফাইলটি Apache Tika এর অফিশিয়াল ওয়েবসাইট থেকে ডাউনলোড করা যেতে পারে।
  2. JAR ফাইল রান করা: ডাউনলোড করা JAR ফাইলটি দিয়ে Tika REST Server চালু করা যাবে। এর জন্য আপনাকে Java ইন্সটল থাকতে হবে। নিচের কমান্ড দিয়ে Tika REST Server চালু করা যায়:

    java -jar tika-server-2.x.x.jar
    

    Note: 2.x.x এখানে Tika Server এর ভার্সন নম্বর হবে, যেমন 2.0.0.

    একবার এটি চালু হলে, Tika REST Server আপনার লোকালহোস্টে (ডিফল্ট পোর্ট 9998) চলবে। এর মানে হল যে আপনার সার্ভারটি এখন HTTP রিকোয়েস্টের মাধ্যমে ফাইল প্রক্রিয়া করতে প্রস্তুত।


Step 2: Tika REST API ব্যবহার

Tika REST API এর মাধ্যমে আপনি বিভিন্ন ফাইল ফরম্যাট থেকে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করতে পারবেন। এটি HTTP POST রিকোয়েস্ট গ্রহণ করে এবং ফাইলের কন্টেন্ট বা মেটাডেটা ফিরিয়ে দেয়।

1. File Content Extraction (Text Extraction)

আপনি Tika REST Server এর মাধ্যমে কোন ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারেন। এই প্রক্রিয়াটি করার জন্য HTTP POST রিকোয়েস্ট পাঠাতে হবে যেখানে ফাইল ডেটা অন্তর্ভুক্ত থাকবে।

API Endpoint for Text Extraction:
  • POST: /tika
  • Request: ফাইল ডেটা (multipart form-data)

Example Request (Using Curl):

curl -X POST -F "file=@example.pdf" http://localhost:9998/tika

Explanation:

  • এখানে, example.pdf হল আপনার পছন্দসই ফাইল, এবং এটি tika এন্ডপয়েন্টে POST করা হচ্ছে। Tika সার্ভার ফাইলের টেক্সট এক্সট্র্যাক্ট করবে এবং রেসপন্স হিসেবে প্রিন্ট করবে।

Output:

This is a sample PDF file.
Apache Tika is used to extract content from various file formats.

2. File Metadata Extraction

ফাইলের metadata এক্সট্র্যাক্ট করার জন্য আপনি /meta এন্ডপয়েন্ট ব্যবহার করতে পারেন।

API Endpoint for Metadata Extraction:
  • GET: /meta
  • Request: ফাইল ডেটা (multipart form-data)

Example Request (Using Curl):

curl -X POST -F "file=@example.pdf" http://localhost:9998/meta

Explanation:

  • এখানে, example.pdf ফাইলটি /meta এন্ডপয়েন্টে পাঠানো হচ্ছে। Tika সার্ভার ফাইলের মেটাডেটা এক্সট্র্যাক্ট করবে এবং JSON ফর্ম্যাটে রেসপন্স করবে।

Output (JSON format):

{
    "Author": "John Doe",
    "Creator": "Adobe Acrobat 20.0",
    "Creation-Date": "2021-09-01T10:00:00Z",
    "Producer": "Adobe PDF Library",
    "Title": "Sample PDF Document",
    "Keywords": "Apache, Tika, PDF"
}

Step 3: Tika REST Server Configuration

Tika REST Server এর বিভিন্ন কনফিগারেশন বিকল্প রয়েছে, যেমন পোর্ট পরিবর্তন, লগিং কনফিগারেশন, ইত্যাদি। কনফিগারেশন ফাইল ব্যবহার করে এই বিকল্পগুলি কাস্টমাইজ করা যেতে পারে।

  1. Configuration File: Tika REST Server চালানোর সময় আপনি -config ফ্ল্যাগ দিয়ে কনফিগারেশন ফাইল ব্যবহার করতে পারেন।

    উদাহরণস্বরূপ:

    java -jar tika-server-2.x.x.jar -config tika-config.xml
    
  2. Change the Port: ডিফল্ট পোর্ট 9998 পরিবর্তন করতে, কনফিগারেশন ফাইলে পোর্ট সেট করা যেতে পারে:

    <server>
      <port>8080</port>
    </server>
    

Step 4: Tika REST Server এর অন্যান্য সুবিধা

  1. Language Detection: আপনি যদি ফাইলের ভাষা জানতে চান, তবে Tika REST API এর মাধ্যমে এটি সনাক্ত করা সম্ভব। উদাহরণস্বরূপ, ফাইলের ভাষা সনাক্ত করতে Tika REST API ব্যবহার করা যেতে পারে।

    Example Request for Language Detection:

    curl -X POST -F "file=@example.txt" http://localhost:9998/language
    

    Output:

    en
    
  2. Image Metadata Extraction: Tika শুধু টেক্সট এবং ডকুমেন্ট থেকে মেটাডেটা এক্সট্র্যাক্ট করে না, বরং ইমেজ ফাইল থেকেও মেটাডেটা এক্সট্র্যাক্ট করতে সক্ষম।
  3. MIME Type Detection: Tika REST API মিম টাইপ সনাক্তকরণের জন্যও ব্যবহার করা যেতে পারে, যেমন:

    curl -X POST -F "file=@example.pdf" http://localhost:9998/detect
    

    Output:

    application/pdf
    

Conclusion

Apache Tika REST Server একটি শক্তিশালী টুল যা ফাইল থেকে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য একটি সহজ RESTful API প্রদান করে। আপনি এটি দিয়ে বিভিন্ন ফাইল ফরম্যাট যেমন PDF, DOCX, XLSX, TXT, ইত্যাদি থেকে টেক্সট ও মেটাডেটা এক্সট্র্যাক্ট করতে পারেন। এটি Apache Solr, Elasticsearch অথবা অন্যান্য search engine এর সাথে ইন্টিগ্রেট করার জন্যও ব্যবহার করা যেতে পারে। Tika REST API ফাইল প্রসেসিং এবং কন্টেন্ট ম্যানেজমেন্ট সিস্টেমে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Tika REST API এর ধারণা

451

Apache Tika একটি শক্তিশালী টুল যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। Tika REST API এর মাধ্যমে আপনি সরাসরি HTTP রিকোয়েস্টের মাধ্যমে ফাইল প্যার্সিং এবং টেক্সট এক্সট্র্যাকশন করতে পারেন, যা বিশেষভাবে ওয়েব অ্যাপ্লিকেশন এবং মাইক্রোসার্ভিস আর্কিটেকচারের জন্য উপযোগী।

Tika REST API একটি সার্ভিসের মতো কাজ করে, যা আপনার ফাইল বা ডকুমেন্টের কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করার জন্য HTTP রিকোয়েস্টের মাধ্যমে কাজ করে। এই RESTful API টি মূলত Tika Server হিসেবে কাজ করে এবং বিভিন্ন ফাইল ফরম্যাট যেমন PDF, Word, Excel, HTML, XML ইত্যাদি থেকে ডেটা এক্সট্র্যাক্ট করার সুবিধা দেয়।


১. Tika REST API কী?

Tika REST API হল Apache Tika এর একটি সার্ভার-ভিত্তিক ইন্টারফেস যা আপনাকে HTTP রিকোয়েস্টের মাধ্যমে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সাহায্য করে। এই API ব্যবহার করে আপনি ফাইলের কন্টেন্ট থেকে টেক্সট এবং মেটাডেটা রিট্রিভ করতে পারেন, যেটি বিভিন্ন ওয়েব অ্যাপ্লিকেশন, ডেটা প্রসেসিং সিস্টেম বা সার্চ ইঞ্জিনে ব্যবহার করা যেতে পারে।

REST API এর মূল ফিচারসমূহ:

  • টেক্সট এক্সট্র্যাকশন: ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য HTTP রিকোয়েস্ট পাঠানো।
  • মেটাডেটা এক্সট্র্যাকশন: ফাইলের মেটাডেটা যেমন লেখক, শিরোনাম, তৈরি হওয়ার তারিখ ইত্যাদি এক্সট্র্যাক্ট করা।
  • ফাইল ফরম্যাট সাপোর্ট: PDF, Word, Excel, HTML, এবং অন্যান্য ফাইল ফরম্যাটের কন্টেন্ট এক্সট্র্যাক্ট করা।
  • বহুভাষী সমর্থন: বিভিন্ন ভাষার ডকুমেন্টের টেক্সট এক্সট্র্যাক্ট করা।

২. Tika REST API কিভাবে কাজ করে?

Tika REST API একটি HTTP সার্ভার হিসেবে কাজ করে যা GET বা POST রিকোয়েস্ট গ্রহণ করে এবং প্যারামিটার হিসেবে ফাইল পাঠিয়ে সেই ফাইলের টেক্সট বা মেটাডেটা রিটার্ন করে। আপনি HTTP রিকোয়েস্টে ফাইল পাঠান এবং API সেই ফাইলটি প্রসেস করে রেসপন্স প্রদান করে। এটি সার্ভারে Apache Tika এর সার্ভিস চালু থাকলে ব্যবহার করা যায়।

Tika Server Setup:

Tika REST API ব্যবহার করার জন্য প্রথমে Tika সার্ভার চালু করতে হয়। আপনি Apache Tika Server JAR ফাইল ডাউনলোড করে এটি চালু করতে পারেন।

Tika Server চালু করার কমান্ড:

java -jar tika-server-x.x.x.jar

এটি Tika Server চালু করবে এবং http://localhost:9998 এ আপনার সার্ভিসটি রান করবে।


৩. Tika REST API এর মাধ্যমে ফাইল প্যার্সিং

1. টেক্সট এক্সট্র্যাকশন (Text Extraction)

Tika REST API ব্যবহার করে যেকোনো ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য HTTP POST রিকোয়েস্ট পাঠানো হয়।

POST রিকোয়েস্ট:

curl -X POST -T "example.pdf" http://localhost:9998/tika

এটি example.pdf ফাইলের সমস্ত টেক্সট এক্সট্র্যাক্ট করে এবং রেসপন্সে প্রদান করবে।

2. মেটাডেটা এক্সট্র্যাকশন (Metadata Extraction)

মেটাডেটা এক্সট্র্যাক্ট করতে, Tika REST API এ metadata রুট ব্যবহার করা হয়।

POST রিকোয়েস্ট:

curl -X POST -T "example.pdf" http://localhost:9998/meta

এই কমান্ডটি example.pdf ফাইলের মেটাডেটা এক্সট্র্যাক্ট করবে এবং সেটি JSON ফরম্যাটে প্রদান করবে, যার মধ্যে লেখক, শিরোনাম, প্রকাশের তারিখ, ইত্যাদি থাকবে।

3. ফাইল টাইপ ডিটেকশন (File Type Detection)

Tika REST API এর মাধ্যমে ফাইলের MIME টাইপ শনাক্ত করার জন্য detect রুট ব্যবহার করা হয়।

POST রিকোয়েস্ট:

curl -X POST -T "example.pdf" http://localhost:9998/detect

এটি ফাইলের MIME টাইপ যেমন application/pdf রিটার্ন করবে।


৪. Tika REST API এর JSON রেসপন্স

Tika REST API থেকে আসা রেসপন্স সাধারণত JSON ফরম্যাটে হয়। নিচে একটি উদাহরণ দেওয়া হলো, যেখানে PDF ফাইলের মেটাডেটা এক্সট্র্যাক্ট করা হচ্ছে।

মেটাডেটা এক্সট্র্যাক্ট করা (JSON রেসপন্স):

{
  "Author": "John Doe",
  "Title": "Sample PDF Document",
  "Producer": "Apache Tika",
  "Creation-Date": "2022-01-01T10:00:00Z",
  "Content-Type": "application/pdf"
}

টেক্সট এক্সট্র্যাক্ট করা (JSON রেসপন্স):

{
  "content": "This is a sample PDF document to demonstrate Apache Tika's text extraction capabilities..."
}

৫. Tika REST API এর অন্যান্য ব্যবহার

  • ফাইল ফরম্যাট সনাক্তকরণ (File Format Detection): ফাইলের MIME টাইপ এবং ফরম্যাট সনাক্ত করা।
  • বহু ফাইল একসাথে এক্সট্র্যাকশন (Batch Processing): একাধিক ফাইল একসাথে প্রসেস করা এবং তাদের টেক্সট বা মেটাডেটা একসাথে এক্সট্র্যাক্ট করা।
  • ভাষা শনাক্তকরণ (Language Detection): Tika এর মাধ্যমে ডকুমেন্টের ভাষা শনাক্ত করা যায়, যা বিভিন্ন ভাষার কন্টেন্ট ম্যানেজমেন্ট এবং সার্চ ইঞ্জিনে ব্যবহৃত হতে পারে।

৬. সারাংশ

Tika REST API একটি শক্তিশালী টুল যা HTTP রিকোয়েস্টের মাধ্যমে বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করতে সহায়তা করে। এটি সার্ভার ভিত্তিক এবং সহজে ওয়েব অ্যাপ্লিকেশন বা মাইক্রোসার্ভিস আর্কিটেকচারে ইন্টিগ্রেট করা যেতে পারে। Tika REST API এর মাধ্যমে আপনি একাধিক ফাইল ফরম্যাট থেকে দ্রুত এবং কার্যকরীভাবে কন্টেন্ট এক্সট্র্যাক্ট করতে পারেন, যা ডেটা সঞ্চয়, সার্চ ইঞ্জিন ইন্ডেক্সিং এবং কন্টেন্ট অ্যানালাইসিসে ব্যবহৃত হতে পারে।


Content added By

Tika Server কনফিগার এবং রান করা

289

Apache Tika Server হলো একটি RESTful সার্ভার যা Apache Tika এর ফিচারগুলোকে HTTP API এর মাধ্যমে এক্সপোজ করে। এটি ডকুমেন্ট প্রসেসিং, কন্টেন্ট এক্সট্রাকশন, এবং মেটাডেটা বিশ্লেষণ সহজেই রিমোট ক্লায়েন্ট থেকে ব্যবহার করতে দেয়।


Tika Server সেটআপ

১. Tika Server ডাউনলোড

প্রথমে Apache Tika ডাউনলোড পেজ থেকে tika-server-.jar ফাইল ডাউনলোড করুন।

কমান্ড লাইন থেকে নিচের মতো wget দিয়ে ডাউনলোড করতে পারেন:

wget https://dlcdn.apache.org/tika/tika-server-2.x.x.jar

২. Tika Server রান করা

Tika Server চালানোর জন্য আপনাকে Java Runtime Environment (JRE) প্রয়োজন হবে। কমান্ড লাইন থেকে নিচের কমান্ডটি রান করুন:

java -jar tika-server-2.x.x.jar

যদি আপনি বিশেষ কোনো পোর্টে সার্ভার চালাতে চান, তাহলে -p ফ্ল্যাগ ব্যবহার করুন:

java -jar tika-server-2.x.x.jar -p 9998

এখানে 9998 হলো সার্ভারের পোর্ট নম্বর। সার্ভার ডিফল্টভাবে 9998 পোর্টে চালু হয়।


৩. Tika Server যাচাই করা

সার্ভার রান হওয়ার পর আপনি ব্রাউজার বা কমান্ড লাইন থেকে Tika Server কে যাচাই করতে পারবেন।

Tika Server Status Check:

curl http://localhost:9998/

যদি সার্ভার সফলভাবে রান হয়, তাহলে Tika এর সম্পর্কে তথ্য দেখাবে।


Tika Server ব্যবহার

Tika Server এর REST API ব্যবহার করে ডকুমেন্ট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাকশন করা যায়।

১. টেক্সট এক্সট্রাকশন

টেক্সট এক্সট্রাকশন করতে নিম্নলিখিত curl কমান্ড ব্যবহার করুন:

curl -T example.pdf http://localhost:9998/tika

এই কমান্ডটি example.pdf ফাইল থেকে সমস্ত টেক্সট এক্সট্রাক্ট করবে এবং কমান্ড লাইন এ প্রিন্ট করবে।

২. মেটাডেটা এক্সট্রাকশন

ফাইলের মেটাডেটা এক্সট্রাক্ট করতে /meta এন্ডপয়েন্ট ব্যবহার করুন:

curl -T example.pdf http://localhost:9998/meta

Tika Server কনফিগারেশন

সার্ভারের জন্য টাইমআউট সেট করা

রান করার সময় সার্ভার টাইমআউট কনফিগার করতে পারবেন:

java -jar tika-server-2.x.x.jar -p 9998 --timeout 120

এখানে 120 সেকেন্ড টাইমআউট সেট করা হয়েছে।


ফাইল সাইজ সীমা সেট করা

আপনি কনফিগার করতে পারবেন সর্বোচ্চ ফাইল সাইজ:

java -jar tika-server-2.x.x.jar --max-file-size 10m

এখানে 10MB ফাইল সাইজ লিমিট সেট করা হয়েছে।


Tika Server স্টপ করা

আপনি সার্ভার বন্ধ করতে চাইলে Ctrl + C চাপতে পারেন অথবা নিচের মতো কমান্ড দিয়ে নির্দিষ্ট পোর্টে থাকা সার্ভার বন্ধ করতে পারবেন:

lsof -i :9998
kill <process_id>

সারাংশ

Apache Tika Server একটি সহজ ও কার্যকরী পদ্ধতি প্রোভাইড করে Tika এর কন্টেন্ট এবং মেটাডেটা এক্সট্রাকশন রিমোটলি করতে। সার্ভার সেটআপ এবং রান করা খুব সহজ, এবং REST API এর মাধ্যমে ডকুমেন্ট প্রসেসিং কাজকে দ্রুত করা যায়।

Content added By

HTTP মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডাটা এক্সট্র্যাক্ট করা

242

অ্যাপাচি টিকার একটি অন্যতম গুরুত্বপূর্ণ বৈশিষ্ট্য হলো HTTP REST API এর মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার সুবিধা। এটি Tika Server ব্যবহার করে করা হয়।


Tika Server সেটআপ

Tika Server চালানোর জন্য Tika-app JAR ফাইল প্রয়োজন হয়।

  1. Tika Server ডাউনলোড করুন
    Apache Tika Server ডাউনলোড করতে Apache Tika's Official Page থেকে tika-server-x.x.jar সংগ্রহ করুন।
  2. Tika Server রান করুন
    নিচের কমান্ড দিয়ে Tika Server চালু করুন:

    java -jar tika-server-x.x.jar
    

    এটি http://localhost:9998/ ঠিকানায় একটি REST API সার্ভার চালু করবে।


HTTP মাধ্যমে ফাইল আপলোড এবং এক্সট্র্যাকশন

Tika Server এর REST API ব্যবহার করে cURL অথবা অন্যান্য HTTP ক্লায়েন্টের মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।

টেক্সট এক্সট্র্যাকশন

নিচের উদাহরণে cURL ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হয়েছে:

curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"
  • -T example.pdf: আপলোড করা ফাইলের নাম।
  • http://localhost:9998/tika: Tika Server এর API এন্ডপয়েন্ট।
  • --header "Accept: text/plain": এক্সট্র্যাক্টেড আউটপুটকে টেক্সট ফরম্যাটে চাওয়া হয়েছে।

মেটাডেটা এক্সট্র্যাকশন

নিচের কমান্ডে শুধুমাত্র মেটাডেটা রিটার্ন করা হবে:

curl -T example.pdf http://localhost:9998/meta

POSTMAN ব্যবহার করে API কল

  1. POSTMAN ওপেন করুন এবং একটি POST Request তৈরি করুন।
  2. Request URL: http://localhost:9998/tika
  3. Headers:
    • Key: Accept
    • Value: text/plain
  4. Body:
    • Type: binary
    • ফাইলটি আপলোড করুন (উদাহরণ: example.pdf)।
  5. Send করুন এবং আউটপুট টেক্সট হিসেবে দেখুন।

HTTP REST API এন্ডপয়েন্ট সমূহ

এন্ডপয়েন্টকাজের বর্ণনাআউটপুট ফরম্যাট
/tikaফাইল থেকে টেক্সট এক্সট্র্যাক্ট করাটেক্সট
/metaফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করাJSON
/languageফাইলের ভাষা সনাক্ত করাপ্লেইন টেক্সট
/rmetaমেটাডেটা এবং কন্টেন্ট একসাথে রিটার্ন করাJSON

একটি উদাহরণ: Python ব্যবহার করে HTTP রিকোয়েস্ট

Python এর মাধ্যমে Tika Server এ ফাইল আপলোড করে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। নিচের উদাহরণে এটি দেখানো হয়েছে:

import requests

# Tika Server URL
tika_url = "http://localhost:9998/tika"
meta_url = "http://localhost:9998/meta"

# ফাইলের পাথ
file_path = "example.pdf"

# টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
    response = requests.put(tika_url, data=file, headers={"Accept": "text/plain"})
    print("Extracted Text:")
    print(response.text)

# মেটাডেটা এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
    response = requests.put(meta_url, data=file)
    print("Extracted Metadata:")
    print(response.json())

সারাংশ

HTTP REST API এর মাধ্যমে অ্যাপাচি টিকা ব্যবহার করে ফাইল আপলোডের মাধ্যমে সহজেই টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এটি স্কেলেবল অ্যাপ্লিকেশন ডেভেলপমেন্টে বিশেষ সুবিধা দেয়। Tika Server সেটআপ করলে cURL, Postman বা Python এর মতো টুলস ব্যবহার করে সহজেই REST API এর মাধ্যমে কাজ করা সম্ভব।

Content added By

উদাহরণ সহ Tika REST API Integration

387

অ্যাপাচি টিকা (Apache Tika) REST API-র মাধ্যমে সহজেই অন্যান্য অ্যাপ্লিকেশন বা সার্ভিসের সাথে সংযোগ স্থাপন করে ডকুমেন্ট প্রসেসিং এবং টেক্সট এক্সট্র্যাকশন করতে পারে। REST API ব্যবহার করে আমরা ফাইল আপলোড করে মেটাডেটা (Metadata) এবং টেক্সট (Text) এক্সট্র্যাক্ট করতে পারি।


Tika Server চালু করা

Tika REST API ব্যবহার করতে হলে প্রথমে Tika Server চালু করতে হবে।

Tika Server ডাউনলোড ও চালু করা

  1. Apache Tika Server JAR ফাইল ডাউনলোড করুন: Apache Tika Download
  2. নিচের কমান্ড দিয়ে সার্ভার চালু করুন:
java -jar tika-server-standard-2.x.jar

উপরের কমান্ডের মাধ্যমে Tika Server 9998 পোর্ট এ রান করবে (ডিফল্ট পোর্ট)।


Tika REST API Integration উদাহরণ

REST API ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এখানে একটি উদাহরণ দেওয়া হলো যেখানে Python এবং cURL ব্যবহার করা হয়েছে।


উদাহরণ: Python দিয়ে Tika REST API

Python ব্যবহার করে Tika REST API এর মাধ্যমে ফাইল প্রসেস করার উদাহরণ:

প্রয়োজনীয় প্যাকেজ ইন্সটল

pip install requests

কোড উদাহরণ:

import requests

# Tika Server এর URL
tika_server_url = "http://localhost:9998/tika"

# প্রসেস করতে চাওয়া ফাইল
file_path = "example.pdf"

# ফাইলটি Tika Server এ পাঠিয়ে টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, 'rb') as file:
    headers = {'Accept': 'text/plain'}
    response = requests.put(tika_server_url, headers=headers, data=file)

# সার্ভার থেকে রেসপন্স চেক করা
if response.status_code == 200:
    print("Extracted Text:")
    print(response.text)
else:
    print(f"Error: {response.status_code}")

উদাহরণ: cURL ব্যবহার করে REST API কল

cURL এর মাধ্যমে Tika Server এ ফাইল পাঠিয়ে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।

টেক্সট এক্সট্র্যাকশন

curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"

মেটাডেটা এক্সট্র্যাকশন

curl -T example.pdf http://localhost:9998/meta

রেসপন্স আউটপুট

  1. টেক্সট আউটপুট (Text Extraction):
This is an example document.
It contains sample text.
  1. মেটাডেটা আউটপুট (Metadata Extraction):
{
  "Content-Type": "application/pdf",
  "Creation-Date": "2024-06-01T10:00:00Z",
  "X-Parsed-By": ["org.apache.tika.parser.DefaultParser"],
  "Author": "John Doe",
  "Producer": "Acrobat PDFWriter"
}

সার্ভারের রেসপন্স টাইপ

Tika REST API ব্যবহার করে Accept Header সেট করে বিভিন্ন আউটপুট ফরম্যাট পাওয়া যায়।

Accept Headerআউটপুট
text/plainশুধুমাত্র প্লেইন টেক্সট
application/jsonJSON ফরম্যাটে মেটাডেটা
application/xmlXML আকারে আউটপুট

সারাংশ

Apache Tika REST API ব্যবহার করে সহজেই ফাইল প্রসেসিং ও ডেটা এক্সট্র্যাকশন করা যায়। সার্ভারটি চালু করে HTTP PUT/POST রিকোয়েস্টের মাধ্যমে বিভিন্ন ধরনের ফরম্যাট থেকে টেক্সট এবং মেটাডেটা সংগ্রহ করা সম্ভব। Python, cURL এবং অন্যান্য টুল দিয়ে সহজেই এটি ইন্টিগ্রেট করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...