প্রথম Apache Tika প্রোগ্রাম (Hello Tika Example)

Apache Tika Setup এবং প্রথম প্রোজেক্ট - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

385

Apache Tika ব্যবহার করে একটি সহজ Hello Tika Example তৈরি করার জন্য, আমরা একটি Tika ইনস্ট্যান্স তৈরি করে একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করতে পারি। এই উদাহরণটি Apache Tika এর সহজ ব্যবহারের জন্য একটি প্রাথমিক প্রোগ্রাম হবে।

এখানে একটি সাধারণ উদাহরণ দেওয়া হলো যেখানে Apache Tika একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে। আমরা একটি ফাইল ইনপুট হিসেবে দেব এবং সেই ফাইলের textual content প্রদর্শন করব।

প্রথমে, আপনার Maven প্রজেক্টে Apache Tika লাইব্রেরি যুক্ত করতে হবে। এজন্য আপনার pom.xml ফাইলে এই ডিপেনডেন্সি যোগ করুন:

<dependencies>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-core</artifactId>
        <version>2.0.0</version> <!-- Use the latest version -->
    </dependency>
    <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>2.0.0</version> <!-- Use the latest version -->
    </dependency>
</dependencies>

Step 2: Hello Tika Example - Text Extraction

এখন, একটি সিম্পল Java প্রোগ্রাম তৈরি করা হবে যা Apache Tika ব্যবহার করে একটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করবে।

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class HelloTika {

    public static void main(String[] args) {
        try {
            // Create Tika instance
            Tika tika = new Tika();

            // Specify the file (For example: example.txt or example.pdf or example.docx)
            File file = new File("example.txt");

            // Extract text from the file
            String text = tika.parseToString(file);

            // Output the extracted text
            System.out.println("Extracted Text: ");
            System.out.println(text);
        } catch (IOException e) {
            System.err.println("Error reading the file.");
            e.printStackTrace();
        }
    }
}

Step 3: Sample Input File (example.txt)

এখানে একটি সাধারণ টেক্সট ফাইলের উদাহরণ দেওয়া হলো, যা আপনি example.txt নামে সংরক্ষণ করতে পারেন:

example.txt:

Hello, this is an example of text extraction using Apache Tika!
Tika is a toolkit for detecting and extracting metadata and structured text content from various document types.

Step 4: Output

যখন আপনি HelloTika প্রোগ্রামটি চালাবেন, এটি example.txt ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করে এবং কনসোলে প্রিন্ট করবে।

Output:

Extracted Text: 
Hello, this is an example of text extraction using Apache Tika!
Tika is a toolkit for detecting and extracting metadata and structured text content from various document types.

Step 5: What Happens in This Program?

  1. Tika Instance Creation:
    • Tika tika = new Tika(); এই লাইনটি Tika ইনস্ট্যান্স তৈরি করে, যা টেক্সট এক্সট্র্যাক্ট করতে ব্যবহৃত হবে।
  2. File Specification:
    • File file = new File("example.txt"); এখানে আমরা ফাইলটিকে স্পেসিফাই করছি, যা থেকে টেক্সট এক্সট্র্যাক্ট করা হবে।
  3. Text Extraction:
    • String text = tika.parseToString(file); এই লাইনটি Tika ব্যবহার করে ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করে এবং একটি স্ট্রিং হিসেবে সংরক্ষণ করে।
  4. Output:
    • System.out.println(text); এখানে এক্সট্র্যাক্ট করা টেক্সট কনসোলে প্রদর্শিত হয়।

Conclusion

এটি ছিল Apache Tika ব্যবহার করে একটি সহজ Hello Tika Example প্রোগ্রাম। Apache Tika একটি শক্তিশালী টুলকিট যা বিভিন্ন ফাইল ফরম্যাট থেকে টেক্সট, মেটাডেটা এবং স্ট্রাকচারড কন্টেন্ট এক্সট্র্যাক্ট করতে সাহায্য করে। এই প্রোগ্রামের মাধ্যমে, আপনি Tika এর ব্যবহার শুরু করতে পারেন এবং বিভিন্ন ডকুমেন্ট ফরম্যাট থেকে কন্টেন্ট এক্সট্র্যাক্ট করার জন্য এটি ব্যবহার করতে পারবেন।

Content added By
Promotion

Are you sure to start over?

Loading...