Practical উদাহরণ: JSoup দিয়ে Partial Page Fetching

Ajax এবং Dynamic Content হ্যান্ডল করা - জেসুপ (JSoup) - Java Technologies

259

JSoup ব্যবহার করে একটি পূর্ণ HTML পেজ থেকে নির্দিষ্ট অংশ বা অংশবিশেষ (partial content) সংগ্রহ করা সম্ভব। এটি সাধারণত ওয়েব স্ক্র্যাপিংয়ে ব্যবহৃত হয়, যেখানে শুধুমাত্র একটি নির্দিষ্ট সেকশন বা এলিমেন্টের তথ্য প্রয়োজন হয়। JSoup HTML পেজ থেকে নির্দিষ্ট ট্যাগ, ক্লাস, আইডি বা অন্য কোনো সিলেক্টর ব্যবহার করে প্রয়োজনীয় অংশটি বের করে এনে প্রক্রিয়া করতে সহায়ক হয়।

এখানে, JSoup ব্যবহার করে কীভাবে একটি পেজ থেকে শুধুমাত্র প্রয়োজনীয় অংশ (যেমন কোনো টেবিল, প্যারাগ্রাফ বা ডিভ) এক্সট্র্যাক্ট করা যায়, তার একটি উদাহরণ দেওয়া হয়েছে।


Partial Page Fetching এর উদাহরণ

ধরা যাক, আমাদের একটি ওয়েব পেজ রয়েছে যেখানে বিভিন্ন তথ্য রয়েছে, তবে আমাদের শুধু একটি নির্দিষ্ট div ট্যাগের (যেমন, একটি class="content" সহ ডিভ) তথ্য প্রয়োজন। নিচে একটি উদাহরণ দেওয়া হলো যেখানে আমরা একটি HTML পেজ থেকে শুধুমাত্র একটি নির্দিষ্ট div ট্যাগের তথ্য এক্সট্র্যাক্ট করব।

উদাহরণ: Partial Page Fetching with JSoup

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupPartialPageFetch {
    public static void main(String[] args) throws Exception {
        String html = "<html><head><title>Example</title></head><body>" +
                "<div class='header'>Header Content</div>" +
                "<div class='content'>This is the content we need to extract.</div>" +
                "<div class='footer'>Footer Content</div>" +
                "</body></html>";
        
        // HTML পার্সিং
        Document doc = Jsoup.parse(html);
        
        // 'content' ক্লাস সহ ডিভ এক্সট্র্যাক্ট করা
        Element contentDiv = doc.select("div.content").first();
        
        // শুধুমাত্র 'content' ডিভের তথ্য প্রদর্শন
        System.out.println("Extracted Content: " + contentDiv.text());
    }
}

এখানে, doc.select("div.content").first(); কোডের মাধ্যমে HTML পেজ থেকে class="content" সহ প্রথম div ট্যাগটি নির্বাচন করা হয়েছে। তারপর সেই div ট্যাগের মধ্যে থাকা টেক্সট আমরা .text() মেথড ব্যবহার করে এক্সট্র্যাক্ট করেছি।

আউটপুট:

Extracted Content: This is the content we need to extract.

External Page থেকে Partial Content Fetch করা

যদি আপনার প্রয়োজন হয় একটি ওয়েবসাইট থেকে সরাসরি ডাটা এক্সট্র্যাক্ট করার, আপনি JSoup এর মাধ্যমে HTTP রিকোয়েস্ট পাঠিয়ে পেজের অংশবিশেষও এক্সট্র্যাক্ট করতে পারবেন। নিচে একটি উদাহরণ দেওয়া হলো যেখানে আমরা একটি রিমোট ওয়েবসাইট থেকে শুধুমাত্র একটি নির্দিষ্ট সেকশন (যেমন, কোনো ক্লাস বা আইডি) এক্সট্র্যাক্ট করব।

উদাহরণ: External Page Fetching

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupExternalPageFetch {
    public static void main(String[] args) throws Exception {
        // ওয়েব পেজ থেকে ডাটা সংগ্রহ করা
        Document doc = Jsoup.connect("https://example.com").get();
        
        // 'content' ক্লাস সহ ডিভ এক্সট্র্যাক্ট করা
        Element contentDiv = doc.select("div.content").first();
        
        // শুধুমাত্র 'content' ডিভের তথ্য প্রদর্শন
        System.out.println("Extracted Content: " + contentDiv.text());
    }
}

এখানে, Jsoup.connect("https://example.com").get(); মেথডের মাধ্যমে ওয়েবসাইট থেকে HTML ডাটা সংগ্রহ করা হচ্ছে এবং তারপর div.content সিলেক্টর ব্যবহার করে নির্দিষ্ট ডিভের তথ্য এক্সট্র্যাক্ট করা হচ্ছে।

দ্রষ্টব্য: রিমোট ওয়েব পেজ থেকে ডাটা এক্সট্র্যাক্ট করার জন্য আপনার ইন্টারনেট সংযোগ সক্রিয় থাকতে হবে এবং নিশ্চিত করতে হবে যে আপনার প্রোগ্রামটি Jsoup এর সাথে HTTP রিকোয়েস্ট পাঠাতে সক্ষম।


Partial Page Fetching এর উপকারিতা

  • ডাটা এক্সট্র্যাকশনে দ্রুততা: পুরো পেজ থেকে শুধু প্রয়োজনীয় অংশটি এক্সট্র্যাক্ট করার ফলে প্রক্রিয়াটি দ্রুত এবং অধিক কার্যকরী হয়।
  • ওয়েব স্ক্র্যাপিং: ওয়েব স্ক্র্যাপিংয়ের সময় আমরা প্রায়ই সম্পূর্ণ HTML পেজের পরিবর্তে শুধু নির্দিষ্ট ডেটা এক্সট্র্যাক্ট করতে চাই, যেমন একটি নির্দিষ্ট টেবিল বা প্যারাগ্রাফ।
  • সম্পূর্ণ পেজ লোড করার প্রয়োজন নেই: পূর্ণ HTML পেজ লোড না করে শুধুমাত্র নির্দিষ্ট অংশটি এক্সট্র্যাক্ট করা গেলে সম্পদের ব্যবহার কমে যায়।

সারাংশ

JSoup ব্যবহার করে HTML পেজ থেকে নির্দিষ্ট অংশ এক্সট্র্যাক্ট করা খুব সহজ এবং কার্যকরী। select() মেথডের মাধ্যমে নির্দিষ্ট সিলেক্টর ব্যবহার করে আপনি HTML ডকুমেন্টের কোন অংশও এক্সট্র্যাক্ট করতে পারেন। রিমোট ওয়েবসাইট থেকে ডাটা এক্সট্র্যাক্ট করতে হলে Jsoup.connect() মেথড ব্যবহার করা হয়। এই প্রক্রিয়া ওয়েব স্ক্র্যাপিং এবং ডাটা এক্সট্র্যাকশনে অত্যন্ত উপকারী।

Content added By
Promotion

Are you sure to start over?

Loading...