Practical উদাহরণ: JSoup দিয়ে Partial Page Fetching

Ajax এবং Dynamic Content হ্যান্ডল করা - জেসুপ (JSoup) - Java Technologies

259

JSoup ব্যবহার করে একটি পূর্ণ HTML পেজ থেকে নির্দিষ্ট অংশ বা অংশবিশেষ (partial content) সংগ্রহ করা সম্ভব। এটি সাধারণত ওয়েব স্ক্র্যাপিংয়ে ব্যবহৃত হয়, যেখানে শুধুমাত্র একটি নির্দিষ্ট সেকশন বা এলিমেন্টের তথ্য প্রয়োজন হয়। JSoup HTML পেজ থেকে নির্দিষ্ট ট্যাগ, ক্লাস, আইডি বা অন্য কোনো সিলেক্টর ব্যবহার করে প্রয়োজনীয় অংশটি বের করে এনে প্রক্রিয়া করতে সহায়ক হয়।

এখানে, JSoup ব্যবহার করে কীভাবে একটি পেজ থেকে শুধুমাত্র প্রয়োজনীয় অংশ (যেমন কোনো টেবিল, প্যারাগ্রাফ বা ডিভ) এক্সট্র্যাক্ট করা যায়, তার একটি উদাহরণ দেওয়া হয়েছে।

Partial Page Fetching এর উদাহরণ

ধরা যাক, আমাদের একটি ওয়েব পেজ রয়েছে যেখানে বিভিন্ন তথ্য রয়েছে, তবে আমাদের শুধু একটি নির্দিষ্ট div ট্যাগের (যেমন, একটি class="content" সহ ডিভ) তথ্য প্রয়োজন। নিচে একটি উদাহরণ দেওয়া হলো যেখানে আমরা একটি HTML পেজ থেকে শুধুমাত্র একটি নির্দিষ্ট div ট্যাগের তথ্য এক্সট্র্যাক্ট করব।

উদাহরণ: Partial Page Fetching with JSoup

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupPartialPageFetch {
    public static void main(String[] args) throws Exception {
        String html = "<html><head><title>Example</title></head><body>" +
                "<div class='header'>Header Content</div>" +
                "<div class='content'>This is the content we need to extract.</div>" +
                "<div class='footer'>Footer Content</div>" +
                "</body></html>";
        
        // HTML পার্সিং
        Document doc = Jsoup.parse(html);
        
        // 'content' ক্লাস সহ ডিভ এক্সট্র্যাক্ট করা
        Element contentDiv = doc.select("div.content").first();
        
        // শুধুমাত্র 'content' ডিভের তথ্য প্রদর্শন
        System.out.println("Extracted Content: " + contentDiv.text());
    }
}

এখানে, doc.select("div.content").first(); কোডের মাধ্যমে HTML পেজ থেকে class="content" সহ প্রথম div ট্যাগটি নির্বাচন করা হয়েছে। তারপর সেই div ট্যাগের মধ্যে থাকা টেক্সট আমরা .text() মেথড ব্যবহার করে এক্সট্র্যাক্ট করেছি।

আউটপুট:

Extracted Content: This is the content we need to extract.

External Page থেকে Partial Content Fetch করা

যদি আপনার প্রয়োজন হয় একটি ওয়েবসাইট থেকে সরাসরি ডাটা এক্সট্র্যাক্ট করার, আপনি JSoup এর মাধ্যমে HTTP রিকোয়েস্ট পাঠিয়ে পেজের অংশবিশেষও এক্সট্র্যাক্ট করতে পারবেন। নিচে একটি উদাহরণ দেওয়া হলো যেখানে আমরা একটি রিমোট ওয়েবসাইট থেকে শুধুমাত্র একটি নির্দিষ্ট সেকশন (যেমন, কোনো ক্লাস বা আইডি) এক্সট্র্যাক্ট করব।

উদাহরণ: External Page Fetching

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupExternalPageFetch {
    public static void main(String[] args) throws Exception {
        // ওয়েব পেজ থেকে ডাটা সংগ্রহ করা
        Document doc = Jsoup.connect("https://example.com").get();
        
        // 'content' ক্লাস সহ ডিভ এক্সট্র্যাক্ট করা
        Element contentDiv = doc.select("div.content").first();
        
        // শুধুমাত্র 'content' ডিভের তথ্য প্রদর্শন
        System.out.println("Extracted Content: " + contentDiv.text());
    }
}

এখানে, Jsoup.connect("https://example.com").get(); মেথডের মাধ্যমে ওয়েবসাইট থেকে HTML ডাটা সংগ্রহ করা হচ্ছে এবং তারপর div.content সিলেক্টর ব্যবহার করে নির্দিষ্ট ডিভের তথ্য এক্সট্র্যাক্ট করা হচ্ছে।

দ্রষ্টব্য: রিমোট ওয়েব পেজ থেকে ডাটা এক্সট্র্যাক্ট করার জন্য আপনার ইন্টারনেট সংযোগ সক্রিয় থাকতে হবে এবং নিশ্চিত করতে হবে যে আপনার প্রোগ্রামটি Jsoup এর সাথে HTTP রিকোয়েস্ট পাঠাতে সক্ষম।

Partial Page Fetching এর উপকারিতা

ডাটা এক্সট্র্যাকশনে দ্রুততা: পুরো পেজ থেকে শুধু প্রয়োজনীয় অংশটি এক্সট্র্যাক্ট করার ফলে প্রক্রিয়াটি দ্রুত এবং অধিক কার্যকরী হয়।
ওয়েব স্ক্র্যাপিং: ওয়েব স্ক্র্যাপিংয়ের সময় আমরা প্রায়ই সম্পূর্ণ HTML পেজের পরিবর্তে শুধু নির্দিষ্ট ডেটা এক্সট্র্যাক্ট করতে চাই, যেমন একটি নির্দিষ্ট টেবিল বা প্যারাগ্রাফ।
সম্পূর্ণ পেজ লোড করার প্রয়োজন নেই: পূর্ণ HTML পেজ লোড না করে শুধুমাত্র নির্দিষ্ট অংশটি এক্সট্র্যাক্ট করা গেলে সম্পদের ব্যবহার কমে যায়।

সারাংশ

JSoup ব্যবহার করে HTML পেজ থেকে নির্দিষ্ট অংশ এক্সট্র্যাক্ট করা খুব সহজ এবং কার্যকরী। select() মেথডের মাধ্যমে নির্দিষ্ট সিলেক্টর ব্যবহার করে আপনি HTML ডকুমেন্টের কোন অংশও এক্সট্র্যাক্ট করতে পারেন। রিমোট ওয়েবসাইট থেকে ডাটা এক্সট্র্যাক্ট করতে হলে Jsoup.connect() মেথড ব্যবহার করা হয়। এই প্রক্রিয়া ওয়েব স্ক্র্যাপিং এবং ডাটা এক্সট্র্যাকশনে অত্যন্ত উপকারী।

Content added By

Md Zahid Hasan

Ajax এর মাধ্যমে Dynamic Content লোড করা JSoup এর সীমাবদ্ধতা এবং Dynamic Content Fetching এর জন্য টিপস

Practical উদাহরণ: JSoup দিয়ে Partial Page Fetching

Partial Page Fetching এর উদাহরণ

উদাহরণ: Partial Page Fetching with JSoup

আউটপুট:

External Page থেকে Partial Content Fetch করা

উদাহরণ: External Page Fetching

Partial Page Fetching এর উপকারিতা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Practical উদাহরণ: JSoup দিয়ে Partial Page Fetching

Partial Page Fetching এর উদাহরণ

উদাহরণ: Partial Page Fetching with JSoup

আউটপুট:

External Page থেকে Partial Content Fetch করা

উদাহরণ: External Page Fetching

Partial Page Fetching এর উপকারিতা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!