XPath এর মাধ্যমে Complex HTML Elements Extraction

XPath এবং JSoup Integration - জেসুপ (JSoup) - Java Technologies

299

XPath (XML Path Language) একটি ভাষা যা XML বা HTML ডকুমেন্টের মধ্যে নির্দিষ্ট উপাদানগুলিকে সনাক্ত করতে ব্যবহৃত হয়। জেসুপ (JSoup) সরাসরি XPath সমর্থন করে না, তবে আপনি CSS সিলেক্টর ব্যবহার করে HTML ডকুমেন্টের মধ্যে উপাদান নির্বাচন করতে পারেন, যা XPath এর সমতুল্য একটি পদ্ধতি।

এখন, আমরা জেসুপ দিয়ে CSS সিলেক্টর ব্যবহার করে কিভাবে কমপ্লেক্স HTML উপাদান এক্সট্র্যাক্ট করা যায়, তা দেখবো।

জেসুপ দিয়ে Complex HTML Elements Extraction

HTML ডকুমেন্টের উদাহরণ

ধরা যাক, আমাদের একটি জটিল HTML ডকুমেন্ট আছে যেখানে বিভিন্ন ধরণের ট্যাগ এবং ক্লাস রয়েছে। নিচে এমন একটি উদাহরণ দেওয়া হয়েছে:

<html>
<head>
    <title>Complex HTML Example</title>
</head>
<body>
    <div class="container">
        <h1>Welcome to the Complex HTML Example</h1>
        <p class="intro">This is an introduction paragraph.</p>
        <div class="section">
            <h2>Section 1</h2>
            <p class="description">This is the first section's description.</p>
        </div>
        <div class="section">
            <h2>Section 2</h2>
            <p class="description">This is the second section's description.</p>
        </div>
        <a href="https://example.com" class="link">Go to Example</a>
    </div>
</body>
</html>

এখানে, একটি div ট্যাগের মধ্যে কয়েকটি উপাদান রয়েছে, যেমন h1, p, এবং a ট্যাগ, যা আলাদা আলাদা ক্লাস সহ রয়েছে।

CSS সিলেক্টর ব্যবহার করে Complex Elements Extraction

জেসুপ সরাসরি XPath সমর্থন না করলেও, CSS সিলেক্টর ব্যবহার করে আপনি কার্যকরভাবে HTML উপাদান এক্সট্র্যাক্ট করতে পারেন। CSS সিলেক্টরের মাধ্যমে আমরা খুব সহজেই যেকোনো HTML ট্যাগ বা ক্লাস নির্বাচন করতে পারি।

উদাহরণ

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupXPathExample {
    public static void main(String[] args) throws Exception {
        String html = "<html><head><title>Complex HTML Example</title></head><body>" +
                      "<div class='container'>" +
                      "<h1>Welcome to the Complex HTML Example</h1>" +
                      "<p class='intro'>This is an introduction paragraph.</p>" +
                      "<div class='section'>" +
                      "<h2>Section 1</h2>" +
                      "<p class='description'>This is the first section's description.</p>" +
                      "</div>" +
                      "<div class='section'>" +
                      "<h2>Section 2</h2>" +
                      "<p class='description'>This is the second section's description.</p>" +
                      "</div>" +
                      "<a href='https://example.com' class='link'>Go to Example</a>" +
                      "</div>" +
                      "</body></html>";
        
        // HTML পার্স করা
        Document doc = Jsoup.parse(html);
        
        // CSS সিলেক্টর ব্যবহার করে বিভিন্ন উপাদান এক্সট্র্যাক্ট করা
        Element title = doc.select("h1").first();  // প্রথম h1 ট্যাগ
        Element introParagraph = doc.select(".intro").first();  // intro ক্লাসের প্রথম p ট্যাগ
        Elements sections = doc.select(".section");  // সকল section ক্লাসের div ট্যাগ
        Element link = doc.select(".link").first();  // link ক্লাসের প্রথম a ট্যাগ
        
        // উপাদানগুলো প্রদর্শন করা
        System.out.println("Title: " + title.text());
        System.out.println("Intro Paragraph: " + introParagraph.text());
        
        for (Element section : sections) {
            System.out.println("Section: " + section.select("h2").text() + " - " + section.select(".description").text());
        }
        
        System.out.println("Link: " + link.attr("href"));
    }
}

ব্যাখ্যা

doc.select("h1").first() — এই CSS সিলেক্টর প্রথম h1 ট্যাগটি নির্বাচন করে।
doc.select(".intro").first() — এখানে .intro ক্লাসের প্রথম p ট্যাগটি নির্বাচন করা হয়েছে।
doc.select(".section") — .section ক্লাসের সকল div ট্যাগ নির্বাচন করা হয়েছে।
doc.select(".link").first() — .link ক্লাসের প্রথম a ট্যাগটি নির্বাচন করা হয়েছে।
.text() এবং .attr("href") — .text() মেথড দ্বারা টেক্সট এক্সট্র্যাক্ট করা এবং .attr("href") দ্বারা লিঙ্কের URL পাওয়া গেছে।

XPath এর সাথে তুলনা

যদিও জেসুপ সরাসরি XPath সমর্থন করে না, তবুও CSS সিলেক্টর ব্যবহার করে আপনি কার্যকরভাবে XPath এর মতো ফিচার পেতে পারেন। XPath এর মতোই, CSS সিলেক্টরও নির্দিষ্ট উপাদান নির্বাচন করতে সাহায্য করে, তবে XPath সিলেকশন অনেক বেশি জটিল এবং নিখুঁত হতে পারে।

সারাংশ

জেসুপ (JSoup) সরাসরি XPath সমর্থন না করলেও, CSS সিলেক্টরের মাধ্যমে আপনি HTML ডকুমেন্টের জটিল উপাদানগুলো সহজে এক্সট্র্যাক্ট করতে পারেন। CSS সিলেক্টরের ব্যবহার খুবই সহজ এবং কার্যকর, যা আপনাকে বিভিন্ন ট্যাগ, ক্লাস এবং অন্যান্য HTML উপাদান সিলেক্ট করতে সহায়তা করে। select() মেথড ব্যবহার করে সহজেই কমপ্লেক্স HTML ডকুমেন্ট থেকে ডাটা বের করা সম্ভব।

Content added By

Md Zahid Hasan

XPath কি এবং JSoup এর সাথে Integration XPath এবং CSS Selectors এর তুলনা Practical উদাহরণ: XPath এবং JSoup ব্যবহার করে Data Extraction

XPath এর মাধ্যমে Complex HTML Elements Extraction

জেসুপ দিয়ে Complex HTML Elements Extraction

HTML ডকুমেন্টের উদাহরণ

CSS সিলেক্টর ব্যবহার করে Complex Elements Extraction

উদাহরণ

ব্যাখ্যা

XPath এর সাথে তুলনা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

XPath এর মাধ্যমে Complex HTML Elements Extraction

জেসুপ দিয়ে Complex HTML Elements Extraction

HTML ডকুমেন্টের উদাহরণ

CSS সিলেক্টর ব্যবহার করে Complex Elements Extraction

উদাহরণ

ব্যাখ্যা

XPath এর সাথে তুলনা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!