News Websites থেকে Data Extraction

JSoup এবং Web Scraping এর বাস্তব উদাহরণ - জেসুপ (JSoup) - Java Technologies

261

JSoup হল একটি শক্তিশালী লাইব্রেরি যা HTML ডকুমেন্ট ম্যানিপুলেশন এবং ডেটা এক্সট্র্যাকশনের জন্য ব্যবহৃত হয়। ওয়েব স্ক্র্যাপিং-এর মাধ্যমে আপনি নিউজ ওয়েবসাইট থেকে বিভিন্ন ধরনের ডেটা যেমন শিরোনাম, প্যারাগ্রাফ, তারিখ, ছবি ইত্যাদি এক্সট্র্যাক্ট করতে পারেন। JSoup এর মাধ্যমে HTML ডকুমেন্ট পার্সিং সহজ এবং দ্রুত, যা আপনাকে বিভিন্ন নিউজ ওয়েবসাইটের তথ্য সংগ্রহে সাহায্য করে।

নিচে JSoup ব্যবহার করে নিউজ ওয়েবসাইট থেকে ডেটা এক্সট্র্যাক্ট করার একটি উদাহরণ দেওয়া হলো।

JSoup দিয়ে News Website থেকে Data Extraction

১. HTML Structure বুঝে নেওয়া

প্রথমে, আপনি যে নিউজ ওয়েবসাইট থেকে ডেটা এক্সট্র্যাক্ট করতে চান তার HTML স্ট্রাকচার বুঝে নিতে হবে। এজন্য আপনি ব্রাউজারের Developer Tools ব্যবহার করে সঠিক ট্যাগ এবং ক্লাস/আইডি নির্ধারণ করতে পারেন যা নিউজ কনটেন্ট ধারণ করে।

ধরা যাক, আপনার লক্ষ্য নিউজ ওয়েবসাইটের শিরোনাম (headline) এবং প্রথম প্যারাগ্রাফ (paragraph) এক্সট্র্যাক্ট করা।

২. JSoup দিয়ে HTML ডকুমেন্ট পার্স করা

ধরা যাক, একটি সাধারণ নিউজ ওয়েবসাইটের HTML স্ট্রাকচার নিম্নরূপ:

<html>
    <body>
        <div class="news-article">
            <h1 class="headline">Breaking News: Major Event Occurs</h1>
            <p class="lead">This is the first paragraph of the article.</p>
            <p class="content">Here is the full article content...</p>
        </div>
    </body>
</html>

৩. JSoup কোড উদাহরণ

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class NewsScraper {
    public static void main(String[] args) throws Exception {
        // ওয়েব পেজের URL
        String url = "https://example.com/news-article";  // এখানে আপনার নিউজ ওয়েবসাইটের URL দিবেন
        
        // JSoup দিয়ে HTML ডকুমেন্ট পার্স করা
        Document doc = Jsoup.connect(url).get();
        
        // হেডলাইন এক্সট্র্যাক্ট করা
        Element headline = doc.select("h1.headline").first();
        System.out.println("Headline: " + headline.text());  // Output: Breaking News: Major Event Occurs
        
        // প্রথম প্যারাগ্রাফ এক্সট্র্যাক্ট করা
        Element leadParagraph = doc.select("p.lead").first();
        System.out.println("Lead Paragraph: " + leadParagraph.text());  // Output: This is the first paragraph of the article.
    }
}

৪. কোড ব্যাখ্যা

Jsoup.connect(url).get(); - এই লাইনটি JSoup ব্যবহার করে নির্দিষ্ট URL থেকে HTML ডকুমেন্ট ডাউনলোড এবং পার্স করে।
doc.select("h1.headline").first(); - এই লাইনটি <h1> ট্যাগের মধ্যে headline ক্লাসের প্রথম উপাদানটি নির্বাচন করে।
doc.select("p.lead").first(); - এই লাইনটি <p> ট্যাগের মধ্যে lead ক্লাসের প্রথম প্যারাগ্রাফটি নির্বাচন করে।

অন্যান্য Data Extraction

আপনি JSoup দিয়ে নিউজ ওয়েবসাইট থেকে আরও অনেক ধরনের তথ্য এক্সট্র্যাক্ট করতে পারেন যেমন তারিখ, লেখক, ছবি, লিঙ্ক ইত্যাদি। নিচে আরও কিছু উদাহরণ দেওয়া হলো।

১. নিউজের তারিখ এবং লেখক এক্সট্র্যাক্ট করা

ধরা যাক, নিউজ ওয়েবসাইটের HTML এ তারিখ এবং লেখকের তথ্য নিচের মতো রয়েছে:

<p class="date">December 23, 2024</p>
<p class="author">By John Doe</p>

এক্ষেত্রে, এই তথ্য এক্সট্র্যাক্ট করার জন্য কোড হবে:

Element date = doc.select("p.date").first();
Element author = doc.select("p.author").first();

System.out.println("Date: " + date.text());  // Output: December 23, 2024
System.out.println("Author: " + author.text());  // Output: By John Doe

২. ছবির URL এক্সট্র্যাক্ট করা

নিউজ ওয়েবসাইটে একটি ছবি যদি <img> ট্যাগে থাকে এবং তার src অ্যাট্রিবিউটের মধ্যে ছবি সংরক্ষিত থাকে, তাহলে সেটি এক্সট্র্যাক্ট করা যায়:

<img class="article-image" src="https://example.com/image.jpg" alt="News Image">

এক্ষেত্রে ছবির URL এক্সট্র্যাক্ট করতে JSoup কোড হবে:

Element image = doc.select("img.article-image").first();
String imageUrl = image.attr("src");
System.out.println("Image URL: " + imageUrl);  // Output: https://example.com/image.jpg

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু টিপস

ক্লাস এবং আইডি সঠিকভাবে নির্বাচন করুন: HTML ডকুমেন্টের স্ট্রাকচার বুঝে সঠিক CSS সিলেক্টর ব্যবহার করুন।
Error Handling: কিছু ওয়েবসাইটে HTML সঠিকভাবে স্ট্রাকচারড নাও হতে পারে, সেক্ষেত্রে উপযুক্ত error handling ব্যবহার করুন।
Rate Limiting: ওয়েব স্ক্র্যাপিং করার সময় অনেকগুলি রিকোয়েস্ট পাঠানো হতে পারে, তাই ওয়েবসাইটের সার্ভারে চাপ না পড়ার জন্য স্লো বা থ্রোটলিং ব্যবহার করুন।
Legal Considerations: ওয়েব স্ক্র্যাপিং করার আগে ওয়েবসাইটের টার্মস এবং কন্ডিশন চেক করে দেখুন। কিছু ওয়েবসাইটে স্ক্র্যাপিং নিষিদ্ধ থাকতে পারে।

সারাংশ

JSoup একটি শক্তিশালী টুল যা HTML ডকুমেন্ট পার্সিং এবং ডেটা এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। আপনি JSoup দিয়ে নিউজ ওয়েবসাইট থেকে সহজেই বিভিন্ন তথ্য যেমন শিরোনাম, প্যারাগ্রাফ, তারিখ, লেখক, ছবি ইত্যাদি এক্সট্র্যাক্ট করতে পারেন। তবে, ওয়েব স্ক্র্যাপিং করার সময় ওয়েবসাইটের HTML স্ট্রাকচার, error handling এবং legal concerns সম্পর্কে সচেতন থাকা উচিত।

Content added By

Md Zahid Hasan

Product Data Scraping এর জন্য JSoup ব্যবহার Job Listing Data Extraction Practical উদাহরণ: Real-life Web Scraping Project

News Websites থেকে Data Extraction

JSoup দিয়ে News Website থেকে Data Extraction

১. HTML Structure বুঝে নেওয়া

২. JSoup দিয়ে HTML ডকুমেন্ট পার্স করা

৩. JSoup কোড উদাহরণ

৪. কোড ব্যাখ্যা

অন্যান্য Data Extraction

১. নিউজের তারিখ এবং লেখক এক্সট্র্যাক্ট করা

২. ছবির URL এক্সট্র্যাক্ট করা

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু টিপস

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

News Websites থেকে Data Extraction

JSoup দিয়ে News Website থেকে Data Extraction

১. HTML Structure বুঝে নেওয়া

২. JSoup দিয়ে HTML ডকুমেন্ট পার্স করা

৩. JSoup কোড উদাহরণ

৪. কোড ব্যাখ্যা

অন্যান্য Data Extraction

১. নিউজের তারিখ এবং লেখক এক্সট্র্যাক্ট করা

২. ছবির URL এক্সট্র্যাক্ট করা

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু টিপস

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!