জেসুপ (JSoup) লাইব্রেরি HTML ফাইল পার্সিং-এর জন্য বিভিন্ন কার্যকরী মেথড সরবরাহ করে, যা ডেভেলপারদের HTML ডকুমেন্টের মধ্যে থাকা তথ্য সহজে এক্সট্র্যাক্ট করতে এবং ম্যানিপুলেট করতে সাহায্য করে। নিচে কিছু গুরুত্বপূর্ণ মেথড এবং তাদের ব্যবহার নিয়ে আলোচনা করা হবে।
HTML ফাইল পার্সিং এর জন্য প্রধান মেথড
Jsoup.parse()
এটি HTML স্ট্রিংকে ডকুমেন্ট অবজেক্ট মডেলে (DOM) রূপান্তরিত করার জন্য ব্যবহৃত হয়। সাধারণত এটি HTML স্ট্রিং বা URL থেকে ডকুমেন্ট পার্স করতে ব্যবহার করা হয়।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class JsoupExample {
public static void main(String[] args) throws Exception {
String html = "<html><head><title>Example</title></head><body><h1>Welcome to JSoup</h1></body></html>";
// HTML স্ট্রিং পার্স করা
Document doc = Jsoup.parse(html);
System.out.println(doc.title()); // "Example"
}
}
Jsoup.parse(File in)
এই মেথডটি একটি লোকাল HTML ফাইলকে ডকুমেন্টে রূপান্তরিত করে। এটি ফাইল সিস্টেম থেকে HTML ফাইল পার্স করতে ব্যবহৃত হয়।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.File;
public class JsoupExample {
public static void main(String[] args) throws Exception {
File input = new File("path/to/file.html");
// HTML ফাইল পার্স করা
Document doc = Jsoup.parse(input, "UTF-8");
System.out.println(doc.title());
}
}
Jsoup.connect(String url)
এটি একটি URL থেকে HTML ডকুমেন্ট পার্স করার জন্য ব্যবহৃত হয়। এই মেথডটি ওয়েবপেজ থেকে ডাটা এক্সট্র্যাক্ট করার সময় খুবই কার্যকরী।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class JsoupExample {
public static void main(String[] args) throws Exception {
String url = "https://example.com";
// URL থেকে HTML ডকুমেন্ট পার্স করা
Document doc = Jsoup.connect(url).get();
System.out.println(doc.title());
}
}
HTML ফাইল থেকে ডেটা এক্সট্র্যাক্ট করা
doc.select(String query)
এটি CSS সিলেক্টর ব্যবহার করে ডকুমেন্টের নির্দিষ্ট অংশ সিলেক্ট করতে ব্যবহৃত হয়। এর মাধ্যমে ট্যাগ, ক্লাস, আইডি বা অ্যাট্রিবিউট অনুসারে HTML এলিমেন্ট সিলেক্ট করা যায়।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupExample {
public static void main(String[] args) throws Exception {
String html = "<html><body><h1 class='header'>Welcome to JSoup</h1></body></html>";
// CSS সিলেক্টর ব্যবহার করে এলিমেন্ট সিলেক্ট করা
Document doc = Jsoup.parse(html);
Element heading = doc.select("h1.header").first();
System.out.println(heading.text()); // "Welcome to JSoup"
}
}
doc.getElementById(String id)
এটি HTML ডকুমেন্টের একটি নির্দিষ্ট আইডি দ্বারা উপাদান সিলেক্ট করার জন্য ব্যবহৃত হয়।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupExample {
public static void main(String[] args) throws Exception {
String html = "<html><body><h1 id='mainHeader'>Welcome to JSoup</h1></body></html>";
// আইডি ব্যবহার করে এলিমেন্ট সিলেক্ট করা
Document doc = Jsoup.parse(html);
Element heading = doc.getElementById("mainHeader");
System.out.println(heading.text()); // "Welcome to JSoup"
}
}
doc.select("tag")
এটি HTML ট্যাগের মাধ্যমে একাধিক এলিমেন্ট সিলেক্ট করতে ব্যবহৃত হয়।
উদাহরণ:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import java.util.List;
public class JsoupExample {
public static void main(String[] args) throws Exception {
String html = "<html><body><p>First Paragraph</p><p>Second Paragraph</p></body></html>";
// প্যারাগ্রাফ ট্যাগ সিলেক্ট করা
Document doc = Jsoup.parse(html);
List<Element> paragraphs = doc.select("p");
for (Element paragraph : paragraphs) {
System.out.println(paragraph.text());
}
}
}
সারাংশ
জেসুপ (JSoup) Java-তে HTML ফাইল পার্সিং-এর জন্য শক্তিশালী এবং কার্যকরী মেথড সরবরাহ করে। Jsoup.parse(), Jsoup.parse(File in), এবং Jsoup.connect(String url) এর মাধ্যমে HTML ডকুমেন্ট পার্স করা সম্ভব। এছাড়াও, CSS সিলেক্টর এবং অন্যান্য মেথড যেমন select(), getElementById() ব্যবহার করে HTML ডকুমেন্টের বিভিন্ন উপাদানকে সহজে এক্সট্র্যাক্ট করা যায়।