Web Scraping in R (R এ ওয়েব স্ক্র্যাপিং)

আর প্রোগ্রামিং (R Programming) - Computer Programming

291

R এ ওয়েব স্ক্র্যাপিং (Web Scraping in R)

ওয়েব স্ক্র্যাপিং হলো ওয়েব পেজ থেকে ডেটা সংগ্রহ করার প্রক্রিয়া। R প্রোগ্রামিং ভাষায় ওয়েব স্ক্র্যাপিংয়ের জন্য বেশ কিছু শক্তিশালী প্যাকেজ রয়েছে, যেমন rvest, httr, এবং XML। এসব প্যাকেজের সাহায্যে ওয়েবসাইট থেকে ডেটা সংগ্রহ করে ডেটা বিশ্লেষণ এবং গবেষণার জন্য ব্যবহার করা যায়।

ওয়েব স্ক্র্যাপিংয়ের ধাপসমূহ

ওয়েব পেজ নির্বাচন: যে ওয়েব পেজ থেকে ডেটা সংগ্রহ করতে হবে, তা নির্বাচন করা।
ডেটার অবস্থান নির্ধারণ: পেজের HTML থেকে কাঙ্ক্ষিত ডেটার অবস্থান খুঁজে বের করা, যা CSS সিলেক্টর বা XPath দিয়ে করা যায়।
ডেটা এক্সট্রাক্ট করা: HTML থেকে ডেটা সংগ্রহ করা এবং প্রয়োজনীয় ফরম্যাটে সংরক্ষণ করা।
ডেটা প্রক্রিয়াকরণ ও বিশ্লেষণ: সংগ্রহ করা ডেটা বিশ্লেষণ করা।

rvest প্যাকেজ ব্যবহার করে ওয়েব স্ক্র্যাপিং

rvest R এ ওয়েব স্ক্র্যাপিংয়ের জন্য অত্যন্ত জনপ্রিয় এবং সহজ একটি প্যাকেজ। এটি HTML থেকে টেবিল, তালিকা, প্যারাগ্রাফ, লিংক, এবং অন্যান্য উপাদানগুলো সহজেই এক্সট্রাক্ট করতে সাহায্য করে।

উদাহরণ: ওয়েব স্ক্র্যাপিং

নিচে একটি উদাহরণ দেওয়া হলো, যেখানে আমরা একটি ওয়েব পেজ থেকে শিরোনাম, মূল্য, এবং বিবরণ সংগ্রহ করব।

# rvest প্যাকেজ ইনস্টল এবং লোড
install.packages("rvest")
library(rvest)

# ওয়েব পেজের URL
url <- "https://example.com/products" # এখানে আপনার কাঙ্ক্ষিত URL ব্যবহার করুন

# ওয়েব পেজ পড়া
webpage <- read_html(url)

# শিরোনাম এক্সট্রাক্ট করা
titles <- webpage %>% html_nodes(".product-title") %>% html_text()
print(titles)

# মূল্য এক্সট্রাক্ট করা
prices <- webpage %>% html_nodes(".product-price") %>% html_text()
print(prices)

# বিবরণ এক্সট্রাক্ট করা
descriptions <- webpage %>% html_nodes(".product-description") %>% html_text()
print(descriptions)

# সংগ্রহ করা ডেটা ডেটা ফ্রেমে সংরক্ষণ করা
product_data <- data.frame(Title = titles, Price = prices, Description = descriptions)
print(product_data)

উপরের উদাহরণে .product-title, .product-price, এবং .product-description হল CSS সিলেক্টর যা ডেটা এক্সট্রাক্ট করতে ব্যবহৃত হয়েছে।

XPath ব্যবহার করে ডেটা এক্সট্রাক্ট করা

XPath একটি পাথ এক্সপ্রেশন যা HTML এবং XML ডকুমেন্টের নির্দিষ্ট উপাদান এক্সট্রাক্ট করতে ব্যবহৃত হয়। html_nodes() ফাংশনের মাধ্যমে XPath সিলেক্টর ব্যবহার করা যায়।

# ওয়েব পেজের URL
url <- "https://example.com/products" 

# ওয়েব পেজ পড়া
webpage <- read_html(url)

# শিরোনাম এক্সট্রাক্ট করা (XPath ব্যবহার করে)
titles <- webpage %>% html_nodes(xpath = "//h2[@class='product-title']") %>% html_text()
print(titles)

# মূল্য এক্সট্রাক্ট করা (XPath ব্যবহার করে)
prices <- webpage %>% html_nodes(xpath = "//span[@class='product-price']") %>% html_text()
print(prices)

টেবিল ডেটা স্ক্র্যাপিং

অনেক ওয়েবসাইটে ডেটা টেবিল আকারে থাকে। R এ html_table() ফাংশন ব্যবহার করে সহজেই HTML টেবিল থেকে ডেটা সংগ্রহ করা যায়।

# ওয়েব পেজের URL
url <- "https://example.com/data-table"

# ওয়েব পেজ পড়া
webpage <- read_html(url)

# টেবিল ডেটা এক্সট্রাক্ট করা
tables <- webpage %>% html_table()
data_table <- tables[[1]]  # প্রথম টেবিলটি নির্বাচন করা
print(data_table)

লিংক এবং ইমেজ এক্সট্রাক্ট করা

ওয়েব পেজ থেকে লিংক এবং ইমেজ ইউআরএল সংগ্রহ করতে html_attr() ফাংশন ব্যবহার করা হয়।

# লিংক এক্সট্রাক্ট করা
links <- webpage %>% html_nodes("a") %>% html_attr("href")
print(links)

# ইমেজ ইউআরএল এক্সট্রাক্ট করা
images <- webpage %>% html_nodes("img") %>% html_attr("src")
print(images)

httr প্যাকেজ ব্যবহার করে ওয়েব স্ক্র্যাপিং

httr প্যাকেজের মাধ্যমে HTTP রিকোয়েস্ট পাঠানো যায় এবং এর মাধ্যমে ওয়েব পেজের ডেটা সংগ্রহ করা যায়। এটি বিশেষভাবে API থেকে ডেটা সংগ্রহ করতে ব্যবহৃত হয়।

# httr প্যাকেজ ইনস্টল এবং লোড
install.packages("httr")
library(httr)

# HTTP GET রিকোয়েস্ট পাঠানো
response <- GET("https://api.example.com/data")

# কন্টেন্ট পড়া
data <- content(response, "text")
print(data)

রোবটস ডট টিএক্সটি এবং লিগ্যালিটি

ওয়েব স্ক্র্যাপিং করার আগে ওয়েবসাইটের robots.txt ফাইল দেখে নেওয়া উচিত। এটি নির্দেশ করে কোন অংশ স্ক্র্যাপ করা অনুমোদিত এবং কোন অংশ নয়।

উদাহরণ:

# robots.txt ফাইল চেক করা
robots_url <- "https://example.com/robots.txt"
robots <- readLines(robots_url)
print(robots)

সারসংক্ষেপ

R এ ওয়েব স্ক্র্যাপিং এর জন্য বিভিন্ন পদ্ধতি এবং প্যাকেজ রয়েছে যা ডেটা সংগ্রহ এবং বিশ্লেষণে সহায়ক:

rvest: HTML থেকে টেক্সট, লিংক, টেবিল ইত্যাদি এক্সট্রাক্ট করতে ব্যবহৃত।
XPath এবং CSS সিলেক্টর: নির্দিষ্ট HTML উপাদান সহজে নির্বাচন করতে সাহায্য করে।
html_table(): ওয়েব পেজের টেবিল ডেটা সংগ্রহের জন্য।
httr: HTTP রিকোয়েস্ট এবং API ডেটা সংগ্রহ করতে ব্যবহৃত।

ওয়েব স্ক্র্যাপিং প্রক্রিয়া শুরু করার আগে ওয়েবসাইটের নীতিমালা এবং robots.txt ফাইল দেখে নেওয়া গুরুত্বপূর্ণ। R এর এই টুলগুলো ব্যবহার করে সহজেই বিভিন্ন সাইট থেকে কাঙ্ক্ষিত ডেটা সংগ্রহ এবং বিশ্লেষণ করা সম্ভব।

Content added By

Azizar Rahman Aziz

Web Scraping এর মৌলিক ধারণা

378

Web Scraping এর মৌলিক ধারণা

Web Scraping হল একটি প্রক্রিয়া যার মাধ্যমে ইন্টারনেট থেকে ডেটা সংগ্রহ করা হয়। এটি ওয়েবসাইটের HTML কোড থেকে প্রয়োজনীয় তথ্য নিষ্কাশন করে এবং সেই তথ্যকে একটি গঠনমূলক ফরম্যাটে (যেমন CSV, Excel, Database) সংরক্ষণ করে।

ওয়েব স্ক্র্যাপিং বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়, যেমন গবেষণা, ব্যবসায়িক বিশ্লেষণ, প্রতিযোগিতামূলক তথ্য সংগ্রহ, এবং আরও অনেক কিছু।

Web Scraping এর প্রধান উপাদান

HTML ও CSS: ওয়েব পেজের কন্টেন্ট HTML এবং CSS দিয়ে তৈরি করা হয়। HTML থেকে কাঠামোগত ডেটা এবং CSS থেকে কন্টেন্টের স্টাইল ও বিন্যাস পাওয়া যায়।
XPath এবং CSS Selectors: ওয়েব পেজের নির্দিষ্ট উপাদানগুলি চিহ্নিত করতে XPath এবং CSS Selectors ব্যবহার করা হয়। এগুলি কন্টেন্ট থেকে নির্দিষ্ট অংশগুলো নিষ্কাশন করতে সাহায্য করে।
HTTP Requests: ওয়েব স্ক্র্যাপিং করার জন্য HTTP প্রোটোকলের মাধ্যমে ওয়েব পেজে রিকোয়েস্ট পাঠানো হয় এবং রেসপন্স হিসেবে পেজের HTML কোড পাওয়া যায়।
Parser: HTML বা XML ডেটা পার্স করে কাঠামোগত ডেটা আকারে সংগ্রহ করার জন্য Parser ব্যবহৃত হয়। R এ rvest প্যাকেজ ব্যবহার করে এই কাজ করা যায়।

Web Scraping এর প্রয়োজনীয়তা

ডেটা সংগ্রহ ও বিশ্লেষণ: বিভিন্ন ওয়েবসাইট থেকে ডেটা সংগ্রহ করে ব্যবসায়িক বিশ্লেষণ, গবেষণা এবং বিভিন্ন পূর্বাভাস তৈরি করা যায়।
বাজার বিশ্লেষণ: প্রতিযোগিতামূলক বাজার বিশ্লেষণের জন্য বিভিন্ন ই-কমার্স সাইট থেকে প্রোডাক্টের দাম, রিভিউ, এবং রেটিং সংক্রান্ত ডেটা সংগ্রহ করা হয়।
কাস্টমার ফিডব্যাক ও রিভিউ: কাস্টমার রিভিউ এবং ফিডব্যাক সংগ্রহ করে প্রোডাক্ট বা সার্ভিসের মান উন্নয়ন করা যায়।
নিউজ এবং ট্রেন্ড মনিটরিং: বিভিন্ন সংবাদ এবং সামাজিক মিডিয়া সাইট থেকে তথ্য সংগ্রহ করে ট্রেন্ড বিশ্লেষণ করা হয়।
বিজ্ঞান ও গবেষণা: গবেষণা, বিজ্ঞান, এবং স্বাস্থ্য সংক্রান্ত বিভিন্ন তথ্য ওয়েব থেকে স্ক্র্যাপ করে গবেষণার জন্য ব্যবহৃত হয়।

R-এ Web Scraping এর উদাহরণ

R এ rvest প্যাকেজ ব্যবহার করে সহজেই Web Scraping করা যায়। এটি সহজ এবং ব্যবহার উপযোগী একটি প্যাকেজ, যা ওয়েবসাইট থেকে তথ্য সংগ্রহ করে।

উদাহরণ: `rvest` ব্যবহার করে ওয়েব পেজ থেকে টাইটেল সংগ্রহ করা

# rvest প্যাকেজ ইন্সটল এবং লোড করা
install.packages("rvest")
library(rvest)

# ওয়েব পেজের URL
url <- "https://example.com"

# ওয়েব পেজ থেকে HTML ডেটা সংগ্রহ করা
webpage <- read_html(url)

# পেজের টাইটেল সংগ্রহ করা
title <- webpage %>% html_nodes("title") %>% html_text()
print(title)

এখানে, read_html() ফাংশন ব্যবহার করে ওয়েব পেজটি লোড করা হয়েছে এবং html_nodes() এবং html_text() ফাংশনের মাধ্যমে নির্দিষ্ট HTML ট্যাগ (যেমন <title>) থেকে ডেটা নিষ্কাশন করা হয়েছে।

Web Scraping এর ধাপসমূহ

ওয়েবসাইটের HTML কোড বিশ্লেষণ: ওয়েবসাইটের কাঠামো এবং প্রয়োজনীয় তথ্যের HTML ট্যাগ চিহ্নিত করতে হয়।
HTTP রিকোয়েস্ট পাঠানো: ওয়েবসাইটে HTTP রিকোয়েস্ট পাঠানো হয় এবং HTML কোড সংগ্রহ করা হয়।
HTML থেকে প্রয়োজনীয় ডেটা নিষ্কাশন করা: HTML কোড পার্স করে নির্দিষ্ট ট্যাগ বা এলিমেন্ট থেকে প্রয়োজনীয় ডেটা নিষ্কাশন করা হয়।
ডেটা পরিষ্কার করা এবং সংরক্ষণ করা: নিষ্কাশিত ডেটাকে একটি গঠনমূলক ফরম্যাটে রূপান্তরিত করে CSV, Excel বা ডাটাবেসে সংরক্ষণ করা হয়।

Web Scraping এর আইনগত দিক

ওয়েব স্ক্র্যাপিং করার সময় কয়েকটি গুরুত্বপূর্ণ আইনগত দিক বিবেচনা করা উচিত:

ওয়েবসাইটের Terms of Service (ToS): কিছু ওয়েবসাইটে স্ক্র্যাপিং নিষিদ্ধ হতে পারে। তাই ToS পড়ে নেয়া জরুরি।
Robots.txt ফাইল: Robots.txt ফাইলে ওয়েবসাইটের স্ক্র্যাপিং নীতিমালা উল্লেখ থাকে। এই ফাইলটি স্ক্র্যাপিংয়ের আগে পরীক্ষা করা উচিত।
উদ্দেশ্য: তথ্য সংগ্রহের উদ্দেশ্য যদি ওয়েবসাইটের ক্ষতির কারণ হয় তবে তা বেআইনি হতে পারে।

Web Scraping এর সুবিধা এবং সীমাবদ্ধতা

সুবিধা

দ্রুত এবং কার্যকর তথ্য সংগ্রহ: স্ক্র্যাপিং ব্যবহার করে দ্রুত এবং স্বয়ংক্রিয়ভাবে ডেটা সংগ্রহ করা যায়।
কাস্টমাইজড ডেটা সংগ্রহ: নির্দিষ্ট তথ্য সংগ্রহ এবং বিশ্লেষণ সহজ হয়।
বিভিন্ন ক্ষেত্রে প্রয়োগযোগ্য: ব্যবসা, গবেষণা এবং বিশ্লেষণের বিভিন্ন ক্ষেত্রে প্রয়োজনীয় তথ্য সংগ্রহ করা যায়।

সীমাবদ্ধতা

আইনগত সমস্যা: অনেক ওয়েবসাইটে স্ক্র্যাপিং নিষিদ্ধ হতে পারে।
ওয়েবসাইট পরিবর্তন: ওয়েবসাইটের কাঠামো পরিবর্তন হলে স্ক্র্যাপিং স্ক্রিপ্ট কাজ করবে না।
স্ক্র্যাপিংয়ের জটিলতা: কিছু ওয়েবসাইটে জটিল কাঠামো বা JavaScript ব্যবহার করা হয়, যা স্ক্র্যাপিং কঠিন করে তোলে।

সারসংক্ষেপ

Web Scraping: ইন্টারনেট থেকে তথ্য সংগ্রহের একটি প্রক্রিয়া।
প্রধান উপাদান: HTML, CSS, HTTP Requests, Parser, XPath, এবং CSS Selectors।
প্রয়োজনীয়তা: ব্যবসায়িক বিশ্লেষণ, গবেষণা, বাজার বিশ্লেষণ, এবং সামাজিক মিডিয়া মনিটরিং।
R এ ব্যবহার: rvest প্যাকেজ ব্যবহার করে R এ সহজেই Web Scraping করা যায়।
আইনগত দিক: ওয়েবসাইটের Terms of Service এবং Robots.txt ফাইল মেনে চলা প্রয়োজন।

Web Scraping একটি গুরুত্বপূর্ণ এবং কার্যকরী প্রক্রিয়া যা বিভিন্ন ক্ষেত্রে তথ্য সংগ্রহে সহায়ক। তবে এটি করার সময় ওয়েবসাইটের নীতিমালা এবং আইনগত দিক মেনে চলা আবশ্যক।

Content added By

Azizar Rahman Aziz

rvest এবং httr Package এর ব্যবহার

345

rvest এবং httr Package এর ব্যবহার in R

rvest এবং httr হল R-এ ওয়েব স্ক্র্যাপিং (web scraping) এবং API কল (API calls) করার জন্য ব্যবহৃত জনপ্রিয় প্যাকেজ। ওয়েব স্ক্র্যাপিং হল এমন একটি প্রক্রিয়া যার মাধ্যমে আপনি ওয়েবসাইট থেকে ডেটা সংগ্রহ করেন, আর API কল দিয়ে আপনি একটি সার্ভারের সাথে যোগাযোগ করে ডেটা নিয়ে আসেন।

1. `rvest` Package for Web Scraping

rvest প্যাকেজটি ওয়েব স্ক্র্যাপিংয়ের জন্য অত্যন্ত জনপ্রিয় এবং এটি xml2 প্যাকেজের উপর ভিত্তি করে কাজ করে। এটি সহজেই HTML বা XML ডকুমেন্ট থেকে ডেটা এক্সট্রাক্ট করতে সাহায্য করে।

Installing and Loading rvest Package:

# rvest প্যাকেজ ইনস্টল করা
install.packages("rvest")

# rvest প্যাকেজ লোড করা
library(rvest)

Basic Workflow of Web Scraping using rvest:

Read HTML page: প্রথমে ওয়েব পেজের HTML ডকুমেন্ট রিড করতে হয়।
Extract elements: তারপর পেজের বিভিন্ন HTML উপাদান যেমন ট্যাগ, ক্লাস, আইডি ইত্যাদি এক্সট্রাক্ট করতে হয়।
Clean the Data: এক্সট্রাক্ট করা ডেটা প্রক্রিয়া করা হয় এবং উপযুক্ত ফরম্যাটে রাখা হয়।

Example: Scraping Data from a Webpage

# URL যেখানে থেকে ডেটা স্ক্র্যাপ করা হবে
url <- "https://example.com"  # এখানে আপনার ওয়েবসাইট URL দিন

# ওয়েবপেজ রিড করা
webpage <- read_html(url)

# একটি নির্দিষ্ট উপাদান (যেমন, টাইটেল বা হেডলাইন) এক্সট্রাক্ট করা
title <- html_node(webpage, "h1") %>% html_text()

# ডেটা দেখানো
print(title)

এখানে:

read_html(url) ফাংশনটি ওয়েবপেজের HTML ডকুমেন্ট রিড করে।
html_node(webpage, "h1") ফাংশনটি <h1> ট্যাগটি সিলেক্ট করে এবং html_text() এর মাধ্যমে তার টেক্সট এক্সট্রাক্ট করা হয়।

Extracting Multiple Elements:

# একাধিক উপাদান এক্সট্রাক্ট করা (যেমন, সমস্ত লিংক)
links <- html_nodes(webpage, "a") %>% html_attr("href")

# লিংকগুলো দেখানো
print(links)

এখানে, html_nodes() ফাংশনটি ওয়েবপেজের সমস্ত <a> ট্যাগ সিলেক্ট করে এবং html_attr("href") এর মাধ্যমে লিংক (URL) এক্সট্রাক্ট করা হয়।

Handling Pagination:

অনেক ওয়েবসাইটে পেজিনেশন থাকে, যেখানে ডেটা একাধিক পৃষ্ঠায় বিভক্ত থাকে। এর জন্য rvest প্যাকেজে ওয়েবপেজগুলোর লিংক বের করে একাধিক পেজে স্ক্র্যাপিং করা যেতে পারে।

# পেজ ২ এর লিংক
next_page <- html_node(webpage, ".next") %>% html_attr("href")
next_page_url <- paste0("https://example.com", next_page)

# নতুন পেজটি এক্সট্রাক্ট করা
next_page_data <- read_html(next_page_url)

2. `httr` Package for API Calls

httr প্যাকেজটি API এর মাধ্যমে ডেটা সংগ্রহ করার জন্য ব্যবহৃত হয়। এটি HTTP রিকোয়েস্ট তৈরি এবং সার্ভার থেকে রেসপন্স গ্রহণ করতে সাহায্য করে। এর মাধ্যমে আপনি GET, POST, PUT, DELETE ইত্যাদি HTTP মেথড ব্যবহার করে API কল করতে পারবেন।

Installing and Loading httr Package:

# httr প্যাকেজ ইনস্টল করা
install.packages("httr")

# httr প্যাকেজ লোড করা
library(httr)

Basic Workflow of Making API Calls using httr:

Send HTTP request: API কল করার জন্য HTTP রিকোয়েস্ট পাঠানো হয়।
Parse the Response: সার্ভার থেকে পাওয়া রেসপন্সকে প্রক্রিয়া করা হয়।
Extract the Data: JSON বা XML রেসপন্স থেকে প্রয়োজনীয় ডেটা এক্সট্রাক্ট করা হয়।

Example: GET Request with httr

# API URL
api_url <- "https://api.exchangerate-api.com/v4/latest/USD"

# GET রিকোয়েস্ট পাঠানো
response <- GET(api_url)

# রেসপন্স দেখানো
print(response)

# JSON ডেটা পার্স করা
data <- content(response, "parsed")
print(data)

এখানে:

GET() ফাংশনটি GET রিকোয়েস্ট পাঠানোর জন্য ব্যবহৃত হয়।
content(response, "parsed") ফাংশনটি API রেসপন্সের JSON ডেটা পার্স করে।

Example: POST Request with httr

POST রিকোয়েস্ট ব্যবহৃত হয় যখন ডেটা সার্ভারে পাঠাতে হয় (যেমন, ফর্ম সাবমিট করা)।

# API URL
api_url <- "https://jsonplaceholder.typicode.com/posts"

# POST রিকোয়েস্ট পাঠানো (JSON ডেটা)
response <- POST(api_url, body = list(title = "foo", body = "bar", userId = 1), encode = "json")

# রেসপন্স দেখা
print(response)

# JSON রেসপন্স পার্স করা
response_data <- content(response, "parsed")
print(response_data)

এখানে:

POST() ফাংশনটি POST রিকোয়েস্ট পাঠায়।
encode = "json" ব্যবহার করে JSON ডেটা পাঠানো হয়।

Handling API Authentication:

অনেক API নিরাপত্তার জন্য API keys অথবা OAuth ব্যবহার করে, যার মাধ্যমে আপনার রিকোয়েস্ট প্রমাণীকৃত হয়।

# API key দিয়ে GET রিকোয়েস্ট পাঠানো
api_key <- "your_api_key"
response <- GET("https://api.example.com/data", add_headers(Authorization = paste("Bearer", api_key)))

# রেসপন্স পার্স করা
data <- content(response, "parsed")
print(data)

এখানে, add_headers() ফাংশনটি হেডারে API key যোগ করতে ব্যবহৃত হয়েছে।

rvest vs httr

Feature	rvest	httr
Usage	Mainly used for web scraping (HTML parsing)	Mainly used for interacting with APIs
Data Handling	Extracts data from HTML or XML documents	Handles HTTP requests and parses JSON/XML
Functions	`read_html()`, `html_node()`, `html_nodes()`	`GET()`, `POST()`, `content()`, `add_headers()`
Primary Focus	Extract data from websites	Send and receive HTTP requests

Conclusion

rvest: ওয়েব স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয় এবং HTML বা XML থেকে ডেটা এক্সট্রাক্ট করতে সহায়ক।
httr: API কল করার জন্য ব্যবহৃত হয় এবং GET, POST ইত্যাদি HTTP মেথডের মাধ্যমে ডেটা সার্ভার থেকে সংগ্রহ করা হয়।

এই দুটি প্যাকেজ R-এ ওয়েব ডেটা এক্সট্রাকশন এবং API থেকে ডেটা সংগ্রহের জন্য অত্যন্ত কার্যকরী।

Content added By

Azizar Rahman Aziz

HTML Parsing এবং Data Extraction

331

R-এ HTML Parsing এবং Data Extraction

HTML Parsing এবং Data Extraction হল টেক্সট ডেটা বা ওয়েব পেজ থেকে প্রয়োজনীয় তথ্য সংগ্রহের প্রক্রিয়া। ওয়েব স্ক্র্যাপিং হল এই প্রক্রিয়াটি সম্পাদন করার জন্য ব্যবহৃত একটি পদ্ধতি, যেখানে HTML ডকুমেন্টের ভিতরে থাকা ডেটাকে পড়া এবং বিশ্লেষণ করা হয়। R-এ ওয়েব স্ক্র্যাপিং এবং HTML Parsing এর জন্য কিছু শক্তিশালী প্যাকেজ রয়েছে যেমন rvest, xml, এবং httr।

১. HTML Parsing with `rvest` package

rvest প্যাকেজটি ওয়েব পেজ থেকে তথ্য বের করার জন্য একটি খুবই জনপ্রিয় টুল। এটি HTML এবং XML ডকুমেন্টগুলি থেকে ডেটা সংগ্রহ করতে সাহায্য করে। এটি CSS selectors বা XPath ব্যবহার করে নির্দিষ্ট এলিমেন্টগুলি নির্বাচন করে।

Steps to Perform HTML Parsing:

ওয়েব পেজ থেকে HTML ডেটা পড়া।
ডেটা থেকে প্রাসঙ্গিক তথ্য বের করা (যেমন টেক্সট, লিঙ্ক, ছবি, টেবিল ইত্যাদি)।
সংগ্রহ করা ডেটা প্রক্রিয়াকরণ।

উদাহরণ: HTML Parsing with `rvest`

# rvest প্যাকেজ ইনস্টল এবং লোড করা
install.packages("rvest")
library(rvest)

# ওয়েব পেজ থেকে HTML ডেটা সংগ্রহ করা
url <- "https://www.imdb.com/chart/top"
web_page <- read_html(url)

# টপ 10 সিনেমার নাম সংগ্রহ করা
movies <- web_page %>%
  html_nodes(".titleColumn a") %>%
  html_text()

# টপ 10 সিনেমার নাম প্রিন্ট করা
print(movies)

ব্যাখ্যা:

read_html() ফাংশনটি ওয়েব পেজের HTML ডকুমেন্ট পাঠায়।
html_nodes() ফাংশনটি CSS সিলেক্টর ব্যবহার করে HTML এলিমেন্টগুলি চিহ্নিত করে, যেমন এখানে .titleColumn a।
html_text() ফাংশনটি নির্বাচিত এলিমেন্টের টেক্সট ডেটা বের করে।

২. Data Extraction from Tables

HTML টেবিল থেকে ডেটা এক্সট্র্যাক্ট করতে rvest প্যাকেজটি খুবই কার্যকরী। আমরা HTML টেবিলের সেলগুলি নির্বাচন করে প্রয়োজনীয় ডেটা বের করতে পারি।

উদাহরণ: HTML Table থেকে Data Extraction

# টেবিলের ডেটা সংগ্রহ করা
url <- "https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_and_their_capitals_in_native_languages"
web_page <- read_html(url)

# টেবিল ডেটা সংগ্রহ করা
tables <- web_page %>%
  html_nodes("table") %>%
  html_table(fill = TRUE)

# প্রথম টেবিলের কিছু ডেটা দেখানো
print(tables[[1]])

ব্যাখ্যা:

html_nodes("table") ফাংশনটি HTML পেজের সব টেবিল নির্বাচন করে।
html_table(fill = TRUE) ফাংশনটি টেবিলের ডেটাকে R ডেটাফ্রেমে রূপান্তরিত করে।
tables[[1]] দিয়ে প্রথম টেবিলের ডেটা দেখা হয়।

৩. Extracting Links (Hyperlinks) from HTML

ওয়েব পেজ থেকে লিঙ্ক (URLs) এক্সট্র্যাক্ট করা খুবই সহজ। এটি anchor (<a>) ট্যাগ ব্যবহার করে করা হয়।

উদাহরণ: HTML থেকে লিঙ্ক এক্সট্র্যাক্ট করা

# ওয়েব পেজ থেকে লিঙ্ক এক্সট্র্যাক্ট করা
url <- "https://www.wikipedia.org/"
web_page <- read_html(url)

# সমস্ত লিঙ্ক সংগ্রহ করা
links <- web_page %>%
  html_nodes("a") %>%
  html_attr("href")

# কিছু লিঙ্ক দেখানো
print(head(links))

ব্যাখ্যা:

html_nodes("a") ফাংশনটি সমস্ত anchor (<a>) ট্যাগ নির্বাচন করে।
html_attr("href") ফাংশনটি প্রতিটি লিঙ্কের href অ্যাট্রিবিউট থেকে ইউআরএল সংগ্রহ করে।

৪. Handling Dynamic Content with `httr` and `RSelenium`

অনেক ওয়েবসাইটে ডাইনামিক কনটেন্ট থাকে, যা শুধুমাত্র ক্লিক বা স্ক্রল করার মাধ্যমে লোড হয়। এরকম কনটেন্ট এক্সট্র্যাক্ট করতে httr এবং RSelenium প্যাকেজ ব্যবহার করা হয়। এই প্যাকেজগুলি ওয়েব পেজের সেশন ম্যানেজমেন্ট এবং ডাইনামিক কনটেন্ট লোডিংয়ের ক্ষেত্রে সহায়তা করে।

উদাহরণ: Using `httr` to make HTTP requests

# httr প্যাকেজ লোড করা
library(httr)

# HTTP GET রিকোয়েস্ট পাঠানো
response <- GET("https://www.wikipedia.org/")

# রেসপন্স দেখানো
print(content(response, "text"))

উদাহরণ: Using `RSelenium` for Dynamic Content

# RSelenium প্যাকেজ লোড করা
library(RSelenium)

# রিমোট ড্রাইভার চালু করা
driver <- rsDriver(browser = "firefox", port = 4444)
remote_driver <- driver[["client"]]

# ওয়েব পেজ খুলা
remote_driver$navigate("https://www.wikipedia.org/")

# ডাইনামিক কনটেন্ট সংগ্রহ করা
page_source <- remote_driver$getPageSource()

# পেজ সোর্স প্রিন্ট করা
print(page_source)

ব্যাখ্যা:

httr ব্যবহার করে সাধারণ HTTP রিকোয়েস্ট পাঠানো হয় এবং ওয়েব পেজের সোর্স কোড পাওয়া যায়।
RSelenium ব্যবহার করে ব্রাউজার সেশন চালু করা হয় এবং ডাইনামিক কনটেন্ট লোড করা হয়।

সারসংক্ষেপ

HTML Parsing হল ওয়েব পেজ থেকে ডেটা সংগ্রহ করার প্রক্রিয়া। R-এ rvest প্যাকেজটি জনপ্রিয় টুল যা HTML ডকুমেন্ট থেকে টেক্সট, টেবিল, লিঙ্ক ইত্যাদি বের করতে ব্যবহৃত হয়।
Data Extraction হল HTML পেজের থেকে গুরুত্বপূর্ণ তথ্য চিহ্নিত এবং সংগ্রহ করা।
ডাইনামিক ওয়েব পেজের কনটেন্ট এক্সট্র্যাক্ট করতে httr এবং RSelenium প্যাকেজগুলি ব্যবহৃত হয়।

এই পদ্ধতিগুলি ব্যবহার করে আপনি ওয়েব পেজ থেকে প্রয়োজনীয় তথ্য সংগ্রহ এবং বিশ্লেষণ করতে পারবেন।

Content added By

Azizar Rahman Aziz

Web Scraping এর উদাহরণ এবং Legal Considerations

367

R প্রোগ্রামিং: Web Scraping এর উদাহরণ এবং Legal Considerations

Web scraping হল একটি পদ্ধতি যা ওয়েব পেজ থেকে তথ্য সংগ্রহ করার জন্য ব্যবহৃত হয়। এটি সাধারণত HTML কোড বা ওয়েব পেজের DOM (Document Object Model) এর মাধ্যমে ডেটা সংগ্রহ করতে ব্যবহৃত হয়। R প্রোগ্রামিং ভাষায় web scraping করার জন্য rvest, httr, এবং xml2 প্যাকেজগুলি ব্যবহার করা হয়।

এখানে web scraping এর উদাহরণ এবং legal considerations সম্পর্কেও আলোচনা করা হবে।

১. Web Scraping এর উদাহরণ

১.১ rvest প্যাকেজ দিয়ে Web Scraping

rvest হল একটি জনপ্রিয় R প্যাকেজ যা ওয়েব পেজ থেকে ডেটা স্ক্র্যাপ করতে ব্যবহৃত হয়। এই প্যাকেজের মাধ্যমে আমরা ওয়েব পেজ থেকে তথ্য সংগ্রহ এবং প্রক্রিয়া করতে পারি।

rvest প্যাকেজ ইনস্টল এবং লোড করা:

install.packages("rvest")
library(rvest)

উদাহরণ:

ধরা যাক, আমরা https://www.example.com ওয়েব সাইট থেকে কিছু তথ্য স্ক্র্যাপ করতে চাই। এখানে আমরা web scraping করে পেজের প্যারাগ্রাফের তথ্য সংগ্রহ করব।

# ওয়েব পেজ থেকে ডেটা সংগ্রহ
url <- "https://www.example.com"
page <- read_html(url)

# পেজের সমস্ত প্যারাগ্রাফ সংগ্রহ করা
paragraphs <- page %>%
  html_nodes("p") %>%
  html_text()

# ফলাফল দেখানো
head(paragraphs)

এখানে, read_html() ফাংশন দ্বারা ওয়েব পেজের HTML ডকুমেন্ট লোড করা হয়েছে এবং html_nodes() ফাংশন দিয়ে সমস্ত প্যারাগ্রাফ (<p> ট্যাগ) বের করা হয়েছে। এরপর, html_text() ফাংশন দিয়ে টেক্সট ডেটা এক্সট্র্যাক্ট করা হয়েছে।

১.২ HTML এলিমেন্টের অন্যান্য তথ্য সংগ্রহ

ওয়েব পেজ থেকে নির্দিষ্ট এলিমেন্ট যেমন লিঙ্ক, শিরোনাম ইত্যাদি সংগ্রহ করা যেতে পারে।

# সমস্ত লিঙ্ক সংগ্রহ করা
links <- page %>%
  html_nodes("a") %>%
  html_attr("href")

# সমস্ত শিরোনাম (h1, h2, h3) সংগ্রহ করা
titles <- page %>%
  html_nodes("h1, h2, h3") %>%
  html_text()

# আউটপুট
head(links)
head(titles)

এখানে, html_attr("href") দ্বারা লিঙ্কের URL এবং html_text() দ্বারা শিরোনামের টেক্সট এক্সট্র্যাক্ট করা হয়েছে।

২. Legal Considerations in Web Scraping

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু legal considerations বা আইনগত বিষয় রয়েছে, যা লক্ষ্য করা গুরুত্বপূর্ণ। এটি শুধুমাত্র ডেটা সংগ্রহের প্রক্রিয়া নয়, বরং ওয়েবসাইটের মালিকানাও বিষয়টির সঙ্গে সম্পর্কিত।

২.১ Terms of Service (ToS) এবং Robots.txt

অনেক ওয়েবসাইটের Terms of Service (ToS) বা Robots.txt ফাইল থাকে যা স্পষ্টভাবে জানায় যে তারা কীভাবে তাদের ওয়েবসাইটের ডেটা ব্যবহারের অনুমতি দেয়। ওয়েব স্ক্র্যাপিং করার আগে, ওয়েবসাইটের robots.txt ফাইল এবং ToS পড়া উচিত।

robots.txt: এটি একটি ফাইল যা ওয়েবসাইটের মূল ডিরেক্টরিতে থাকে এবং এটি সার্চ ইঞ্জিন বা বটগুলিকে নির্দেশনা দেয় যে কোন পৃষ্ঠাগুলি স্ক্যান বা স্ক্র্যাপ করা যাবে এবং কোনগুলো যাবে না।
- উদাহরণ: যদি robots.txt-এ "Disallow: /" দেওয়া থাকে, তবে ওয়েবসাইটটির সমস্ত পৃষ্ঠার স্ক্র্যাপিং নিষিদ্ধ হতে পারে।
Terms of Service (ToS): ওয়েবসাইটের শর্তাবলী পড়া অত্যন্ত গুরুত্বপূর্ণ। কিছু ওয়েবসাইটে স্পষ্টভাবে বলা থাকে যে তাদের ডেটা স্ক্র্যাপিং করা যাবে না বা সীমিত হতে পারে।

২.২ Fair Use Doctrine

কিছু দেশ এবং অঞ্চলে, fair use doctrine অধীনে, আপনি যদি সীমিত এবং ব্যক্তিগত ব্যবহারের জন্য ডেটা সংগ্রহ করেন, তবে সেটি বৈধ হতে পারে। তবে, যদি আপনি ওয়েবসাইটের ডেটা পুনঃব্যবহার করেন বা commercial purpose এর জন্য ডেটা স্ক্র্যাপ করেন, তবে এটি আইনগত সমস্যা সৃষ্টি করতে পারে।

২.৩ IP Blocking and Legal Actions

অনেক ওয়েবসাইটে স্ক্র্যাপিং করার চেষ্টা করলে IP blocking হতে পারে। যদি ওয়েবসাইটটি আপনার আইপি অ্যাড্রেস ব্লক করে, তবে এটি আপনার স্ক্র্যাপিং প্রক্রিয়াকে ব্যাহত করবে। এছাড়াও, যদি ওয়েবসাইটটির মালিক ডেটা স্ক্র্যাপিংকে অবৈধ মনে করে, তাহলে তারা আইনগত ব্যবস্থা নিতে পারে।

২.৪ Data Privacy Laws

এছাড়াও, বিভিন্ন দেশ এবং অঞ্চলে data privacy laws (যেমন, GDPR) রয়েছে যা ডেটার গোপনীয়তা রক্ষা করতে কাজ করে। এই আইনগুলো অনুসরণ করা গুরুত্বপূর্ণ যখন আপনি ওয়েবসাইট থেকে ব্যক্তি-সংক্রান্ত বা সংবেদনশীল ডেটা স্ক্র্যাপ করছেন।

২.৫ Ethical Scraping Practices

Request Frequency: ওয়েবসাইটগুলির সার্ভার ব্যস্ত না হওয়ার জন্য স্ক্র্যাপিংয়ের সময় অনুরোধের ফ্রিকোয়েন্সি কম রাখা উচিত।
Respect for Website's Resources: ওয়েবসাইটের পৃষ্ঠাগুলি স্ক্র্যাপ করার আগে তার সার্ভারের উপর অতিরিক্ত চাপ না ফেলার জন্য এটি করতে হবে।

সারসংক্ষেপ

Web Scraping: একটি প্রক্রিয়া যার মাধ্যমে ওয়েব পেজের HTML কন্টেন্ট থেকে তথ্য সংগ্রহ করা হয়। R-এ rvest প্যাকেজ ব্যবহার করে সহজেই ওয়েব স্ক্র্যাপিং করা সম্ভব।
Legal Considerations:
- Robots.txt: ওয়েবসাইটের ডেটা স্ক্র্যাপিংয়ের অনুমতি বা নিষেধাজ্ঞা নির্দেশ করে।
- Terms of Service (ToS): ওয়েবসাইটের শর্তাবলী পড়ে ডেটা স্ক্র্যাপিং অনুমোদন নিশ্চিত করা উচিত।
- Fair Use: নির্দিষ্ট সীমায় ডেটা স্ক্র্যাপিং করা হলে সেটি বৈধ হতে পারে, তবে ব্যবসায়িক উদ্দেশ্যে স্ক্র্যাপিং আইনগত সমস্যার সৃষ্টি করতে পারে।
- Data Privacy: GDPR বা অন্যান্য ডেটা গোপনীয়তা আইন অনুসরণ করা উচিত।
- Ethical Scraping Practices: ওয়েবসাইটের সার্ভারে অতিরিক্ত চাপ না ফেলতে খেয়াল রাখা প্রয়োজন।

এই বিষয়গুলি মাথায় রেখে আপনি ওয়েব স্ক্র্যাপিং করলে আইনি ও নৈতিক সমস্যা এড়ানো সম্ভব।

Content added By

Azizar Rahman Aziz

R এর ভূমিকা (Introduction to R) R এর বেসিক সিনট্যাক্স (Basic Syntax of R) Vectors, Lists, এবং Matrices (ভেক্টরস, লিস্টস, এবং ম্যাট্রিক্সেস) Factors এবং Data Frames (ফ্যাক্টরস এবং ডেটা ফ্রেমস) Control Flow Statements (নিয়ন্ত্রণ প্রবাহ স্টেটমেন্টস)

Web Scraping in R (R এ ওয়েব স্ক্র্যাপিং)

R এ ওয়েব স্ক্র্যাপিং (Web Scraping in R)

ওয়েব স্ক্র্যাপিংয়ের ধাপসমূহ

rvest প্যাকেজ ব্যবহার করে ওয়েব স্ক্র্যাপিং

উদাহরণ: ওয়েব স্ক্র্যাপিং

XPath ব্যবহার করে ডেটা এক্সট্রাক্ট করা

টেবিল ডেটা স্ক্র্যাপিং

লিংক এবং ইমেজ এক্সট্রাক্ট করা

httr প্যাকেজ ব্যবহার করে ওয়েব স্ক্র্যাপিং

রোবটস ডট টিএক্সটি এবং লিগ্যালিটি

উদাহরণ:

সারসংক্ষেপ

Web Scraping এর মৌলিক ধারণা

Web Scraping এর মৌলিক ধারণা

Web Scraping এর প্রধান উপাদান

Web Scraping এর প্রয়োজনীয়তা

R-এ Web Scraping এর উদাহরণ

উদাহরণ: rvest ব্যবহার করে ওয়েব পেজ থেকে টাইটেল সংগ্রহ করা

Web Scraping এর ধাপসমূহ

Web Scraping এর আইনগত দিক

Web Scraping এর সুবিধা এবং সীমাবদ্ধতা

সুবিধা

সীমাবদ্ধতা

সারসংক্ষেপ

rvest এবং httr Package এর ব্যবহার

rvest এবং httr Package এর ব্যবহার in R

1. rvest Package for Web Scraping

Installing and Loading rvest Package:

Basic Workflow of Web Scraping using rvest:

Example: Scraping Data from a Webpage

Extracting Multiple Elements:

Handling Pagination:

2. httr Package for API Calls

Installing and Loading httr Package:

Basic Workflow of Making API Calls using httr:

Example: GET Request with httr

Example: POST Request with httr

Handling API Authentication:

rvest vs httr

Conclusion

HTML Parsing এবং Data Extraction

R-এ HTML Parsing এবং Data Extraction

১. HTML Parsing with rvest package

Steps to Perform HTML Parsing:

উদাহরণ: HTML Parsing with rvest

২. Data Extraction from Tables

উদাহরণ: HTML Table থেকে Data Extraction

৩. Extracting Links (Hyperlinks) from HTML

উদাহরণ: HTML থেকে লিঙ্ক এক্সট্র্যাক্ট করা

৪. Handling Dynamic Content with httr and RSelenium

উদাহরণ: Using httr to make HTTP requests

উদাহরণ: Using RSelenium for Dynamic Content

সারসংক্ষেপ

Web Scraping এর উদাহরণ এবং Legal Considerations

R প্রোগ্রামিং: Web Scraping এর উদাহরণ এবং Legal Considerations

১. Web Scraping এর উদাহরণ

১.১ rvest প্যাকেজ দিয়ে Web Scraping

rvest প্যাকেজ ইনস্টল এবং লোড করা:

উদাহরণ:

১.২ HTML এলিমেন্টের অন্যান্য তথ্য সংগ্রহ

২. Legal Considerations in Web Scraping

২.১ Terms of Service (ToS) এবং Robots.txt

২.২ Fair Use Doctrine

২.৩ IP Blocking and Legal Actions

২.৪ Data Privacy Laws

২.৫ Ethical Scraping Practices

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

উদাহরণ: `rvest` ব্যবহার করে ওয়েব পেজ থেকে টাইটেল সংগ্রহ করা

1. `rvest` Package for Web Scraping

2. `httr` Package for API Calls

১. HTML Parsing with `rvest` package

উদাহরণ: HTML Parsing with `rvest`

৪. Handling Dynamic Content with `httr` and `RSelenium`

উদাহরণ: Using `httr` to make HTTP requests

উদাহরণ: Using `RSelenium` for Dynamic Content