ওয়েব পেজ থেকে ডেটা স্ক্র্যাপ করা

ওয়েব স্ক্র্যাপিং এবং ইন্টারনেট অবজেক্টস - ভিবিস্ক্রিপ্ট (VBScript) - Web Development

257

ওয়েব স্ক্র্যাপিং হল একটি প্রক্রিয়া যার মাধ্যমে একটি ওয়েব পেজের থেকে ডেটা সংগ্রহ করা হয়। VBScript এর মাধ্যমে ওয়েব স্ক্র্যাপিং করতে InternetExplorer অবজেক্ট ব্যবহার করা হয়, যা Internet Explorer ব্রাউজারকে স্বয়ংক্রিয়ভাবে নিয়ন্ত্রণ করে। এই প্রক্রিয়ার মাধ্যমে আপনি HTML পেজের বিভিন্ন উপাদান (যেমন টেক্সট, টেবিল, লিঙ্ক, ইমেজ ইত্যাদি) সংগ্রহ করতে পারেন।


ওয়েব স্ক্র্যাপিংয়ের জন্য প্রয়োজনীয় উপাদান

ওয়েব স্ক্র্যাপিং করার জন্য আমাদের প্রয়োজন:

  1. InternetExplorer অবজেক্ট: এটি একটি ব্রাউজার অবজেক্ট যা VBScript দ্বারা নিয়ন্ত্রিত হয়।
  2. HTMLDocument: এটি ওয়েব পেজের HTML কনটেন্ট ধরে রাখে, যা আমাদের স্ক্র্যাপিংয়ের জন্য দরকার।
  3. getElementsByTagName অথবা getElementById: এই পদ্ধতিগুলো HTML ডকুমেন্টের নির্দিষ্ট উপাদানগুলোকে শনাক্ত করতে ব্যবহৃত হয়।

VBScript দিয়ে ওয়েব স্ক্র্যাপিং উদাহরণ

এখানে একটি উদাহরণ দেওয়া হচ্ছে যেখানে একটি ওয়েব পেজের নির্দিষ্ট ট্যাগ থেকে তথ্য সংগ্রহ করা হচ্ছে। এই স্ক্রিপ্টটি Internet Explorer ব্রাউজারকে স্বয়ংক্রিয়ভাবে ওপেন করে এবং সেখান থেকে ডেটা স্ক্র্যাপ করে।

উদাহরণ: ওয়েব স্ক্র্যাপিং একটি টেবিলের তথ্য সংগ্রহ

Dim ie, html, links, link, i

' Internet Explorer অবজেক্ট তৈরি
Set ie = CreateObject("InternetExplorer.Application")
ie.Visible = False ' ব্রাউজারটি দৃশ্যমান করা হচ্ছে না

' নির্দিষ্ট ওয়েব পেজ খুলুন
ie.Navigate "http://example.com" ' এখানে আপনার URL লিখুন

' ওয়েব পেজ লোড হওয়া পর্যন্ত অপেক্ষা করুন
Do While ie.Busy Or ie.ReadyState <> 4
    WScript.Sleep 100
Loop

' HTML ডকুমেন্ট সংগ্রহ
Set html = ie.document

' নির্দিষ্ট ট্যাগ সংগ্রহ (এখানে টেবিলের সমস্ত লিঙ্ক সংগ্রহ করা হচ্ছে)
Set links = html.getElementsByTagName("a")

' সমস্ত লিঙ্কের URL দেখানো
For Each link In links
    MsgBox link.href ' হাইপারলিঙ্কের URL
Next

' Internet Explorer বন্ধ করা
ie.Quit

Set ie = Nothing
Set html = Nothing

এখানে:

  • ie.Navigate: ওয়েব পেজটি লোড করার জন্য ব্যবহৃত হয়।
  • html.getElementsByTagName("a"): পেজে থাকা সমস্ত ট্যাগ, অর্থাৎ হাইপারলিঙ্ক সংগ্রহ করা হচ্ছে।
  • link.href: প্রতিটি লিঙ্কের URL দেখানো হচ্ছে।

অন্যান্য HTML উপাদানগুলোর স্ক্র্যাপিং

ওয়েব স্ক্র্যাপিং এর মাধ্যমে আপনি HTML tags, class names, IDs, links অথবা tables থেকে ডেটা সংগ্রহ করতে পারেন। নিচে কিছু উদাহরণ দেওয়া হলো:

  1. getElementsByClassName: HTML পেজে যেকোনো নির্দিষ্ট ক্লাস নাম দ্বারা উপাদান চিহ্নিত করা যায়।

    Set elements = html.getElementsByClassName("classname")
    
  2. getElementById: নির্দিষ্ট ID দিয়ে উপাদান পাওয়া যায়।

    Set element = html.getElementById("element_id")
    MsgBox element.innerText ' উপাদানের টেক্সট দেখানো
    
  3. getElementsByTagName: নির্দিষ্ট ট্যাগ নামের উপাদান গুলো সংগ্রহ করা যায়।

    Set elements = html.getElementsByTagName("div")
    

ইন্টারনেট অবজেক্টস (Internet Objects) ব্যবহারের সুবিধা

  • Internet Explorer নিয়ন্ত্রণ: VBScript এর মাধ্যমে আপনি Internet Explorer ব্রাউজারকে নিয়ন্ত্রণ করতে পারেন। এটি স্বয়ংক্রিয়ভাবে ব্রাউজারে একটি ওয়েব পেজ লোড করে এবং সেখানে কাজ করতে পারে।
  • HTML ডকুমেন্টে অ্যাক্সেস: ওয়েব পেজের DOM (Document Object Model) ব্যবহার করে আপনি HTML উপাদানগুলোতে অ্যাক্সেস এবং পরিবর্তন করতে পারেন।
  • অটোমেশন: ওয়েব পেজ থেকে ডেটা স্বয়ংক্রিয়ভাবে সংগ্রহ এবং প্রসেস করতে সাহায্য করে, যা সময় সাশ্রয়ী এবং কার্যকরী।

সারাংশ

ভিবিস্ক্রিপ্ট ব্যবহার করে ওয়েব স্ক্র্যাপিং করতে InternetExplorer অবজেক্ট ব্যবহার করা হয়। এর মাধ্যমে আপনি HTML পেজের উপাদানগুলি অ্যাক্সেস এবং স্ক্র্যাপ করতে পারেন, যেমন টেবিল, লিঙ্ক, প্যারাগ্রাফ, এবং অন্যান্য ডেটা। getElementsByTagName, getElementById, এবং getElementsByClassName এর মাধ্যমে আপনি HTML ডকুমেন্টের বিভিন্ন অংশ থেকে তথ্য সংগ্রহ করতে পারবেন।

Content added By
Promotion

Are you sure to start over?

Loading...