Flume Source কী এবং কিভাবে কাজ করে?

Flume Source এর বেসিক ধারণা - অ্যাপাচি ফ্লুম (Apache Flume) - Big Data and Analytics

438

অ্যাপাচি ফ্লুম (Apache Flume) একটি শক্তিশালী ডেটা ইনজেস্ট টুল যা বিশেষ করে লগ ডেটা সংগ্রহ এবং বিভিন্ন ডেটা স্টোরেজ সিস্টেমে প্রেরণের জন্য ব্যবহৃত হয়। ফ্লুমের সোর্স (Source) হলো সেই উপাদান যা ডেটা সংগ্রহের প্রক্রিয়ার শুরু বিন্দু হিসেবে কাজ করে। এই অংশটি ফ্লুমের ডেটা ফ্লোতে অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে।


Flume Source এর সংজ্ঞা

সোর্স (Source) হলো ফ্লুমের প্রথম উপাদান যা বিভিন্ন ডেটা উত্স (Data Sources) থেকে ইনপুট গ্রহণ করে এবং তা ইভেন্ট (Event) হিসেবে রূপান্তরিত করে। সোর্স ফ্লুমের ডেটা ইনজেস্টেশনের প্রধান মাধ্যম হিসেবে কাজ করে, যা ডেটাকে চ্যানেলে পাঠানোর আগে প্রাথমিক প্রক্রিয়াকরণ সম্পন্ন করে।


Flume Source এর ধরন

ফ্লুম বিভিন্ন ধরনের সোর্স সমর্থন করে, যা বিভিন্ন ডেটা উত্স থেকে ডেটা সংগ্রহ করতে সক্ষম। প্রধান সোর্সের ধরন নিম্নরূপ:

  1. SpoolDir Source:
    • বিবরণ: নির্দিষ্ট ডিরেক্টরি (স্পুলডিরেক্টরি) থেকে ফাইল পড়ে ডেটা সংগ্রহ করে।
    • ব্যবহার: লগ ফাইল ম্যানেজমেন্ট যেখানে নতুন ফাইল যুক্ত হলে ফ্লুম তা পড়ে।
    • উদাহরণ:

      agent.sources.source1.type = spooldir
      agent.sources.source1.spoolDir = /var/logs
      
  2. Exec Source:
    • বিবরণ: একটি কমান্ড বা স্ক্রিপ্ট চালায় এবং এর আউটপুট থেকে ডেটা সংগ্রহ করে।
    • ব্যবহার: কাস্টম কমান্ড আউটপুট সংগ্রহের জন্য।
    • উদাহরণ:

      agent.sources.source1.type = exec
      agent.sources.source1.command = tail -F /var/log/syslog
      
  3. Netcat Source:
    • বিবরণ: নেটওয়ার্ক থেকে টেক্সট ডেটা গ্রহণ করে, সাধারণত TCP বা UDP প্রোটোকল ব্যবহার করে।
    • ব্যবহার: রিয়েল-টাইম ডেটা স্ট্রিমিং যেমন সার্ভার লগগুলি।
    • উদাহরণ:

      agent.sources.source1.type = netcat
      agent.sources.source1.bind = localhost
      agent.sources.source1.port = 44444
      
  4. Avro Source:
    • বিবরণ: Avro RPC প্রোটোকল ব্যবহার করে ডেটা গ্রহণ করে, যা ক্লায়েন্ট-সার্ভার মডেলে কাজ করে।
    • ব্যবহার: ডিস্ট্রিবিউটেড সিস্টেমে ডেটা সংগ্রহের জন্য।
    • উদাহরণ:

      agent.sources.source1.type = avro
      agent.sources.source1.bind = 0.0.0.0
      agent.sources.source1.port = 4141
      
  5. HTTP Source:
    • বিবরণ: HTTP প্রোটোকল ব্যবহার করে ডেটা গ্রহণ করে।
    • ব্যবহার: ওয়েব অ্যাপ্লিকেশন বা API থেকে ডেটা সংগ্রহের জন্য।
    • উদাহরণ:

      agent.sources.source1.type = http
      agent.sources.source1.port = 8080
      
  6. Syslog Source:
    • বিবরণ: Syslog প্রোটোকল ব্যবহার করে লগ ডেটা সংগ্রহ করে।
    • ব্যবহার: সিস্টেম এবং নেটওয়ার্ক ডিভাইস থেকে লগ সংগ্রহের জন্য।
    • উদাহরণ:

      agent.sources.source1.type = syslogtcp
      agent.sources.source1.port = 514
      

Flume Source কিভাবে কাজ করে

সোর্সের কাজের প্রক্রিয়া নিম্নরূপ:

  1. ডেটা গ্রহণ:
    • সোর্স নির্দিষ্ট ডেটা উত্স থেকে ডেটা গ্রহণ করে। উদাহরণস্বরূপ, SpoolDir সোর্স একটি নির্দিষ্ট ডিরেক্টরি থেকে ফাইল পড়বে।
  2. ইভেন্টে রূপান্তর:
    • গ্রহণকৃত ডেটা প্রতিটি লাইন বা রেকর্ডকে একটি ইভেন্ট হিসেবে রূপান্তরিত করা হয়। প্রতিটি ইভেন্টে ডেটা এবং সংশ্লিষ্ট মেটাডেটা থাকে।
  3. চ্যানেলে প্রেরণ:
    • রূপান্তরিত ইভেন্টগুলি চ্যানেলে পাঠানো হয়, যা ফ্লুমের মধ্যবর্তী সংরক্ষণ স্তর। চ্যানেলটি ইভেন্টগুলো সাময়িকভাবে সংরক্ষণ করে রাখে যাতে সিঙ্ক পর্যায়ে নিরাপদে ডেটা পাঠানো যায়।
  4. ইন্টারসেপ্টর প্রয়োগ (যদি থাকে):
    • কিছু সোর্স ইন্টারসেপ্টর সমর্থন করে, যা ইভেন্টের প্রাথমিক প্রক্রিয়াকরণ বা ফিল্টারিং সম্পন্ন করতে ব্যবহৃত হয়। উদাহরণস্বরূপ, নির্দিষ্ট ফিল্ড যুক্ত করা বা অপ্রয়োজনীয় ইভেন্ট বাদ দেওয়া।

Flume Source এর কনফিগারেশন উদাহরণ

নিচে SpoolDir সোর্সের একটি সাধারণ কনফিগারেশন উদাহরণ দেয়া হল:

# এজেন্টের নাম নির্ধারণ
agent1.sources = source1
agent1.channels = channel1
agent1.sinks = sink1

# সোর্স কনফিগারেশন
agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /var/logs

# চ্যানেল কনফিগারেশন
agent1.channels.channel1.type = memory
agent1.channels.channel1.capacity = 1000

# সোর্স এবং সিঙ্ককে চ্যানেলে সংযুক্ত করা
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1

# সিঙ্ক কনফিগারেশন
agent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path = hdfs://namenode/flume/logs
agent1.sinks.sink1.hdfs.fileType = DataStream

এই কনফিগারেশনে:

  • SpoolDir সোর্স /var/logs ডিরেক্টরি থেকে ফাইল পড়বে।
  • ডেটা মেমরি চ্যানেল channel1 এ সংরক্ষিত হবে।
  • সিঙ্ক HDFS তে ডেটা প্রেরণ করবে।

Flume Source এর ব্যবহারিক উদাহরণ

  1. লগ ফাইল থেকে ডেটা সংগ্রহ:
    • Scenario: ওয়েব সার্ভারের লগ ফাইলগুলি সংগ্রহ করে HDFS এ সংরক্ষণ।
    • সোর্স: SpoolDir সোর্স /var/log/httpd/ ডিরেক্টরি থেকে ফাইল পড়বে।
    • উদাহরণ:

      agent1.sources.source1.type = spooldir
      agent1.sources.source1.spoolDir = /var/log/httpd/
      
  2. রিয়েল-টাইম লগ স্ট্রিমিং:
    • Scenario: রিয়েল-টাইমে লগ ডেটা সংগ্রহ করে Kafka তে পাঠানো।
    • সোর্স: Netcat সোর্স TCP পোর্ট 44444 থেকে ডেটা গ্রহণ করবে।
    • উদাহরণ:

      agent1.sources.source1.type = netcat
      agent1.sources.source1.bind = localhost
      agent1.sources.source1.port = 44444
      
  3. HTTP API থেকে ডেটা সংগ্রহ:
    • Scenario: ওয়েব অ্যাপ্লিকেশন থেকে HTTP POST রিকোয়েস্টের মাধ্যমে ডেটা গ্রহণ।
    • সোর্স: HTTP সোর্স পোর্ট 8080 এ ডেটা গ্রহণ করবে।
    • উদাহরণ:

      agent1.sources.source1.type = http
      agent1.sources.source1.port = 8080
      

সারাংশ

Flume Source হলো ফ্লুমের ডেটা ইনজেস্টেশনের প্রথম ধাপ, যা বিভিন্ন ধরনের ডেটা উত্স থেকে ডেটা সংগ্রহ করে এবং তা চ্যানেলে প্রেরণ করে। সোর্সের বিভিন্ন ধরন এবং কনফিগারেশন ফ্লুমকে বিভিন্ন পরিবেশে ব্যবহারযোগ্য এবং নমনীয় করে তোলে। স্পুলডির, এক্সেক, নেটক্যাট, অ্যাভ্রো, HTTP, এবং সিসলগ সোর্স সহ ফ্লুমের বিস্তৃত সোর্স বৈচিত্র্য ডেটা সংগ্রহের বিভিন্ন চাহিদা পূরণে সক্ষম। সোর্সের সঠিক কনফিগারেশন এবং ব্যবহারের মাধ্যমে, ফ্লুম রিলায়েবল এবং স্কেলেবল ডেটা ইনজেস্টেশনের একটি কার্যকর সমাধান প্রদান করে।

Content added By
Promotion

Are you sure to start over?

Loading...