উদাহরণসহ Workflow এবং Trigger সেটআপ

Glue Trigger এবং Workflow - আমাজন গ্লু (AWS Glue) - Latest Technologies

210

AWS Glue Workflow এবং Trigger সেটআপ করা একটি স্বয়ংক্রিয় ETL (Extract, Transform, Load) প্রক্রিয়া তৈরি করার জন্য খুবই কার্যকরী। নিচে একটি উদাহরণসহ Workflow এবং Trigger সেটআপ করার পদক্ষেপগুলি বিস্তারিতভাবে আলোচনা করা হলো।

প্রাক-শর্ত

  • আপনার AWS অ্যাকাউন্ট থাকতে হবে।
  • AWS Glue সার্ভিসে অ্যাক্সেস থাকতে হবে।

উদাহরণ: Workflow এবং Trigger সেটআপ

ডেটা সোর্স

ধরি, আমাদের কাছে একটি CSV ফাইল রয়েছে যা S3 বালতিতে সংরক্ষিত:

  • S3 URI: s3://your-bucket-name/source/employees.csv

ধাপ ১: Glue Job তৈরি করা

  1. AWS Management Console-এ লগ ইন করুন এবং AWS Glue সার্ভিস নির্বাচন করুন।
  2. "Jobs" ট্যাবে যান এবং "Add job" ক্লিক করুন।
  3. Job-এর জন্য নাম এবং বর্ণনা প্রদান করুন (যেমন, DataTransformJob)।
  4. IAM Role নির্বাচন করুন যা Glue Job পরিচালনার জন্য প্রয়োজনীয়।
  5. Job Type নির্বাচন করুন: "Spark"।
  6. Job script লিখুন। নিচে একটি উদাহরণ দেওয়া হলো:
import sys
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.transforms import *

args = getResolvedOptions(sys.argv, ['JOB_NAME'])
glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session
job = Job(glueContext)

# Data Extraction from S3
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "your_database_name", table_name = "your_table_name", transformation_ctx = "datasource0")

# Data Transformation (Filter example)
transformed_data = Filter.apply(frame = datasource0, f = lambda x: x["salary"] > 50000)

# Load transformed data to another S3 location
datasink2 = glueContext.write_dynamic_frame.from_options(frame = transformed_data, connection_type = "s3", connection_options = {"path": "s3://your-bucket-name/target/"}, format = "csv", transformation_ctx = "datasink2")

job.commit()
  1. Job তৈরি হওয়ার পরে, Save ক্লিক করুন।

ধাপ ২: Workflow তৈরি করা

  1. Glue Console এ ফিরে যান এবং "Workflows" ট্যাবে ক্লিক করুন।
  2. "Add workflow" নির্বাচন করুন।
  3. Workflow এর জন্য একটি নাম (যেমন, ETLWorkflow) এবং বর্ণনা দিন।
  4. "Add Job" নির্বাচন করুন এবং পূর্বে তৈরি করা Job (DataTransformJob) নির্বাচন করুন।
  5. Workflow তৈরি হয়ে গেলে, Save ক্লিক করুন।

ধাপ ৩: Trigger তৈরি করা

  1. Workflow তৈরি হওয়ার পরে, Workflow Details পৃষ্ঠায় যান।
  2. "Add Trigger" বাটনে ক্লিক করুন।
  3. Trigger-এর নাম (যেমন, ETLTrigger) দিন।
  4. Trigger Type নির্বাচন করুন:
    • On-Demand: যখন আপনি Trigger চালাতে চান তখন।
    • Scheduled: নির্দিষ্ট সময়ে Trigger চালাতে।
    • Event-Based: অন্য AWS পরিষেবা ইভেন্টের ভিত্তিতে Trigger চালানোর জন্য।
  5. Job-এর জন্য Trigger নির্ধারণ করুন (যেমন, DataTransformJob)।
  6. Trigger তৈরি হওয়ার পরে, Save ক্লিক করুন।

ধাপ ৪: Workflow চালানো

  1. Workflow তালিকায় ফিরে যান এবং তৈরি করা Workflow (ETLWorkflow) নির্বাচন করুন।
  2. "Run workflow" ক্লিক করুন।

ধাপ ৫: মনিটরিং এবং ফলাফল বিশ্লেষণ

  1. Workflow চলাকালীন, AWS Glue Console-এ এর কার্যকারিতা মনিটর করুন।
  2. Job এর ফলাফল এবং লগ পর্যালোচনা করুন।

উপসংহার

এই উদাহরণের মাধ্যমে AWS Glue Workflow এবং Trigger সেটআপ করার প্রক্রিয়া বোঝানো হয়েছে। Workflow এর মাধ্যমে একাধিক Job এবং Trigger পরিচালনা করা সহজ হয়, যা ডেটা প্রক্রিয়াকরণকে আরও কার্যকরী করে। Glue Console ব্যবহার করে, আপনি সহজেই ETL কাজগুলি পরিকল্পনা ও পরিচালনা করতে পারেন।

Content added By
Promotion

Are you sure to start over?

Loading...