Skill

আমাজন (এডব্লিউএস) আথেনা (AWS Athena)

319

আমাজন (এডব্লিউএস) আথেনা হলো একটি সার্ভারলেস ইন্টারেক্টিভ কুইরি সার্ভিস, যা ব্যবহারকারীদের Amazon S3 এ সংরক্ষিত ডেটার ওপর SQL কুইরি চালিয়ে ডেটা বিশ্লেষণ করতে সহায়তা করে। এটি Apache Presto এবং Apache Hive এর মতো প্রযুক্তির উপর ভিত্তি করে কাজ করে, এবং কোনো সার্ভার সেটআপ বা ইনফ্রাস্ট্রাকচার ম্যানেজমেন্ট ছাড়াই ডেটাবেজ কুইরি পরিচালনা করার সুবিধা দেয়। Athena মূলত Big Data Analytics এর জন্য ব্যবহৃত হয়, এবং এতে ব্যবহারকারীরা সহজেই S3-এ স্টোর করা কাঠামোগত, আধা-কাঠামোগত, এবং কাঠামোবিহীন ডেটার ওপর SQL কুইরি চালাতে পারেন।


AWS Athena: একটি বিস্তারিত বাংলা টিউটোরিয়াল

Amazon Athena হলো একটি serverless query service, যা ডেভেলপারদের Amazon S3 এ সংরক্ষিত ডেটা উপর SQL ব্যবহার করে সরাসরি queries চালানোর সুযোগ দেয়। Athena মূলত Presto এর উপর ভিত্তি করে তৈরি এবং এটি ANSI SQL সমর্থন করে। Athena ব্যবহার করে আপনি structured, semi-structured, এবং unstructured ডেটার উপর সহজেই প্রশ্ন করতে পারেন, কোনো সার্ভার সেটআপ ছাড়াই।


AWS Athena এর বৈশিষ্ট্য

Serverless: Athena সম্পূর্ণভাবে serverless হওয়ায়, এটি ব্যবহারের জন্য আপনাকে কোনো ইনফ্রাস্ট্রাকচার বা সার্ভার পরিচালনা করতে হয় না। ডেভেলপারদের শুধু ডেটা এবং SQL কোয়েরি নির্দিষ্ট করতে হয়।

S3 Integration: Athena সরাসরি Amazon S3 এর উপর কাজ করে। আপনি S3 এ সংরক্ষিত ডেটার উপর সহজেই প্রশ্ন করতে পারেন, এবং ফলাফলও সরাসরি S3 তে সংরক্ষণ করতে পারেন।

Multiple Data Formats Support: Athena বিভিন্ন ধরনের ডেটা ফরম্যাট সমর্থন করে, যেমন:

  • CSV
  • JSON
  • Parquet
  • ORC
  • Avro

SQL Based Queries: Athena এর মাধ্যমে আপনি সরাসরি ANSI SQL ব্যবহার করে ডেটার উপর প্রশ্ন করতে পারেন। এটি ডেটা বিশ্লেষণের জন্য একটি পরিচিত এবং সহজ পদ্ধতি।

Cost-effective: Athena তে আপনার ব্যবহার অনুযায়ী পেমেন্ট দিতে হয়। শুধুমাত্র চালানো কোয়েরিগুলোর জন্য আপনাকে চার্জ করা হয়, এবং এর খরচ ডেটার সাইজের উপর নির্ভর করে।

Schema on Read: Athena একটি schema-on-read পদ্ধতি ব্যবহার করে, যার মাধ্যমে ডেটার উপর কোয়েরি চালানোর সময় স্কিমা প্রয়োগ করা হয়। এর মানে হলো, ডেটা ইনজেস্ট করার সময় স্কিমা ডিফাইন করার প্রয়োজন নেই।


AWS Athena এর কাজের ধাপসমূহ

১. S3 তে ডেটা আপলোড করা

Athena ব্যবহার শুরু করার জন্য প্রথমে ডেটা Amazon S3 এ আপলোড করতে হবে। উদাহরণস্বরূপ, একটি CSV ফাইল আপলোড করতে পারেন।

S3 Buckets তৈরি করতে:

  1. AWS Management Console এ যান।
  2. S3 নির্বাচন করুন।
  3. Create bucket ক্লিক করে একটি নতুন bucket তৈরি করুন।
  4. আপনার ডেটা ফাইল (CSV, JSON ইত্যাদি) S3 bucket এ আপলোড করুন।

২. Athena তে Database এবং Table তৈরি করা

Athena তে ডেটা query করতে প্রথমে একটি Database এবং Table তৈরি করতে হবে। Table তৈরি করতে আপনাকে একটি SQL কমান্ড চালাতে হবে যা আপনার S3 ফাইলে সংরক্ষিত ডেটা অনুযায়ী টেবিল তৈরি করবে।

SQL Query:

CREATE DATABASE mydatabase;

CREATE EXTERNAL TABLE IF NOT EXISTS mydatabase.mytable (
    id INT,
    name STRING,
    age INT,
    city STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION 's3://your-bucket-name/data/'
TBLPROPERTIES ('skip.header.line.count'='1');

বিস্তারিত:

  • CREATE DATABASE: Athena তে একটি নতুন database তৈরি করা হয়।
  • CREATE EXTERNAL TABLE: S3 তে আপলোড করা ডেটা থেকে একটি নতুন টেবিল তৈরি করা হয়।
  • ROW FORMAT: CSV ফাইলের ডেটা ফরম্যাট নির্ধারণ করা হয়েছে। এখানে FIELDS TERMINATED BY ',' এর মানে হলো ফাইলটি comma-separated

৩. SQL Queries চালানো

Table তৈরি করার পর, আপনি সাধারণ SQL প্রশ্ন চালাতে পারবেন। উদাহরণস্বরূপ, যদি আপনার টেবিলে গ্রাহকদের তথ্য থাকে, আপনি তাদের বয়স অনুসারে ফলাফল দেখতে পারেন:

SELECT * FROM mydatabase.mytable WHERE age > 30;

৪. ফলাফল দেখা এবং সংরক্ষণ করা

Athena এর প্রতিটি query এর ফলাফল Amazon S3 তে সংরক্ষণ করা হয়। আপনি কোয়েরি চালানোর পর সেগুলো Results ট্যাবে দেখতে পারবেন এবং সরাসরি S3 তে ডাউনলোড করতে পারবেন।


বিভিন্ন ফরম্যাটে ডেটা ব্যবহার

Athena বিভিন্ন ডেটা ফরম্যাট সমর্থন করে, যেমন CSV, JSON, Parquet, এবং ORC। আপনার ডেটার উপর নির্ভর করে আপনি বিভিন্ন ফরম্যাট ব্যবহার করতে পারেন।

Parquet Format এর উদাহরণ:

CREATE EXTERNAL TABLE IF NOT EXISTS mydatabase.mytable_parquet (
    id INT,
    name STRING,
    age INT,
    city STRING
)
STORED AS PARQUET
LOCATION 's3://your-bucket-name/data/parquet/';

Parquet এবং ORC এর মতো ফরম্যাট ব্যবহার করলে ডেটা প্রসেসিং দ্রুত হয় এবং কম খরচ হয়, কারণ এই ফরম্যাটগুলো বেশি কম্প্রেসড এবং columnar storage ব্যবহার করে।


AWS Athena এর সুবিধা এবং অসুবিধা

সুবিধা

  1. Serverless: Athena সম্পূর্ণ serverless হওয়ায়, কোনো সার্ভার পরিচালনার প্রয়োজন নেই।
  2. Flexibility: এটি SQL সমর্থন করে, যা ডেটা বিশ্লেষণের জন্য একটি সহজ এবং পরিচিত পদ্ধতি।
  3. Multiple Formats Support: বিভিন্ন ধরনের ফাইল ফরম্যাট সমর্থন করে, যা বড় ডেটা সেটের জন্য উপযুক্ত।
  4. Low Cost: আপনার চালানো কোয়েরির উপর নির্ভর করে খরচ হয়, তাই এটি অনেক কম খরচে ডেটা বিশ্লেষণ করা সম্ভব।
  5. Integration with Other AWS Services: Athena সহজে অন্যান্য AWS services এর সাথে ইন্টিগ্রেট করা যায়, যেমন AWS Glue, AWS QuickSight

অসুবিধা

  1. Performance: বড় ডেটাসেটের উপর চালানো কোয়েরি ধীরগতিতে চলতে পারে যদি ডেটা সঠিকভাবে পাটিশন করা না থাকে।
  2. Limited Query Features: Athena প্রায় সব SQL ফিচার সমর্থন করলেও, কিছু জটিল SQL অপারেশন সমর্থন করে না।

অন্যান্য টুলস এর সাথে তুলনা

Athena vs Redshift:

  • Athena: Serverless এবং কম খরচে ডেটা বিশ্লেষণ করতে দেয়। Query শুধুমাত্র S3 তে সংরক্ষিত ডেটার উপর করা যায়।
  • Redshift: Amazon Redshift একটি পূর্ণাঙ্গ data warehouse যা দ্রুতগতিতে বড় ডেটাসেট পরিচালনা করতে পারে এবং ডেটা ইঞ্জেস্ট করার জন্য এটি উপযুক্ত।

Athena vs AWS Glue:

  • Athena: S3 ডেটার উপর সরাসরি SQL কোয়েরি চালাতে ব্যবহৃত হয়।
  • AWS Glue: এটি একটি ডেটা ইন্টিগ্রেশন সার্ভিস, যা ডেটা ক্যাটালগ, ট্রান্সফর্ম, এবং লোড করতে সাহায্য করে।

শেখার সম্পদ

  1. AWS Athena Documentation: AWS Athena Docs
  2. AWS Tutorial on Athena: AWS Athena Tutorial
  3. AWS Glue Integration: AWS Glue Documentation

গুরুত্বপূর্ণ কীওয়ার্ড

  • Serverless SQL Queries
  • Amazon S3 Integration
  • Data Partitioning
  • Parquet Format in Athena
  • Schema on Read
  • AWS Glue Data Catalog

উপসংহার

AWS Athena হলো একটি শক্তিশালী এবং সহজে ব্যবহারের উপযোগী serverless query service, যা ডেভেলপার এবং ডেটা বিশ্লেষকদের জন্য বিশেষভাবে উপযোগী। এটি ডেটা বিশ্লেষণের জন্য SQL সমর্থন করে এবং কোনো ইনফ্রাস্ট্রাকচার পরিচালনা করার প্রয়োজন ছাড়াই দ্রুত কাজ সম্পন্ন করতে সক্ষম। Athena মূলত Amazon S3 এ সংরক্ষিত ডেটার উপর কাজ করে এবং এর বিভিন্ন ফিচার এবং ফরম্যাট সমর্থন এর শক্তিকে আরও বাড়িয়ে তোলে।

আমাজন (এডব্লিউএস) আথেনা হলো একটি সার্ভারলেস ইন্টারেক্টিভ কুইরি সার্ভিস, যা ব্যবহারকারীদের Amazon S3 এ সংরক্ষিত ডেটার ওপর SQL কুইরি চালিয়ে ডেটা বিশ্লেষণ করতে সহায়তা করে। এটি Apache Presto এবং Apache Hive এর মতো প্রযুক্তির উপর ভিত্তি করে কাজ করে, এবং কোনো সার্ভার সেটআপ বা ইনফ্রাস্ট্রাকচার ম্যানেজমেন্ট ছাড়াই ডেটাবেজ কুইরি পরিচালনা করার সুবিধা দেয়। Athena মূলত Big Data Analytics এর জন্য ব্যবহৃত হয়, এবং এতে ব্যবহারকারীরা সহজেই S3-এ স্টোর করা কাঠামোগত, আধা-কাঠামোগত, এবং কাঠামোবিহীন ডেটার ওপর SQL কুইরি চালাতে পারেন।


AWS Athena: একটি বিস্তারিত বাংলা টিউটোরিয়াল

Amazon Athena হলো একটি serverless query service, যা ডেভেলপারদের Amazon S3 এ সংরক্ষিত ডেটা উপর SQL ব্যবহার করে সরাসরি queries চালানোর সুযোগ দেয়। Athena মূলত Presto এর উপর ভিত্তি করে তৈরি এবং এটি ANSI SQL সমর্থন করে। Athena ব্যবহার করে আপনি structured, semi-structured, এবং unstructured ডেটার উপর সহজেই প্রশ্ন করতে পারেন, কোনো সার্ভার সেটআপ ছাড়াই।


AWS Athena এর বৈশিষ্ট্য

Serverless: Athena সম্পূর্ণভাবে serverless হওয়ায়, এটি ব্যবহারের জন্য আপনাকে কোনো ইনফ্রাস্ট্রাকচার বা সার্ভার পরিচালনা করতে হয় না। ডেভেলপারদের শুধু ডেটা এবং SQL কোয়েরি নির্দিষ্ট করতে হয়।

S3 Integration: Athena সরাসরি Amazon S3 এর উপর কাজ করে। আপনি S3 এ সংরক্ষিত ডেটার উপর সহজেই প্রশ্ন করতে পারেন, এবং ফলাফলও সরাসরি S3 তে সংরক্ষণ করতে পারেন।

Multiple Data Formats Support: Athena বিভিন্ন ধরনের ডেটা ফরম্যাট সমর্থন করে, যেমন:

  • CSV
  • JSON
  • Parquet
  • ORC
  • Avro

SQL Based Queries: Athena এর মাধ্যমে আপনি সরাসরি ANSI SQL ব্যবহার করে ডেটার উপর প্রশ্ন করতে পারেন। এটি ডেটা বিশ্লেষণের জন্য একটি পরিচিত এবং সহজ পদ্ধতি।

Cost-effective: Athena তে আপনার ব্যবহার অনুযায়ী পেমেন্ট দিতে হয়। শুধুমাত্র চালানো কোয়েরিগুলোর জন্য আপনাকে চার্জ করা হয়, এবং এর খরচ ডেটার সাইজের উপর নির্ভর করে।

Schema on Read: Athena একটি schema-on-read পদ্ধতি ব্যবহার করে, যার মাধ্যমে ডেটার উপর কোয়েরি চালানোর সময় স্কিমা প্রয়োগ করা হয়। এর মানে হলো, ডেটা ইনজেস্ট করার সময় স্কিমা ডিফাইন করার প্রয়োজন নেই।


AWS Athena এর কাজের ধাপসমূহ

১. S3 তে ডেটা আপলোড করা

Athena ব্যবহার শুরু করার জন্য প্রথমে ডেটা Amazon S3 এ আপলোড করতে হবে। উদাহরণস্বরূপ, একটি CSV ফাইল আপলোড করতে পারেন।

S3 Buckets তৈরি করতে:

  1. AWS Management Console এ যান।
  2. S3 নির্বাচন করুন।
  3. Create bucket ক্লিক করে একটি নতুন bucket তৈরি করুন।
  4. আপনার ডেটা ফাইল (CSV, JSON ইত্যাদি) S3 bucket এ আপলোড করুন।

২. Athena তে Database এবং Table তৈরি করা

Athena তে ডেটা query করতে প্রথমে একটি Database এবং Table তৈরি করতে হবে। Table তৈরি করতে আপনাকে একটি SQL কমান্ড চালাতে হবে যা আপনার S3 ফাইলে সংরক্ষিত ডেটা অনুযায়ী টেবিল তৈরি করবে।

SQL Query:

CREATE DATABASE mydatabase;

CREATE EXTERNAL TABLE IF NOT EXISTS mydatabase.mytable (
    id INT,
    name STRING,
    age INT,
    city STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION 's3://your-bucket-name/data/'
TBLPROPERTIES ('skip.header.line.count'='1');

বিস্তারিত:

  • CREATE DATABASE: Athena তে একটি নতুন database তৈরি করা হয়।
  • CREATE EXTERNAL TABLE: S3 তে আপলোড করা ডেটা থেকে একটি নতুন টেবিল তৈরি করা হয়।
  • ROW FORMAT: CSV ফাইলের ডেটা ফরম্যাট নির্ধারণ করা হয়েছে। এখানে FIELDS TERMINATED BY ',' এর মানে হলো ফাইলটি comma-separated

৩. SQL Queries চালানো

Table তৈরি করার পর, আপনি সাধারণ SQL প্রশ্ন চালাতে পারবেন। উদাহরণস্বরূপ, যদি আপনার টেবিলে গ্রাহকদের তথ্য থাকে, আপনি তাদের বয়স অনুসারে ফলাফল দেখতে পারেন:

SELECT * FROM mydatabase.mytable WHERE age > 30;

৪. ফলাফল দেখা এবং সংরক্ষণ করা

Athena এর প্রতিটি query এর ফলাফল Amazon S3 তে সংরক্ষণ করা হয়। আপনি কোয়েরি চালানোর পর সেগুলো Results ট্যাবে দেখতে পারবেন এবং সরাসরি S3 তে ডাউনলোড করতে পারবেন।


বিভিন্ন ফরম্যাটে ডেটা ব্যবহার

Athena বিভিন্ন ডেটা ফরম্যাট সমর্থন করে, যেমন CSV, JSON, Parquet, এবং ORC। আপনার ডেটার উপর নির্ভর করে আপনি বিভিন্ন ফরম্যাট ব্যবহার করতে পারেন।

Parquet Format এর উদাহরণ:

CREATE EXTERNAL TABLE IF NOT EXISTS mydatabase.mytable_parquet (
    id INT,
    name STRING,
    age INT,
    city STRING
)
STORED AS PARQUET
LOCATION 's3://your-bucket-name/data/parquet/';

Parquet এবং ORC এর মতো ফরম্যাট ব্যবহার করলে ডেটা প্রসেসিং দ্রুত হয় এবং কম খরচ হয়, কারণ এই ফরম্যাটগুলো বেশি কম্প্রেসড এবং columnar storage ব্যবহার করে।


AWS Athena এর সুবিধা এবং অসুবিধা

সুবিধা

  1. Serverless: Athena সম্পূর্ণ serverless হওয়ায়, কোনো সার্ভার পরিচালনার প্রয়োজন নেই।
  2. Flexibility: এটি SQL সমর্থন করে, যা ডেটা বিশ্লেষণের জন্য একটি সহজ এবং পরিচিত পদ্ধতি।
  3. Multiple Formats Support: বিভিন্ন ধরনের ফাইল ফরম্যাট সমর্থন করে, যা বড় ডেটা সেটের জন্য উপযুক্ত।
  4. Low Cost: আপনার চালানো কোয়েরির উপর নির্ভর করে খরচ হয়, তাই এটি অনেক কম খরচে ডেটা বিশ্লেষণ করা সম্ভব।
  5. Integration with Other AWS Services: Athena সহজে অন্যান্য AWS services এর সাথে ইন্টিগ্রেট করা যায়, যেমন AWS Glue, AWS QuickSight

অসুবিধা

  1. Performance: বড় ডেটাসেটের উপর চালানো কোয়েরি ধীরগতিতে চলতে পারে যদি ডেটা সঠিকভাবে পাটিশন করা না থাকে।
  2. Limited Query Features: Athena প্রায় সব SQL ফিচার সমর্থন করলেও, কিছু জটিল SQL অপারেশন সমর্থন করে না।

অন্যান্য টুলস এর সাথে তুলনা

Athena vs Redshift:

  • Athena: Serverless এবং কম খরচে ডেটা বিশ্লেষণ করতে দেয়। Query শুধুমাত্র S3 তে সংরক্ষিত ডেটার উপর করা যায়।
  • Redshift: Amazon Redshift একটি পূর্ণাঙ্গ data warehouse যা দ্রুতগতিতে বড় ডেটাসেট পরিচালনা করতে পারে এবং ডেটা ইঞ্জেস্ট করার জন্য এটি উপযুক্ত।

Athena vs AWS Glue:

  • Athena: S3 ডেটার উপর সরাসরি SQL কোয়েরি চালাতে ব্যবহৃত হয়।
  • AWS Glue: এটি একটি ডেটা ইন্টিগ্রেশন সার্ভিস, যা ডেটা ক্যাটালগ, ট্রান্সফর্ম, এবং লোড করতে সাহায্য করে।

শেখার সম্পদ

  1. AWS Athena Documentation: AWS Athena Docs
  2. AWS Tutorial on Athena: AWS Athena Tutorial
  3. AWS Glue Integration: AWS Glue Documentation

গুরুত্বপূর্ণ কীওয়ার্ড

  • Serverless SQL Queries
  • Amazon S3 Integration
  • Data Partitioning
  • Parquet Format in Athena
  • Schema on Read
  • AWS Glue Data Catalog

উপসংহার

AWS Athena হলো একটি শক্তিশালী এবং সহজে ব্যবহারের উপযোগী serverless query service, যা ডেভেলপার এবং ডেটা বিশ্লেষকদের জন্য বিশেষভাবে উপযোগী। এটি ডেটা বিশ্লেষণের জন্য SQL সমর্থন করে এবং কোনো ইনফ্রাস্ট্রাকচার পরিচালনা করার প্রয়োজন ছাড়াই দ্রুত কাজ সম্পন্ন করতে সক্ষম। Athena মূলত Amazon S3 এ সংরক্ষিত ডেটার উপর কাজ করে এবং এর বিভিন্ন ফিচার এবং ফরম্যাট সমর্থন এর শক্তিকে আরও বাড়িয়ে তোলে।

Promotion

Are you sure to start over?

Loading...