Apache Tajo ডেটা বিশ্লেষণ এবং প্রসেসিংয়ের জন্য SQL-সেন্ট্রিক ডিজাইন অনুসরণ করে। এখানে ডেটা সংরক্ষণের জন্য Databases এবং Tables ব্যবহৃত হয়। এই ধাপে আমরা Tajo-তে ডাটাবেস এবং টেবিল তৈরি এবং পরিচালনার প্রক্রিয়া আলোচনা করব।
Databases তৈরি করা
Apache Tajo-তে ডাটাবেস তৈরি করা সহজ এবং এটি SQL কমান্ডের মাধ্যমে করা হয়।
১. ডাটাবেস তৈরি
Tajo CLI বা Web UI ব্যবহার করে ডাটাবেস তৈরি করা যায়।
CREATE DATABASE database_name;
উদাহরণ:
CREATE DATABASE sales_data;
২. ডাটাবেস লিস্ট দেখতে
SHOW DATABASES;
৩. একটি নির্দিষ্ট ডাটাবেসে স্যুইচ করা
USE database_name;
উদাহরণ:
USE sales_data;
৪. ডাটাবেস মুছে ফেলা
DROP DATABASE database_name;
উদাহরণ:
DROP DATABASE sales_data;
Tables তৈরি করা
১. টেবিল তৈরি
Apache Tajo-তে টেবিল তৈরি করতে CREATE TABLE কমান্ড ব্যবহার করা হয়।
CREATE TABLE table_name (
column_name1 data_type,
column_name2 data_type,
...
);
উদাহরণ:
CREATE TABLE customers (
customer_id INT,
name TEXT,
email TEXT,
signup_date DATE
);
২. টেবিলে ডেটা লোড করা
টেবিলে ডেটা লোড করার জন্য LOAD কমান্ড ব্যবহার করা হয়।
LOAD DATA INPATH 'hdfs_path' INTO TABLE table_name;
উদাহরণ:
LOAD DATA INPATH 'hdfs://namenode:9000/sales/customers.csv' INTO TABLE customers;
৩. টেবিলের স্কিমা দেখতে
DESCRIBE table_name;
উদাহরণ:
DESCRIBE customers;
৪. টেবিলের ডেটা দেখানো
SELECT * FROM table_name;
উদাহরণ:
SELECT * FROM customers;
৫. টেবিল মুছে ফেলা
DROP TABLE table_name;
উদাহরণ:
DROP TABLE customers;
Partitioned Table তৈরি করা
Tajo-তে ডেটার কর্মক্ষমতা বাড়াতে Partitioned Table ব্যবহার করা হয়।
CREATE TABLE sales (
product_id INT,
quantity INT,
price FLOAT
)
PARTITION BY COLUMN (region TEXT, sale_date DATE);
পার্টিশনড টেবিলে ডেটা লোড করা
LOAD DATA INPATH 'hdfs://namenode:9000/sales/region=US/sale_date=2023-01-01' INTO TABLE sales;
External Table তৈরি করা
HDFS-এ সংরক্ষিত ডেটার উপর সরাসরি কাজ করার জন্য External Table তৈরি করা হয়।
CREATE EXTERNAL TABLE external_table_name (
column_name1 data_type,
column_name2 data_type
)
LOCATION 'hdfs_path';
উদাহরণ:
CREATE EXTERNAL TABLE external_customers (
customer_id INT,
name TEXT,
email TEXT
)
LOCATION 'hdfs://namenode:9000/sales/customers';
Databases এবং Tables ব্যবস্থাপনার সুবিধা
- ডেটা সংগঠিত রাখা: ডাটাবেস এবং টেবিল ব্যবহার করে ডেটা সুসংগঠিত রাখা যায়।
- বড় ডেটাসেট হ্যান্ডলিং: পার্টিশন এবং এক্সটার্নাল টেবিল ব্যবহার করে বিশাল ডেটাসেট পরিচালনা করা সহজ হয়।
- স্কেলেবিলিটি: HDFS এবং Tajo একসাথে ডেটা প্রসেসিং চাহিদা অনুযায়ী স্কেল করা যায়।
- SQL-সাপোর্ট: স্ট্যান্ডার্ড SQL কমান্ড ব্যবহার করে ডেটাবেস এবং টেবিল পরিচালনা সহজ হয়।
Apache Tajo-তে ডাটাবেস এবং টেবিল তৈরি করা একটি সরল প্রক্রিয়া, যা ব্যবহারকারীদের ডেটা পরিচালনা এবং বিশ্লেষণে গুরুত্বপূর্ণ ভূমিকা পালন করে। এটি স্ট্যান্ডার্ড SQL সমর্থন করে এবং HDFS-এর উপর কাজ করার কারণে ডেটা প্রসেসিং দ্রুত ও কার্যকর হয়।