HiveQL এর মাধ্যমে SQL Like Queries

Apache Hive এর সাথে Hadoop Integration - হাদুপ (Hadoop) - Big Data and Analytics

315

HiveQL হল হাদুপের জন্য একটি ডেটাবেস ইন্টারফেস, যা SQL-এর মতো কুয়েরি ভাষা ব্যবহার করে ডেটাবেস অপারেশন চালানোর সুবিধা প্রদান করে। এটি হাদুপের Hive প্রকল্পের অংশ, যা ডেটা বিশ্লেষণের জন্য SQL-জাতীয় কুয়েরি লেখার সহজ পদ্ধতি তৈরি করে। HiveQL ব্যবহার করে আপনি হাদুপ ডিস্ট্রিবিউটেড ফাইল সিস্টেম (HDFS) এ স্টোর করা ডেটার উপর SQL-সামান্য কুয়েরি কার্যকর করতে পারেন।

HiveQL এর বৈশিষ্ট্য

SQL Like Syntax:
HiveQL SQL-এর মতোই, ফলে SQL জানলে এটি ব্যবহার করা সহজ। এতে ডেটা ম্যানিপুলেশন ও ডেটা বিশ্লেষণের জন্য পরিচিত SQL কমান্ড ব্যবহার করা হয়।
ডিস্ট্রিবিউটেড প্রক্রিয়াকরণ:
HiveQL হাদুপের ডিস্ট্রিবিউটেড ফাইল সিস্টেমে (HDFS) থাকা ডেটার উপর কার্যকরী হয়, যার ফলে এটি বড় ডেটাসেটের সাথে কাজ করার জন্য উপযুক্ত।
Batch Processing:
HiveQL ব্যাচ প্রক্রিয়াকরণ সমর্থন করে, অর্থাৎ এটি বড় ডেটাসেটের উপর পরবর্তীতে কাজ করতে পারে।

HiveQL এর মৌলিক কুয়েরি অপারেশন

1. CREATE TABLE

HiveQL তে একটি নতুন টেবিল তৈরি করতে CREATE TABLE কমান্ড ব্যবহার করা হয়।

CREATE TABLE employee (
    id INT,
    name STRING,
    age INT,
    department STRING
);

এখানে, employee নামক একটি টেবিল তৈরি করা হয়েছে, যেখানে id, name, age, এবং department নামে কলাম রয়েছে।

2. LOAD DATA

Hive তে ডেটা লোড করার জন্য LOAD DATA কমান্ড ব্যবহার করা হয়। এই কমান্ডটি ফাইল সিস্টেম থেকে ডেটা টেবিলে লোড করে।

LOAD DATA LOCAL INPATH '/path/to/data.csv' INTO TABLE employee;

এখানে, /path/to/data.csv ফাইলের ডেটা employee টেবিলের মধ্যে লোড করা হচ্ছে।

3. SELECT

SELECT কমান্ড হাইভ কুয়েরিতে সবচেয়ে বেশি ব্যবহৃত। এটি টেবিলের ডেটা নির্বাচন করতে ব্যবহৃত হয়।

SELECT * FROM employee;

এই কুয়েরি employee টেবিলের সব রেকর্ড নির্বাচন করবে।

4. WHERE

WHERE ক্লজটি ডেটা ফিল্টার করতে ব্যবহৃত হয়। এটি নির্বাচিত রেকর্ডের মধ্যে কন্ডিশন প্রয়োগ করে।

SELECT name, age FROM employee WHERE department = 'Sales';

এখানে, Sales ডিপার্টমেন্টের কর্মচারীদের নাম এবং বয়স নির্বাচন করা হচ্ছে।

5. GROUP BY

GROUP BY কমান্ডটি ডেটাকে গ্রুপ করতে ব্যবহৃত হয়। এটি সাধারণত অ্যাগ্রিগেট ফাংশন যেমন COUNT(), SUM(), AVG() এর সাথে ব্যবহার করা হয়।

SELECT department, COUNT(*) FROM employee GROUP BY department;

এই কুয়েরি প্রতিটি ডিপার্টমেন্টের জন্য কর্মচারীর সংখ্যা দেখাবে।

6. JOIN

JOIN কমান্ডটি একাধিক টেবিলের ডেটাকে যুক্ত (combine) করতে ব্যবহৃত হয়। Hive তে বিভিন্ন ধরনের জয়েন ব্যবহার করা যায়, যেমন INNER JOIN, LEFT JOIN, ইত্যাদি।

SELECT e.name, d.department_name
FROM employee e
JOIN department d ON e.department = d.department_id;

এখানে, employee এবং department টেবিল দুটি department কলামের মাধ্যমে যুক্ত হচ্ছে।

7. INSERT INTO

HiveQL তে ডেটা টেবিলে ইনসার্ট করতে INSERT INTO কমান্ড ব্যবহার করা হয়।

INSERT INTO TABLE employee VALUES (1, 'John Doe', 30, 'Sales');

এটি employee টেবিলে একটি নতুন রেকর্ড ইনসার্ট করবে।

8. LIMIT

LIMIT কমান্ডটি কুয়েরির রেকর্ডের সংখ্যা সীমাবদ্ধ করতে ব্যবহৃত হয়।

SELECT * FROM employee LIMIT 10;

এটি employee টেবিল থেকে প্রথম 10টি রেকর্ড নির্বাচন করবে।

HiveQL এর পারফরম্যান্স অপটিমাইজেশন

1. Partitioning

Hive তে ডেটা পার্টিশনিংয়ের মাধ্যমে ডেটার বিশাল আকারকে ছোট ছোট ভাগে ভাগ করা যায়, যা প্রক্রিয়াকরণের গতি বাড়ায়।

CREATE TABLE employee_partitioned (
    id INT,
    name STRING,
    age INT
)
PARTITIONED BY (department STRING);

এখানে, department কলামের ভিত্তিতে ডেটা পার্টিশন করা হচ্ছে।

2. Bucketing

ডেটা বকেটিংয়ের মাধ্যমে একাধিক ভাগে ডেটাকে সঠিকভাবে ভাগ করা যায়। এটি পারফরম্যান্সের উন্নতিতে সাহায্য করে, বিশেষ করে যখন ডেটা অনেক বেশি।

CREATE TABLE employee_bucketed (
    id INT,
    name STRING,
    age INT
)
CLUSTERED BY (id) INTO 10 BUCKETS;

এখানে, id কলামের উপর ভিত্তি করে ডেটাকে 10টি বকেেটে ভাগ করা হয়েছে।

সারাংশ

HiveQL হল হাদুপ ইকোসিস্টেমে SQL-এর মতো একটি কুয়েরি ভাষা, যা ডেটাবেস অপারেশনগুলি সহজভাবে পরিচালনা করতে সাহায্য করে। এর মাধ্যমে হাদুপ ডেটা প্রসেসিংয়ে SQL-জাতীয় কুয়েরি ব্যবহার করা সম্ভব, যা ব্যবহারকারীদের জন্য খুবই সুবিধাজনক। HiveQL এর মাধ্যমে আপনি CREATE TABLE, SELECT, JOIN, GROUP BY, INSERT, এবং LIMIT এর মতো কমান্ড ব্যবহার করে ডেটার উপরে বিভিন্ন প্রক্রিয়া করতে পারেন। পারফরম্যান্স অপটিমাইজেশনের জন্য partitioning এবং bucketing এর মতো টেকনিকও ব্যবহার করা যায়।

Content added By

Rezwan Siddiki Tamim

Hive কী এবং Hadoop এর সাথে এর Integration Data Warehousing এবং Hive এর জন্য ETL Process Hive এর জন্য Partitioning এবং Bucketing Techniques

HiveQL এর মাধ্যমে SQL Like Queries

HiveQL এর বৈশিষ্ট্য

HiveQL এর মৌলিক কুয়েরি অপারেশন

1. CREATE TABLE

2. LOAD DATA

3. SELECT

4. WHERE

5. GROUP BY

6. JOIN

7. INSERT INTO

8. LIMIT

HiveQL এর পারফরম্যান্স অপটিমাইজেশন

1. Partitioning

2. Bucketing

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

HiveQL এর মাধ্যমে SQL Like Queries

HiveQL এর বৈশিষ্ট্য

HiveQL এর মৌলিক কুয়েরি অপারেশন

1. CREATE TABLE

2. LOAD DATA

3. SELECT

4. WHERE

5. GROUP BY

6. JOIN

7. INSERT INTO

8. LIMIT

HiveQL এর পারফরম্যান্স অপটিমাইজেশন

1. Partitioning

2. Bucketing

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!