Big Data and Analytics HiveQL এর মাধ্যমে SQL Like Queries গাইড ও নোট

274

HiveQL হল হাদুপের জন্য একটি ডেটাবেস ইন্টারফেস, যা SQL-এর মতো কুয়েরি ভাষা ব্যবহার করে ডেটাবেস অপারেশন চালানোর সুবিধা প্রদান করে। এটি হাদুপের Hive প্রকল্পের অংশ, যা ডেটা বিশ্লেষণের জন্য SQL-জাতীয় কুয়েরি লেখার সহজ পদ্ধতি তৈরি করে। HiveQL ব্যবহার করে আপনি হাদুপ ডিস্ট্রিবিউটেড ফাইল সিস্টেম (HDFS) এ স্টোর করা ডেটার উপর SQL-সামান্য কুয়েরি কার্যকর করতে পারেন।


HiveQL এর বৈশিষ্ট্য

  1. SQL Like Syntax:
    HiveQL SQL-এর মতোই, ফলে SQL জানলে এটি ব্যবহার করা সহজ। এতে ডেটা ম্যানিপুলেশন ও ডেটা বিশ্লেষণের জন্য পরিচিত SQL কমান্ড ব্যবহার করা হয়।
  2. ডিস্ট্রিবিউটেড প্রক্রিয়াকরণ:
    HiveQL হাদুপের ডিস্ট্রিবিউটেড ফাইল সিস্টেমে (HDFS) থাকা ডেটার উপর কার্যকরী হয়, যার ফলে এটি বড় ডেটাসেটের সাথে কাজ করার জন্য উপযুক্ত।
  3. Batch Processing:
    HiveQL ব্যাচ প্রক্রিয়াকরণ সমর্থন করে, অর্থাৎ এটি বড় ডেটাসেটের উপর পরবর্তীতে কাজ করতে পারে।

HiveQL এর মৌলিক কুয়েরি অপারেশন

1. CREATE TABLE

HiveQL তে একটি নতুন টেবিল তৈরি করতে CREATE TABLE কমান্ড ব্যবহার করা হয়।

CREATE TABLE employee (
    id INT,
    name STRING,
    age INT,
    department STRING
);

এখানে, employee নামক একটি টেবিল তৈরি করা হয়েছে, যেখানে id, name, age, এবং department নামে কলাম রয়েছে।


2. LOAD DATA

Hive তে ডেটা লোড করার জন্য LOAD DATA কমান্ড ব্যবহার করা হয়। এই কমান্ডটি ফাইল সিস্টেম থেকে ডেটা টেবিলে লোড করে।

LOAD DATA LOCAL INPATH '/path/to/data.csv' INTO TABLE employee;

এখানে, /path/to/data.csv ফাইলের ডেটা employee টেবিলের মধ্যে লোড করা হচ্ছে।


3. SELECT

SELECT কমান্ড হাইভ কুয়েরিতে সবচেয়ে বেশি ব্যবহৃত। এটি টেবিলের ডেটা নির্বাচন করতে ব্যবহৃত হয়।

SELECT * FROM employee;

এই কুয়েরি employee টেবিলের সব রেকর্ড নির্বাচন করবে।

4. WHERE

WHERE ক্লজটি ডেটা ফিল্টার করতে ব্যবহৃত হয়। এটি নির্বাচিত রেকর্ডের মধ্যে কন্ডিশন প্রয়োগ করে।

SELECT name, age FROM employee WHERE department = 'Sales';

এখানে, Sales ডিপার্টমেন্টের কর্মচারীদের নাম এবং বয়স নির্বাচন করা হচ্ছে।


5. GROUP BY

GROUP BY কমান্ডটি ডেটাকে গ্রুপ করতে ব্যবহৃত হয়। এটি সাধারণত অ্যাগ্রিগেট ফাংশন যেমন COUNT(), SUM(), AVG() এর সাথে ব্যবহার করা হয়।

SELECT department, COUNT(*) FROM employee GROUP BY department;

এই কুয়েরি প্রতিটি ডিপার্টমেন্টের জন্য কর্মচারীর সংখ্যা দেখাবে।


6. JOIN

JOIN কমান্ডটি একাধিক টেবিলের ডেটাকে যুক্ত (combine) করতে ব্যবহৃত হয়। Hive তে বিভিন্ন ধরনের জয়েন ব্যবহার করা যায়, যেমন INNER JOIN, LEFT JOIN, ইত্যাদি।

SELECT e.name, d.department_name
FROM employee e
JOIN department d ON e.department = d.department_id;

এখানে, employee এবং department টেবিল দুটি department কলামের মাধ্যমে যুক্ত হচ্ছে।


7. INSERT INTO

HiveQL তে ডেটা টেবিলে ইনসার্ট করতে INSERT INTO কমান্ড ব্যবহার করা হয়।

INSERT INTO TABLE employee VALUES (1, 'John Doe', 30, 'Sales');

এটি employee টেবিলে একটি নতুন রেকর্ড ইনসার্ট করবে।


8. LIMIT

LIMIT কমান্ডটি কুয়েরির রেকর্ডের সংখ্যা সীমাবদ্ধ করতে ব্যবহৃত হয়।

SELECT * FROM employee LIMIT 10;

এটি employee টেবিল থেকে প্রথম 10টি রেকর্ড নির্বাচন করবে।


HiveQL এর পারফরম্যান্স অপটিমাইজেশন

1. Partitioning

Hive তে ডেটা পার্টিশনিংয়ের মাধ্যমে ডেটার বিশাল আকারকে ছোট ছোট ভাগে ভাগ করা যায়, যা প্রক্রিয়াকরণের গতি বাড়ায়।

CREATE TABLE employee_partitioned (
    id INT,
    name STRING,
    age INT
)
PARTITIONED BY (department STRING);

এখানে, department কলামের ভিত্তিতে ডেটা পার্টিশন করা হচ্ছে।

2. Bucketing

ডেটা বকেটিংয়ের মাধ্যমে একাধিক ভাগে ডেটাকে সঠিকভাবে ভাগ করা যায়। এটি পারফরম্যান্সের উন্নতিতে সাহায্য করে, বিশেষ করে যখন ডেটা অনেক বেশি।

CREATE TABLE employee_bucketed (
    id INT,
    name STRING,
    age INT
)
CLUSTERED BY (id) INTO 10 BUCKETS;

এখানে, id কলামের উপর ভিত্তি করে ডেটাকে 10টি বকেেটে ভাগ করা হয়েছে।


সারাংশ

HiveQL হল হাদুপ ইকোসিস্টেমে SQL-এর মতো একটি কুয়েরি ভাষা, যা ডেটাবেস অপারেশনগুলি সহজভাবে পরিচালনা করতে সাহায্য করে। এর মাধ্যমে হাদুপ ডেটা প্রসেসিংয়ে SQL-জাতীয় কুয়েরি ব্যবহার করা সম্ভব, যা ব্যবহারকারীদের জন্য খুবই সুবিধাজনক। HiveQL এর মাধ্যমে আপনি CREATE TABLE, SELECT, JOIN, GROUP BY, INSERT, এবং LIMIT এর মতো কমান্ড ব্যবহার করে ডেটার উপরে বিভিন্ন প্রক্রিয়া করতে পারেন। পারফরম্যান্স অপটিমাইজেশনের জন্য partitioning এবং bucketing এর মতো টেকনিকও ব্যবহার করা যায়।


Content added By
Promotion

Are you sure to start over?

Loading...