Query Optimization Techniques

Database Tutorials - অ্যাপাচি প্রেস্টো (Apache Presto) Presto Query Planning এবং Optimization |

403

Presto একটি উচ্চ পারফরম্যান্স SQL কোয়েরি ইঞ্জিন যা বড় ডেটাসেটের উপর দ্রুত কোয়েরি চালাতে সক্ষম। তবে, যখন আপনি বড় ডেটাবেসে বা ডিস্ট্রিবিউটেড সিস্টেমে কোয়েরি চালান, তখন Query Optimization অত্যন্ত গুরুত্বপূর্ণ। সঠিকভাবে অপটিমাইজ করা কোয়েরি পারফরম্যান্স বাড়াতে সাহায্য করে এবং সময় এবং সম্পদ সংরক্ষণ করে। নিচে Presto তে কোয়েরি অপটিমাইজেশনের জন্য কিছু কার্যকর কৌশল আলোচনা করা হল।

১. Indexing এবং Partitioning

Indexing

Presto তে ডেটাবেস টেবিলের জন্য ইনডেক্স তৈরি করার মাধ্যমে কোয়েরি পারফরম্যান্স বাড়ানো সম্ভব। ইনডেক্স মূলত একটি দ্রুত অনুসন্ধান কাঠামো তৈরি করে যা ডেটাবেসের সার্চ অপারেশনগুলো দ্রুত করে তোলে।

Primary Index: প্রতিটি টেবিলের জন্য একটি primary index তৈরি করুন যা ডেটার দ্রুত অ্যাক্সেস নিশ্চিত করে।
Secondary Indexes: অন্যান্য কলামের জন্য, বিশেষ করে যেগুলোর উপর বারবার কোয়েরি চলে, সেগুলোর জন্য secondary indexes তৈরি করুন।

Partitioning

Partitioning ব্যবহার করে বড় টেবিলকে ছোট ছোট অংশে ভাগ করা হয়, যা শুধুমাত্র প্রয়োজনীয় ডেটা প্রক্রিয়া করতে সহায়ক। Presto এ আপনি partitioned tables তৈরি করতে পারেন যা পারফরম্যান্স বৃদ্ধি করে।

Range Partitioning: একটি কলামের উপর ভিত্তি করে ডেটাকে ভাগ করা (যেমন তারিখ অনুযায়ী)।
Hash Partitioning: একটি কলামের উপর হ্যাশিং প্রক্রিয়া করে ডেটা ভাগ করা।

উদাহরণ:

CREATE TABLE orders
WITH (partitioned_by = ARRAY['order_date'])
AS SELECT * FROM large_orders;

এটি large_orders টেবিলের ডেটা order_date কলামের ভিত্তিতে পার্টিশন করবে।

২. Data Pruning এবং Predicate Pushdown

Data Pruning হল একটি অপটিমাইজেশন কৌশল যা কোয়েরির প্রয়োজনীয় অংশগুলির উপর কাজ করে। যখন আপনি WHERE ক্লজ ব্যবহার করেন, Presto স্বয়ংক্রিয়ভাবে শুধুমাত্র সঠিক ডেটা সিলেক্ট করার চেষ্টা করে, অর্থাৎ Predicate Pushdown এর মাধ্যমে অপ্রয়োজনীয় ডেটা বাদ দেয়।

Predicate Pushdown

এটি এমন একটি কৌশল যেখানে Presto মূল কোয়েরি চালানোর আগে ডেটাসোর্সে ডেটা ফিল্টারিং (প্রেডিকেট) অপারেশনটি প্রয়োগ করে, তাই কম ডেটা আনা হয় এবং পরবর্তীতে কম প্রসেসিং করা হয়।

উদাহরণ:

SELECT * FROM orders WHERE order_date > '2023-01-01';

এটি প্রথমে order_date কলামের উপর ফিল্টার প্রয়োগ করবে, এবং তারপর শুধুমাত্র প্রয়োজনীয় ডেটা ডাউনলোড করবে।

৩. Query Refactoring

কিছু সময়ে কোয়েরি পুনঃলিখন করে অপটিমাইজ করা যায়। সহজ, স্বচ্ছ এবং কার্যকরী কোয়েরি সাধারণত দ্রুত এক্সিকিউট হয়। কোয়েরি JOIN এর কার্যকারিতা, WHERE ক্লজে ফিল্টারিং এবং GROUP BY অপারেশনগুলো সহজ ও পরিষ্কারভাবে লিখলে তা পারফরম্যান্স বৃদ্ধি করতে সাহায্য করবে।

Example 1: Subquery Optimization

একটি সাবকোয়েরি যদি একই টেবিলের জন্য বারবার চালানো হয়, তাহলে সেটিকে JOIN ব্যবহার করে একীভূত করা যেতে পারে।

অপটিমাইজড কোয়েরি:

SELECT e.employee_name, e.salary, d.department_name
FROM employees e
JOIN departments d ON e.department_id = d.department_id
WHERE e.salary > 50000;

এটি সাবকোয়েরি ব্যবহারের তুলনায় দ্রুত হবে।

৪. Use of Proper Joins

Join Types: Presto বিভিন্ন ধরনের Joins সাপোর্ট করে, যেমন INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN। সঠিক Join type নির্বাচন করা কোয়েরির পারফরম্যান্সকে প্রভাবিত করতে পারে।

INNER JOIN: এটি শুধুমাত্র সেই রেকর্ডগুলো ফেরত দেয় যা দুটি টেবিলের মধ্যে মিলে।
LEFT JOIN: এটি বাম টেবিলের সমস্ত রেকর্ড ফেরত দেয় এবং ডান টেবিলের সাথে মেলে না এমন রেকর্ডগুলোর জন্য NULL ফেরত দেয়।

অপটিমাইজেশন টিপ: যখন সম্ভব হয়, INNER JOIN ব্যবহার করুন কারণ এটি প্রায়ই দ্রুত কাজ করে। যদি LEFT JOIN বা RIGHT JOIN ব্যবহৃত হয়, তবে নিশ্চিত করুন যে আপনার শর্তগুলি সঠিকভাবে সংজ্ঞায়িত করা হয়েছে।

৫. Limit the Amount of Data Scanned

Presto তে কোয়েরি অপটিমাইজেশনের জন্য একটি গুরুত্বপূর্ণ কৌশল হল ডেটা স্ক্যান করা কমানো। SELECT * FROM ব্যবহার না করে শুধুমাত্র প্রয়োজনীয় কলামগুলো নির্বাচন করা উচিত।

অপটিমাইজড কোয়েরি:

SELECT first_name, last_name, department
FROM employees
WHERE department = 'Sales';

এটি শুধুমাত্র প্রয়োজনীয় first_name, last_name, এবং department কলামগুলি নিয়ে কাজ করবে, যেখানে SELECT * FROM সব কলাম নির্বাচন করবে এবং অতিরিক্ত ডেটা স্ক্যান হবে।

৬. Query Parallelism

Presto একটি Distributed Query Engine হওয়ার কারণে, Query Parallelism এটির পারফরম্যান্সে সহায়ক। বড় এবং জটিল কোয়েরি গুলি parallel execution এ চলতে পারে, যাতে সম্পাদনা দ্রুত হয়।

Optimizing Query Parallelism:

JOIN এবং GROUP BY অপারেশনগুলির জন্য parallel execution নিশ্চিত করতে, Presto ক্লাস্টারটি সঠিকভাবে কনফিগার করা গুরুত্বপূর্ণ।
Worker nodes এর সংখ্যা বাড়ালে আরও দ্রুত প্রসেসিং হতে পারে, তবে সঠিক data partitioning নিশ্চিত করতে হবে।

৭. Use of Caching

Presto সিস্টেমে কোয়েরি ক্যাশিং ব্যবহার করে পুনরায় চালানোর সময় কোয়েরির ফলাফলগুলি দ্রুত ফিরিয়ে আনা যেতে পারে। Presto নিজে ক্যাশিং ম্যানেজমেন্ট সিস্টেম সরবরাহ করে না, তবে আপনি external caching systems যেমন Redis বা Memcached ব্যবহার করতে পারেন।

৮. Cost-Based Query Optimizer

Presto তে Cost-based Query Optimizer (CBO) একটি শক্তিশালী কৌশল, যা কোয়েরি পরিকল্পনা করার সময় বিভিন্ন অপটিমাইজেশন কৌশল নির্ধারণ করে। CBO কোয়েরির খরচ (যেমন, কোয়েরি এক্সিকিউশনের সময়) হিসাব করে এবং সবচেয়ে দক্ষ পরিকল্পনা নির্বাচন করে।

সারাংশ

Indexing এবং Partitioning: ডেটার অ্যাক্সেস দ্রুত করতে সাহায্য করে।
Predicate Pushdown: ডেটা ফিল্টারিং কোয়েরি এক্সিকিউশন শুরু করার আগেই ডেটাসোর্সে করা হয়।
Query Refactoring: কোয়েরি সহজ এবং পরিষ্কারভাবে লিখুন যাতে তা দ্রুত এক্সিকিউট হয়।
Proper Joins: সঠিক ধরনের Join ব্যবহার করা।
Limiting Data Scanned: শুধু প্রয়োজনীয় ডেটা স্ক্যান করুন।
Query Parallelism: কোয়েরির পারফরম্যান্স বাড়ানোর জন্য parallel execution নিশ্চিত করুন।
Caching: পুনরায় চালানোর সময় দ্রুত ফলাফল ফেরত পেতে ক্যাশিং ব্যবহার করুন।

এই কৌশলগুলি ব্যবহার করে আপনি Presto তে কোয়েরির পারফরম্যান্স সঠিকভাবে অপটিমাইজ করতে পারেন।

Content added By

Md Azizur Rahman

Presto Query Execution Plan Cost-based Query Optimizer Partitioning এবং Bucketing এর মাধ্যমে পারফরমেন্স বাড়ানো