Joins এবং Subqueries

স্পার্ক এসকিউএল (Spark SQL) - Big Data and Analytics

305

Spark SQL এ Joins এবং Subqueries ডেটা প্রসেসিংয়ের অন্যতম গুরুত্বপূর্ণ অংশ। Joins ব্যবহার করে আমরা একাধিক টেবিল বা DataFrame-এর মধ্যে সম্পর্ক স্থাপন করতে পারি এবং Subqueries ব্যবহার করে জটিল SQL কোয়ারি তৈরি করতে সাহায্য পেতে পারি। এই দুটি পদ্ধতি ডেটাবেসে বিশ্লেষণ করা ডেটার মধ্যে সম্পর্ক স্থাপন ও ফিল্টারিং প্রক্রিয়াকে আরও কার্যকর করে তোলে।

Joins in Spark SQL

Joins হল এমন একটি অপারেশন, যা একাধিক টেবিল বা ডেটাসেটের মধ্যে সম্পর্ক স্থাপন করে, তাদের কমন কলামের উপর ভিত্তি করে ডেটা একত্রিত করে। Spark SQL এ বিভিন্ন ধরনের Join রয়েছে, যার মধ্যে সবচেয়ে সাধারণ হলো INNER JOIN, LEFT JOIN, RIGHT JOIN, এবং FULL JOIN। এই Join অপারেশনগুলি SQL কোয়ারিতে ব্যবহৃত হয় এবং DataFrame API তেও ব্যবহার করা যায়।

১. INNER JOIN

INNER JOIN দুটি টেবিল বা DataFrame এর মধ্যে এমন রেকর্ড একত্রিত করে, যেগুলোর মধ্যে একটি নির্দিষ্ট শর্ত পূর্ণ হয়।

Python উদাহরণ:

# প্রথম DataFrame
data1 = [("John", "HR"), ("Alice", "Finance"), ("Bob", "IT")]
df1 = spark.createDataFrame(data1, ["Name", "Department"])

# দ্বিতীয় DataFrame
data2 = [("John", "Manager"), ("Alice", "Analyst")]
df2 = spark.createDataFrame(data2, ["Name", "Position"])

# INNER JOIN ব্যবহার
df_inner_join = df1.join(df2, "Name", "inner")
df_inner_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
+-----+----------+--------+

এখানে, "Name" কলামটি ব্যবহার করে দুটি DataFrame একত্রিত করা হয়েছে।

২. LEFT JOIN (LEFT OUTER JOIN)

LEFT JOIN এমন একটি Join যেখানে বাম দিকের টেবিলের সমস্ত রেকর্ড এবং ডান দিকের টেবিলের মিল পাওয়া রেকর্ডগুলিকে একত্রিত করা হয়। ডান দিকের টেবিলের কোনো রেকর্ড না থাকলে NULL মান প্রর্দশিত হয়।

Python উদাহরণ:

# LEFT JOIN ব্যবহার
df_left_join = df1.join(df2, "Name", "left")
df_left_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
|  Bob|       IT|    null|
+-----+----------+--------+

৩. RIGHT JOIN (RIGHT OUTER JOIN)

RIGHT JOIN হলো একটি Join যেখানে ডান দিকের টেবিলের সমস্ত রেকর্ড এবং বাম দিকের টেবিলের মিল পাওয়া রেকর্ডগুলো একত্রিত করা হয়।

Python উদাহরণ:

# RIGHT JOIN ব্যবহার
df_right_join = df1.join(df2, "Name", "right")
df_right_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
| null|      null|    null|
+-----+----------+--------+

৪. FULL JOIN (FULL OUTER JOIN)

FULL JOIN দুটি টেবিলের সমস্ত রেকর্ড একত্রিত করে। যদি একটি টেবিলের কোনো রেকর্ড অন্য টেবিলের সাথে না মেলে, তবে সেই রেকর্ডের জন্য NULL মান প্রদর্শিত হয়।

Python উদাহরণ:

# FULL JOIN ব্যবহার
df_full_join = df1.join(df2, "Name", "full")
df_full_join.show()

আউটপুট:

+-----+----------+--------+
| Name|Department|Position|
+-----+----------+--------+
| John|        HR| Manager|
|Alice|   Finance|  Analyst|
|  Bob|       IT|    null|
| null|      null|    null|
+-----+----------+--------+

Subqueries in Spark SQL

Subqueries হল এমন SQL কোয়ারি যা অন্য একটি কোয়ারির মধ্যে লেখা হয়। সাধারণত SELECT, FROM, WHERE, এবং HAVING ক্লজে Subqueries ব্যবহার করা হয়। Subqueries কে ব্যবহার করে জটিল ফিল্টারিং বা অ্যাগ্রিগেশন করতে সাহায্য পাওয়া যায়।

১. Subquery in SELECT Clause

Subquery in SELECT হল এমন একটি Subquery যা মূল কোয়ারির একটি কলামের মান হিসাবে ব্যবহার করা হয়। এটি সাধারণত একটি একক মান ফেরত দেয়।

Python উদাহরণ:

# একটি মৌলিক Subquery ব্যবহার
df_subquery = spark.sql("""
    SELECT Name, 
           (SELECT MAX(Age) FROM people) AS Max_Age 
    FROM people
""")
df_subquery.show()

আউটপুট:

+-----+-------+
| Name|Max_Age|
+-----+-------+
|John |     40|
|Alice|     40|
| Bob |     40|
+-----+-------+

এখানে, Subquery MAX(Age) নির্ধারণ করছে এবং তার ফলাফল প্রধান কোয়ারিতে ব্যবহৃত হচ্ছে।

২. Subquery in WHERE Clause

Subquery ব্যবহার করা যায় WHERE ক্লজে, যেখানে একটি শর্তের মধ্যে একটি কোয়ারি চালানো হয়। সাধারণত এটি ফিল্টারিং বা কোনো নির্দিষ্ট মানের উপর ভিত্তি করে ব্যবহৃত হয়।

Python উদাহরণ:

# Subquery in WHERE Clause
df_where_subquery = spark.sql("""
    SELECT Name, Age
    FROM people
    WHERE Age = (SELECT MAX(Age) FROM people)
""")
df_where_subquery.show()

আউটপুট:

+-----+---+
| Name|Age|
+-----+---+
| John| 40|
+-----+---+

এখানে, WHERE ক্লজে Subquery ব্যবহার করা হয়েছে যাতে সর্বোচ্চ বয়স (MAX(Age)) এর সঙ্গে মিল পাওয়া যায়।

সারাংশ

Spark SQL-এ Joins এবং Subqueries ডেটা প্রসেসিংয়ের গুরুত্বপূর্ণ অংশ। Joins ব্যবহার করে একাধিক টেবিল বা DataFrame-কে সম্পর্কিত করা যায় এবং Subqueries জটিল কোয়ারি তৈরি করতে সাহায্য করে, যেখানে একটি কোয়ারি আরেকটি কোয়ারির মধ্যে লেখা হয়। Joins ব্যবহারের মাধ্যমে ডেটা একত্রিত করার সময় আপনি INNER, LEFT, RIGHT, FULL ইত্যাদি অপারেশন ব্যবহার করতে পারেন এবং Subqueries দিয়ে আপনি শক্তিশালী ফিল্টারিং এবং অ্যাগ্রিগেশন করতে পারেন। Spark SQL এই অপারেশনগুলির মাধ্যমে ডিস্ট্রিবিউটেড ডেটা প্রসেসিংকে সহজ ও কার্যকর করে তোলে।

Content added By

Rezwan Siddiki Tamim

বিভিন্ন ধরনের Joins (Inner, Outer, Cross, Semi) এর ব্যবহার

323

Spark SQL-এ Joins একটি অত্যন্ত গুরুত্বপূর্ণ কৌশল যা ডিস্ট্রিবিউটেড ডেটার মধ্যে সম্পর্ক তৈরি করতে এবং বিভিন্ন টেবিল বা DataFrame-এর মধ্যে ডেটা একত্রিত করতে ব্যবহৃত হয়। Joins এর মাধ্যমে দুটি বা তার বেশি ডেটাসেটের মধ্যে সম্পর্ক স্থাপন করা সম্ভব হয়। Spark SQL-এ বিভিন্ন ধরনের Joins রয়েছে, যেমন Inner Join, Outer Join, Cross Join, এবং Semi Join। চলুন, প্রতিটি ধরনের join এর বিস্তারিত ব্যবহার এবং তাদের পারফরম্যান্স কিভাবে প্রভাবিত হতে পারে, তা দেখি।

১. Inner Join

Inner Join হল একটি সাধারণ Join টাইপ যা দুটি DataFrame বা টেবিলের মধ্যে মিল থাকা রেকর্ডগুলোকে একত্রিত করে। যখন দুটি টেবিলের মধ্যে কিছু সুনির্দিষ্ট কলামের মান একে অপরের সাথে মিলে যায়, তখন সেই রেকর্ডগুলোকে Inner Join দ্বারা একত্রিত করা হয়।

উদাহরণ:

from pyspark.sql import SparkSession

# SparkSession তৈরি
spark = SparkSession.builder.appName("Inner Join Example").getOrCreate()

# দুটি DataFrame তৈরি করা
data1 = [("John", 30), ("Alice", 25), ("Bob", 35)]
data2 = [("John", "HR"), ("Alice", "Finance"), ("Charlie", "IT")]

columns1 = ["Name", "Age"]
columns2 = ["Name", "Department"]

df1 = spark.createDataFrame(data1, columns1)
df2 = spark.createDataFrame(data2, columns2)

# Inner Join
df_joined = df1.join(df2, df1.Name == df2.Name, "inner")
df_joined.show()

আউটপুট:

+-----+---+--------+-------+
| Name|Age|    Name|Department|
+-----+---+--------+-------+
| John| 30|    John|       HR|
|Alice| 25|   Alice|  Finance|
+-----+---+--------+-------+

এখানে, John এবং Alice নামের রেকর্ডগুলোর মধ্যে সম্পর্ক তৈরি করা হয়েছে। Inner Join শুধুমাত্র সেসব রেকর্ড দেখাবে যেগুলোর দুটি টেবিলেই মিল আছে।

২. Outer Join

Outer Join (বা Full Outer Join) হল একটি Join অপারেশন যা দুটি টেবিলের সব রেকর্ডকে যুক্ত করে, এবং যেখানে মিল না পাওয়া যায় সেখানে NULL মান প্রদান করে। Outer Join তিন ধরনের হতে পারে:

Left Outer Join: বাম টেবিলের সব রেকর্ড এবং ডান টেবিলের মেলানো রেকর্ডগুলি।
Right Outer Join: ডান টেবিলের সব রেকর্ড এবং বাম টেবিলের মেলানো রেকর্ডগুলি।
Full Outer Join: উভয় টেবিলের সব রেকর্ড, যেখানে মিল না পাওয়া যায় সেখানে NULL প্রদান করা হয়।

উদাহরণ:

# Left Outer Join
df_left_outer = df1.join(df2, df1.Name == df2.Name, "left_outer")
df_left_outer.show()

# Right Outer Join
df_right_outer = df1.join(df2, df1.Name == df2.Name, "right_outer")
df_right_outer.show()

# Full Outer Join
df_full_outer = df1.join(df2, df1.Name == df2.Name, "outer")
df_full_outer.show()

আউটপুট:

Left Outer Join:

+-----+---+--------+-------+
| Name|Age|    Name|Department|
+-----+---+--------+-------+
| John| 30|    John|       HR|
|Alice| 25|   Alice|  Finance|
| Bob| 35|    null|     null|
+-----+---+--------+-------+

Right Outer Join:

+-----+---+--------+---------+
| Name|Age|    Name|Department|
+-----+---+--------+---------+
| John| 30|    John|       HR|
|Alice| 25|   Alice|   Finance|
| null|null|Charlie|       IT|
+-----+---+--------+---------+

Full Outer Join:

+-----+---+--------+---------+
| Name|Age|    Name|Department|
+-----+---+--------+---------+
| John| 30|    John|       HR|
|Alice| 25|   Alice|   Finance|
| Bob| 35|    null|     null|
| null|null|Charlie|       IT|
+-----+---+--------+---------+

৩. Cross Join

Cross Join হল একটি Join টাইপ যা দুটি টেবিলের প্রত্যেকটি রেকর্ডের সাথে অন্য টেবিলের প্রতিটি রেকর্ড মেলাতে থাকে। এটি Cartesian Product তৈরি করে, যা সাধারণত বড় ডেটাসেটে খুবই ব্যয়বহুল এবং কম্পিউটেশনালভাবে খরচসাপেক্ষ হতে পারে।

উদাহরণ:

# Cross Join
df_cross = df1.crossJoin(df2)
df_cross.show()

আউটপুট:

+-----+---+-----+--------+
| Name|Age| Name|Department|
+-----+---+-----+--------+
| John| 30| John|       HR|
| John| 30|Alice|   Finance|
| John| 30|Charlie|    IT|
|Alice| 25| John|       HR|
|Alice| 25|Alice|   Finance|
|Alice| 25|Charlie|    IT|
|  Bob| 35| John|       HR|
|  Bob| 35|Alice|   Finance|
|  Bob| 35|Charlie|    IT|
+-----+---+-----+--------+

এখানে, df1 এবং df2 টেবিলের প্রত্যেকটি রেকর্ড একে অপরের সাথে মিশিয়ে Cartesian Product তৈরি করা হয়েছে।

৪. Semi Join

Semi Join হল একটি বিশেষ ধরনের Join যেখানে মূল কোয়ারির টেবিল থেকে ডেটা ফিরিয়ে আনা হয়, কিন্তু এটি শুধুমাত্র সেসব রেকর্ড দেখাবে যেগুলোর মিল ডান টেবিলের সাথে রয়েছে। তবে, Semi Join-এ ডান টেবিলের কলামগুলো ফিরিয়ে আনা হয় না, কেবলমাত্র বাম টেবিলের রেকর্ড রিটার্ন করা হয়।

উদাহরণ:

# Semi Join
df_semi = df1.join(df2, df1.Name == df2.Name, "left_semi")
df_semi.show()

আউটপুট:

+-----+---+
| Name|Age|
+-----+---+
| John| 30|
|Alice| 25|
+-----+---+

এখানে, Semi Join শুধুমাত্র df1 টেবিলের সেই রেকর্ডগুলো ফিরিয়ে দিয়েছে যেগুলোর মিল df2 টেবিলের সাথে রয়েছে। Bob নামের রেকর্ডটি এখানে বাদ পড়েছে কারণ এটি df2 টেবিলের সাথে মেলে না।

পারফরম্যান্সে প্রভাব

Inner Join সাধারণত দ্রুত হয়, কারণ এটি শুধুমাত্র মিল থাকা রেকর্ডগুলো ফিরিয়ে দেয়।
Outer Joins (Left, Right, Full) কিছুটা ধীর হতে পারে কারণ এটি NULL মান যুক্ত করে, এবং এতে বেশি ডেটা প্রসেস করা হয়।
Cross Join সবচেয়ে বেশি ব্যয়বহুল, কারণ এটি Cartesian Product তৈরি করে, যার ফলে ডেটার পরিমাণ ব্যাপকভাবে বৃদ্ধি পায়।
Semi Join পারফরম্যান্সের জন্য কার্যকরী হতে পারে কারণ এটি শুধুমাত্র বাম টেবিলের রেকর্ড ফিরিয়ে দেয়, যা মেমরি এবং কম্পিউটেশনাল রিসোর্সের সাশ্রয়ী।

সারাংশ

Spark SQL-এ Joins (Inner, Outer, Cross, Semi) ডেটার মধ্যে সম্পর্ক তৈরি করার জন্য একটি শক্তিশালী টুল। Inner Join শুধুমাত্র মিল থাকা রেকর্ডগুলো ফিরিয়ে দেয়, Outer Join উভয় টেবিলের সমস্ত রেকর্ডকে একত্রিত করে, Cross Join Cartesian Product তৈরি করে এবং Semi Join শুধুমাত্র বাম টেবিলের রেকর্ডগুলোর সাথে মিল থাকা রেকর্ডগুলো দেখায়। প্রতিটি Join-এর পারফরম্যান্স ডেটাসেটের আকার এবং Join টাইপের উপর নির্ভর করে। Cross Join সেভাবে ব্যবহৃত হলে পারফরম্যান্সে নেতিবাচক প্রভাব ফেলতে পারে, কিন্তু অন্যান্য Join অপারেশনগুলো সাধারণত দ্রুত এক্সিকিউট হয়।

Content added By

Rezwan Siddiki Tamim

Join Optimization Techniques

288

Join অপারেশন Spark SQL-এ ডেটা প্রসেসিংয়ের একটি গুরুত্বপূর্ণ অংশ, বিশেষ করে যখন বড় ডেটাসেটের মধ্যে সম্পর্কিত ডেটা একত্রিত করতে হয়। কিন্তু বড় ডেটাসেটের সাথে Join অপারেশন চালানো অনেক বেশি রিসোর্স-ভোক্ত হতে পারে, বিশেষ করে যখন ডেটা অনেক বড় হয়। Spark SQL এ Join Optimization টেকনিকগুলি ব্যবহার করে এই ধরনের অপারেশনগুলোকে আরও দ্রুত এবং কার্যকরী করা যায়।

এখানে আমরা Spark SQL-এ Join Optimization Techniques এর কিছু গুরুত্বপূর্ণ পদ্ধতি আলোচনা করবো।

1. Broadcast Join

Spark SQL-এ Broadcast Join একটি শক্তিশালী optimization technique, যা ছোট টেবিলকে বড় টেবিলের সঙ্গে যোগ করার জন্য ব্যবহৃত হয়। যখন এক টেবিল খুব ছোট হয় এবং অন্য টেবিল খুব বড় হয়, তখন Spark ওই ছোট টেবিলকে সমস্ত নোডে "broadcast" করে দেয়, যাতে ঐ ছোট টেবিলটি বড় টেবিলের সাথে একযোগে যোগ করা যায়। এর ফলে ডেটা প্রসেসিং অনেক দ্রুত হয়।

কিভাবে কাজ করে:

Spark প্রথমে ছোট টেবিলটিকে সমস্ত ওয়ার্কার নোডে পাঠিয়ে দেয়।
এরপর বড় টেবিলের প্রতিটি পার্টিশন ছোট টেবিলের সাথে মেলানো হয়।

উদাহরণ:

# Small dataframe (broadcast table)
small_df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# Large dataframe (big table)
large_df = spark.createDataFrame([(1, "HR"), (2, "Finance"), (3, "IT")], ["id", "department"])

# Perform Broadcast Join
result = large_df.join(broadcast(small_df), "id")
result.show()

এখানে, broadcast(small_df) ব্যবহার করে ছোট টেবিলটি বড় টেবিলের সাথে দ্রুত যোগ করা হয়েছে।

সুবিধা:

ছোট টেবিলের জন্য খুব কার্যকরী।
বড় টেবিলের সাথে দ্রুত জয়েন অপারেশন চালানো সম্ভব।

সীমাবদ্ধতা:

শুধুমাত্র ছোট টেবিলগুলির জন্য এটি কার্যকরী, কারণ বড় টেবিলগুলির জন্য এটি কার্যকরী নয় এবং বড় রিসোর্স খরচ হতে পারে।

2. Sort-Merge Join

Sort-Merge Join তখন ব্যবহৃত হয় যখন দুটি বড় টেবিলের মধ্যে sort করা যায়। এটি সাধারণত তখন ব্যবহৃত হয় যখন উভয় টেবিলই সঠিকভাবে sort করা থাকে এবং একে অপরের সাথে যোগ করা যায়। Spark এই টেবিলগুলিকে সোজাসুজি সজ্জিত করে এবং সেগুলিকে একে অপরের সাথে মেলে।

কিভাবে কাজ করে:

প্রথমে উভয় টেবিলকে সঠিকভাবে sort করা হয়।
এরপর যেগুলি মিলবে, সেগুলির মধ্যে যোগ করা হয়।

উদাহরণ:

# Sorting the DataFrames
df1_sorted = df1.sort("id")
df2_sorted = df2.sort("id")

# Perform Sort-Merge Join
result = df1_sorted.join(df2_sorted, "id")
result.show()

এখানে, প্রথমে উভয় DataFrame কে id অনুযায়ী sort করা হয়েছে, তারপর মেলানো হয়েছে।

সুবিধা:

বড় টেবিলগুলির জন্য কার্যকরী।
large-scale joins অপটিমাইজ করতে সহায়ক।

সীমাবদ্ধতা:

ডেটা যদি আগেই সজ্জিত না থাকে তবে পারফরম্যান্সে প্রভাব ফেলতে পারে, কারণ প্রাথমিকভাবে sort করতে অনেক সময় লাগে।

3. Shuffle Hash Join

Shuffle Hash Join একটি সাধারণ এবং পপুলার অপটিমাইজেশন পদ্ধতি যেখানে Spark প্রথমে একটি টেবিলের ডেটা একত্রিত (shuffled) করে এবং তারপরে hash-এর মাধ্যমে যুক্ত টেবিলটি নির্ধারণ করে। এটি তখন ব্যবহৃত হয় যখন উভয় টেবিলের data partitioning সমান হয় এবং hash key এর মাধ্যমে যোগ করা সম্ভব হয়।

কিভাবে কাজ করে:

Spark ডেটা অংশে বিভক্ত করে, প্রতিটি অংশে hash ফাংশন প্রয়োগ করে।
তারপর, hash key অনুযায়ী দুটি টেবিলের ডেটা একত্রিত (join) করা হয়।

উদাহরণ:

# Perform Shuffle Hash Join
result = df1.join(df2, "id", "inner")
result.show()

Spark নিজেই এই ধরনের Join কৌশল ব্যবহার করে যখন এটি সবচেয়ে উপযুক্ত মনে করে। এই পদ্ধতি সাধারণত তখন ব্যবহৃত হয় যখন টেবিলগুলো বড় হয় এবং অন্য অপটিমাইজেশন পদ্ধতিতে কাজ না করে।

সুবিধা:

বড় টেবিলগুলির জন্য কার্যকরী।
যখন ডেটা ভিন্ন ভিন্ন পার্টিশনে থাকে এবং সহজেই hash করে যোগ করা যায়।

সীমাবদ্ধতা:

পার্টিশনগুলি সঠিকভাবে মেলানো না হলে অনেক বেশি সময় নিতে পারে, বিশেষ করে বড় ডেটাসেটের জন্য।

4. Bucketed Hash Join

Bucketed Hash Join একটি অপটিমাইজেশন পদ্ধতি, যেখানে ডেটা নির্দিষ্ট সংখ্যক bucket-এ ভাগ করা হয় এবং তারপর ঐ buckets এর মধ্যে hash join প্রয়োগ করা হয়। এটি অনেক ক্ষেত্রে হালকা এবং দ্রুত হতে পারে কারণ এতে shuffle করার প্রয়োজন হয় না।

কিভাবে কাজ করে:

ডেটাকে নির্দিষ্ট bucket-এ ভাগ করা হয়।
তারপর একে অপরের সাথে মিলিয়ে দেওয়া হয়।

উদাহরণ:

# Bucketing the tables
df1.write.bucketBy(4, "id").saveAsTable("df1_bucketed")
df2.write.bucketBy(4, "id").saveAsTable("df2_bucketed")

# Perform Bucketed Hash Join
result = spark.sql("SELECT * FROM df1_bucketed JOIN df2_bucketed ON df1_bucketed.id = df2_bucketed.id")
result.show()

এখানে, bucketBy ব্যবহার করে DataFrames কে buckets এ ভাগ করা হয়েছে এবং তারপরে bucketed hash join প্রয়োগ করা হয়েছে।

সুবিধা:

ডেটা সহজে পার্টিশন হয়, তাই বড় ডেটাসেটে জয়েনের পারফরম্যান্স বাড়ানো যায়।
খুব বেশি শাফেলিংয়ের প্রয়োজন হয় না।

সীমাবদ্ধতা:

Bucketing পূর্বে করা হতে হবে, এবং এই প্রক্রিয়া ডেটা স্টোরেজে বেশি সময় নেয়।

5. Broadcast Hash Join

যখন একটি টেবিল খুব ছোট হয় এবং অন্য টেবিল বড় হয়, তখন Broadcast Hash Join অত্যন্ত কার্যকরী হতে পারে। এটি Broadcast Join এর মতোই কাজ করে, তবে এখানে দুটি টেবিলের মধ্যে hash join অপটিমাইজেশন ব্যবহার করা হয়।

কিভাবে কাজ করে:

ছোট টেবিলটি broadcast করা হয় এবং hash key দিয়ে join করা হয়।

উদাহরণ:

# Perform Broadcast Hash Join
result = df1.join(broadcast(df2), "id")
result.show()

এখানে, broadcast(df2) ব্যবহার করে ছোট টেবিলটি বড় টেবিলের সঙ্গে দ্রুত যোগ করা হয়েছে।

সুবিধা:

ছোট টেবিলের জন্য খুব কার্যকরী।
স্পার্কের স্বয়ংক্রিয় অপটিমাইজেশন কৌশলগুলির মধ্যে একটি।

সীমাবদ্ধতা:

শুধুমাত্র ছোট টেবিলগুলির জন্য কার্যকরী।

সারাংশ

Spark SQL এ Join Optimization অত্যন্ত গুরুত্বপূর্ণ, কারণ বড় ডেটাসেটের সঙ্গে কাজ করার সময় পারফরম্যান্স এবং কার্যকারিতা বজায় রাখা গুরুত্বপূর্ণ। Broadcast Join, Sort-Merge Join, Shuffle Hash Join, Bucketed Hash Join, এবং Broadcast Hash Join এর মতো বিভিন্ন টেকনিক ব্যবহার করে জয়েন অপারেশনগুলোকে দ্রুত ও কার্যকরী করা যায়। Spark SQL-এর অপটিমাইজেশন কৌশলগুলি বড় ডেটাসেটের উপর দ্রুত, স্কেলেবল এবং সাশ্রয়ী সমাধান প্রদান করতে সহায়তা করে।

Content added By

Rezwan Siddiki Tamim

Subqueries এবং তাদের Performance Impact

339

Subqueries হল SQL কোয়ারির মধ্যে আরেকটি কোয়ারি যা মূল কোয়ারি বা বাইরের কোয়ারি হিসেবে কাজ করে। Spark SQL-এ Subqueries ব্যবহার করা হয় যেকোনো লজিকাল বা জটিল প্রশ্নের সমাধান বের করার জন্য, যেখানে একটি কোয়ারি অন্য কোয়ারির ফলাফল ব্যবহার করে। তবে, Subqueries ব্যবহারের ফলে পারফরম্যান্সে প্রভাব পড়তে পারে, কারণ এটি অতিরিক্ত প্রসেসিং সময় এবং কম্পিউটেশনাল শক্তি নিয়ে আসতে পারে।

এই টিউটোরিয়ালে আমরা Subqueries কী এবং তাদের Performance Impact সম্পর্কে আলোচনা করব।

Subqueries কি?

Subqueries হল একটি কোয়ারি যা অন্য কোয়ারির ভিতরে লেখা থাকে। সাধারণত এটি এক্সপ্রেশন বা ফিল্টার শর্ত হিসেবে ব্যবহৃত হয়, যেখানে বাইরের কোয়ারি তার ভিতরের কোয়ারির ফলাফল ব্যবহার করে।

Subqueries সাধারণত দুটি ধরনের হয়:

Scalar Subquery: একটি একক মান ফেরত দেয়।
Correlated Subquery: বাইরের কোয়ারির প্রতিটি রেকর্ডের জন্য একটি সাপেক্ষ (correlated) কোয়ারি এক্সিকিউট করে।

উদাহরণ: Scalar Subquery

Scalar Subquery সাধারণত একক মান ফেরত দেয় যা বাইরের কোয়ারির শর্ত হিসেবে ব্যবহৃত হয়।

SELECT name, salary
FROM employees
WHERE salary > (SELECT AVG(salary) FROM employees);

এখানে, বাইরের কোয়ারি শুধুমাত্র তাদের নাম এবং বেতন নির্বাচন করে যাদের বেতন employees টেবিলের গড় বেতনের চেয়ে বেশি। এটি একটি Scalar Subquery যা গড় বেতন বের করে এবং বাইরের কোয়ারি সে অনুযায়ী ফলাফল দেখায়।

উদাহরণ: Correlated Subquery

Correlated Subquery একটি কোয়ারি যা বাইরের কোয়ারির রেকর্ডের উপর নির্ভর করে। এটি প্রতিটি বাইরের রেকর্ডের জন্য ভিতরের কোয়ারি চালায়।

SELECT e1.name, e1.salary
FROM employees e1
WHERE e1.salary > (SELECT AVG(e2.salary) 
                   FROM employees e2 
                   WHERE e1.department = e2.department);

এখানে, বাইরের কোয়ারি প্রতিটি employees টেবিলের রেকর্ডের জন্য তার বিভাগের গড় বেতন বের করে এবং তুলনা করে।

Subqueries এর পারফরম্যান্স প্রভাব

Subqueries এর ব্যবহারের ফলে performance-এ কিছু প্রভাব পড়তে পারে, বিশেষত যদি সেগুলি correlated হয় বা যদি অনেক পরিমাণে ডেটা প্রসেস করা হয়।

1. Nested Queries এর বৃদ্ধি

যখন আমরা Subqueries ব্যবহার করি, এটি অনেক সময় nested queries তৈরি করে, যা Spark SQL-এ কম্পিউটেশনাল প্রসেসিংকে ধীর করে দিতে পারে। Spark এর মধ্যে যেকোনো nested query কয়েকটি stage এ প্রসেস হয় এবং মাঝে মাঝে এসব query পরস্পরের ওপর নির্ভরশীল হয়ে ওঠে। একাধিক স্তরে প্রসেসিং হওয়ায় কার্যকরী ফলাফল পাওয়া কঠিন হতে পারে।

2. Correlated Subqueries এর প্রভাব

Correlated subqueries আরও বেশি সমস্যা তৈরি করতে পারে, কারণ এই ধরনের Subqueries জন্য Spark SQL প্রতিটি বাইরের রেকর্ডের জন্য একটি নতুন কোয়ারি এক্সিকিউট করে। এটি repeated scans তৈরি করে এবং অনেক বেশি কম্পিউটেশনাল শক্তি এবং সময় নষ্ট করে।

3. Join Optimization

Subqueries মাঝে মাঝে joins হিসেবে অটো কনভার্ট হতে পারে, তবে Spark SQL অনেক সময় joins অপটিমাইজেশনে ভাল কাজ করে, কারণ Spark এর Catalyst Optimizer joins এর পারফরম্যান্স উন্নত করতে সক্ষম। Subqueries ব্যবহার করার সময় তা মাঝে মাঝে join এর তুলনায় কম কার্যকর হতে পারে।

4. Caching এবং Shuffle

Subqueries অনেক সময় shuffle operations তৈরি করতে পারে, যা পরবর্তী কোয়ারির execution তে অতিরিক্ত লেটেন্সি এবং কম্পিউটেশনাল লোড তৈরি করে। বিশেষত, correlated subqueries এবং বড় ডেটাসেটের জন্য এর প্রভাব হতে পারে মারাত্মক।

Subqueries এর Performance Improvement টিপস

Avoid Correlated Subqueries: Correlated Subqueries যদি পারফরম্যান্সের জন্য সমস্যার সৃষ্টি করে, তাহলে তাদের এড়ানোর চেষ্টা করুন এবং joins বা অন্য filtering টেকনিক ব্যবহার করুন। Join গুলি Spark SQL-এর জন্য আরও অপটিমাইজড এবং দ্রুত হয়।
Subquery to Join: অনেক সময় Subquery গুলোকে join-এ রূপান্তর করা যায়। Spark SQL-এর Catalyst Optimizer joins-এর ওপর ভালো পারফরম্যান্স প্রদান করে।
উদাহরণ:
```
SELECT e1.name, e1.salary
FROM employees e1
INNER JOIN (SELECT department, AVG(salary) FROM employees GROUP BY department) e2
ON e1.department = e2.department
WHERE e1.salary > e2.avg_salary;
```
এখানে, একাধিক Subquery রূপান্তর করে Join এর মাধ্যমে একসাথে করা হয়েছে, যা পারফরম্যান্স বৃদ্ধি করতে সহায়ক।
Use Caching for Repeated Subqueries: যদি কোনো Subquery বারবার ব্যবহার হয়, তবে তাকে ক্যাশে করার চেষ্টা করুন যাতে পুনরায় স্ক্যান করার প্রয়োজন না হয়।
```
# DataFrame ক্যাশ করা
df_subquery.cache()
```
Partitioning: Spark SQL পার্টিশনিংয়ের মাধ্যমে ডেটাকে কার্যকরভাবে প্রসেস করতে পারে, বিশেষত বড় ডেটাসেটের জন্য। Subqueries যখন ডেটা শাফলিং বা বড় সাইজের ডেটা নিয়ে কাজ করে, তখন পার্টিশনিং প্রয়োগ করা যেতে পারে।
```
# Repartitioning DataFrame
df_repartitioned = df.repartition(4)
```
Avoid Nested Aggregations: Nested aggregate functions, যেমন একাধিক স্তরের AVG(), SUM() ব্যবহার করে subqueries তৈরি করলে, তা আরও সময়সাপেক্ষ হয়ে ওঠে। সহজ উপায়ে এইগুলিকে সমাধান করা উচিত।

সারাংশ

Spark SQL-এ Subqueries একটি শক্তিশালী টুল যা বিভিন্ন জটিল কুয়েরি সমাধানে সাহায্য করে। তবে, Subqueries-এর Performance Impact হতে পারে যদি সেগুলি খুব বেশি nested বা correlated হয়। Correlated Subqueries পারফরম্যান্সের জন্য মারাত্মক প্রভাব ফেলতে পারে, কারণ সেগুলির জন্য একাধিকবার কোয়ারি এক্সিকিউট করতে হয়। এই সমস্যাগুলি সমাধান করার জন্য, joins ব্যবহার করা যেতে পারে, ক্যাশিং করা যেতে পারে, এবং partitioning বা কোয়ারি অপটিমাইজেশন ব্যবহার করা যেতে পারে, যাতে পারফরম্যান্স বৃদ্ধি করা যায়।

Content added By

Rezwan Siddiki Tamim

Real-world উদাহরণে Complex Joins এবং Subqueries

319

স্পার্ক এসকিউএল (Spark SQL) বাস্তব জগতের বড় ডেটাসেটের উপর কার্যকরী ডেটা বিশ্লেষণ ও প্রসেসিং করার জন্য খুবই গুরুত্বপূর্ণ। Complex Joins এবং Subqueries এই বিশ্লেষণের জন্য খুবই কার্যকরী। এদের মাধ্যমে আমরা একাধিক টেবিল বা DataFrame থেকে সম্পর্কিত ডেটা একত্রিত করতে পারি এবং জটিল ডেটা সিলেকশন ও ফিল্টারিং অপারেশন চালাতে পারি। চলুন, কিছু বাস্তব উদাহরণ দেখে, যেখানে Complex Joins এবং Subqueries ব্যবহৃত হয়।

1. Complex Joins: Sales Data Analysis

ধরা যাক, আমাদের কাছে দুটি টেবিল রয়েছে:

Sales: যেখানে বিক্রয়ের তথ্য রয়েছে।
Customers: যেখানে গ্রাহকের তথ্য রয়েছে।

এখন, আমাদের কাজ হল, Sales টেবিল থেকে সব বিক্রয়ের তথ্য এবং সংশ্লিষ্ট গ্রাহকের নাম, শহর এবং বয়স দেখতে হবে। এ ক্ষেত্রে INNER JOIN ব্যবহার করে এই দুটি টেবিল একত্রিত করা যেতে পারে।

উদাহরণ:

# Sales টেবিলের ডেটা
sales_data = [("2023-01-01", 101, 500), ("2023-01-02", 102, 1000), ("2023-01-03", 101, 1500)]
sales_columns = ["date", "customer_id", "amount"]

# Customers টেবিলের ডেটা
customers_data = [(101, "John", "New York", 28), (102, "Alice", "Los Angeles", 35)]
customers_columns = ["customer_id", "name", "city", "age"]

# DataFrame তৈরি
sales_df = spark.createDataFrame(sales_data, sales_columns)
customers_df = spark.createDataFrame(customers_data, customers_columns)

# INNER JOIN করা
df_joined = sales_df.join(customers_df, "customer_id", "inner")
df_joined.show()

আউটপুট:

+-----------+----------+------+-------------+-----------+-----------+
|       date|customer_id|amount|         name|       city|        age|
+-----------+----------+------+-------------+-----------+-----------+
| 2023-01-01|       101|   500|         John|   New York|         28|
| 2023-01-02|       102|  1000|        Alice| Los Angeles|         35|
+-----------+----------+------+-------------+-----------+-----------+

এখানে, Sales এবং Customers টেবিলের মধ্যে INNER JOIN ব্যবহার করা হয়েছে, যাতে গ্রাহকের বিক্রয়ের পরিমাণ এবং গ্রাহকের তথ্য একত্রিত হয়।

2. LEFT JOIN Example: Order Data Analysis

ধরা যাক, আমাদের কাছে দুটি টেবিল:

Orders: যেখানে অর্ডারের তথ্য রয়েছে।
Products: যেখানে পণ্যের তথ্য রয়েছে।

এখানে, আমাদের কাজ হল LEFT JOIN ব্যবহার করে সব অর্ডার এবং প্রাসঙ্গিক পণ্যের নাম দেখানো। যদি কোনো অর্ডারে পণ্য না থাকে, তবে NULL দেখানো হবে।

উদাহরণ:

# Orders টেবিলের ডেটা
orders_data = [(1, "2023-01-01", 101), (2, "2023-01-02", 102), (3, "2023-01-03", None)]
orders_columns = ["order_id", "order_date", "product_id"]

# Products টেবিলের ডেটা
products_data = [(101, "Laptop"), (102, "Smartphone")]
products_columns = ["product_id", "product_name"]

# DataFrame তৈরি
orders_df = spark.createDataFrame(orders_data, orders_columns)
products_df = spark.createDataFrame(products_data, products_columns)

# LEFT JOIN করা
df_left_join = orders_df.join(products_df, "product_id", "left")
df_left_join.show()

আউটপুট:

+---------+----------+---------+------------+
| order_id|order_date|product_id|product_name|
+---------+----------+---------+------------+
|        1|2023-01-01|      101|      Laptop|
|        2|2023-01-02|      102|   Smartphone|
|        3|2023-01-03|     null|        null|
+---------+----------+---------+------------+

এখানে, LEFT JOIN ব্যবহার করে Orders এবং Products টেবিলের মধ্যে সম্পর্ক স্থাপন করা হয়েছে, যাতে সব অর্ডার এবং প্রাসঙ্গিক পণ্য বা NULL শো হয়।

3. Subquery Example: Highest Order Amount

ধরা যাক, আমাদের একটি টেবিল Orders রয়েছে এবং আমরা জানতে চাই, যে গ্রাহক সবচেয়ে বেশি অর্ডার পরিমাণ করেছে, তার তথ্য। এটি একটি Subquery ব্যবহার করে পাওয়া যাবে। Subquery ব্যবহার করে, আমরা সর্বোচ্চ অর্ডার পরিমাণ বের করতে পারি এবং তার ভিত্তিতে গ্রাহকের নাম এবং অর্ডারের তারিখ দেখতে পারি।

উদাহরণ:

# Orders টেবিলের ডেটা
orders_data = [(1, "John", 500), (2, "Alice", 1000), (3, "Bob", 2000)]
orders_columns = ["order_id", "customer_name", "order_amount"]

# DataFrame তৈরি
orders_df = spark.createDataFrame(orders_data, orders_columns)

# Subquery ব্যবহার করে সর্বোচ্চ অর্ডার পরিমাণ বের করা
df_subquery = spark.sql("""
    SELECT customer_name, order_amount
    FROM orders
    WHERE order_amount = (SELECT MAX(order_amount) FROM orders)
""")
df_subquery.show()

আউটপুট:

+-------------+-----------+
|customer_name|order_amount|
+-------------+-----------+
|         Bob |       2000|
+-------------+-----------+

এখানে, Subquery ব্যবহার করা হয়েছে যাতে Orders টেবিল থেকে সর্বোচ্চ অর্ডার পরিমাণ (MAX(order_amount)) বের করা হয় এবং তারপর ঐ গ্রাহকের নাম এবং অর্ডারের পরিমাণ দেখানো হয়।

4. Subquery in WHERE Clause: Products Purchased Above Average Price

ধরা যাক, আমাদের একটি Products টেবিল রয়েছে এবং আমরা জানতে চাই, কোন পণ্যগুলো গড় দাম থেকে বেশি দামে বিক্রি হয়েছে। এর জন্য Subquery in WHERE Clause ব্যবহার করা হবে।

উদাহরণ:

# Products টেবিলের ডেটা
products_data = [(101, "Laptop", 1000), (102, "Smartphone", 700), (103, "Tablet", 800)]
products_columns = ["product_id", "product_name", "price"]

# DataFrame তৈরি
products_df = spark.createDataFrame(products_data, products_columns)

# Subquery in WHERE Clause ব্যবহার
df_subquery_where = spark.sql("""
    SELECT product_name, price
    FROM products
    WHERE price > (SELECT AVG(price) FROM products)
""")
df_subquery_where.show()

আউটপুট:

+-----------+-----+
|product_name|price|
+-----------+-----+
|     Laptop| 1000|
+-----------+-----+

এখানে, Subquery in WHERE Clause ব্যবহার করে গড় মূল্য (AVG(price)) বের করা হয়েছে এবং তার চেয়ে বেশি দামে বিক্রি হওয়া পণ্য দেখানো হয়েছে।

সারাংশ

Complex Joins এবং Subqueries ব্যবহার করে Spark SQL-এ জটিল ডেটা বিশ্লেষণ করা যায়। Joins বিভিন্ন টেবিলের মধ্যে সম্পর্ক স্থাপন করতে সাহায্য করে, যেখানে Subqueries ব্যবহার করে আরও সুনির্দিষ্ট এবং জটিল কুয়েরি তৈরি করা সম্ভব। বাস্তব জীবনে, Joins এবং Subqueries ব্যবহার করে যেমন বিক্রয় ডেটা, অর্ডার বিশ্লেষণ, পণ্য বিশ্লেষণ এবং গ্রাহক সম্পর্কিত তথ্য সংগ্রহ করা যায়, তেমনি এটি ডেটার ওপর আরও গভীর বিশ্লেষণ করতে সহায়তা করে।

Content added By

Rezwan Siddiki Tamim

Spark SQL এর পরিচিতি Spark SQL Installation এবং Setup DataFrames এবং Datasets Spark SQL Queries Data Sources এবং Data Loading