JDBC এর মাধ্যমে Database থেকে Data Fetch করা

Data Sources এবং Data Loading - স্পার্ক এসকিউএল (Spark SQL) - Big Data and Analytics

320

Spark SQL-এ DataFrame হলো একটি গুরুত্বপূর্ণ ডেটা স্ট্রাকচার যা SQL কোয়ারি এবং কোডিং API ব্যবহার করে ডেটার উপর বিভিন্ন অপারেশন পরিচালনা করতে সহায়ক। DataFrame এর মধ্যে ফিল্টারিং (Filtering), সিলেকশন (Selection) এবং অর্ডারিং (Ordering) অপারেশনগুলো খুবই গুরুত্বপূর্ণ, কারণ এগুলোর মাধ্যমে ডেটাকে বিশ্লেষণ এবং সাজানো যায়।


DataFrame-এ ফিল্টারিং (Filtering)

ফিল্টারিং অপারেশনটি DataFrame থেকে নির্দিষ্ট শর্তের ভিত্তিতে ডেটা নির্বাচন করার জন্য ব্যবহৃত হয়। Spark SQL-এ ফিল্টারিং করার জন্য filter() বা where() মেথড ব্যবহার করা হয়।

filter() উদাহরণ:

# filter() মেথড ব্যবহার করে DataFrame-এ ফিল্টার করা
df.filter(df['age'] > 30).show()

এখানে, df['age'] > 30 শর্তে ডেটা ফিল্টার করা হয়েছে, যার ফলে শুধুমাত্র সেই রেকর্ডগুলো প্রদর্শিত হবে যেখানে age ৩০ এর বেশি।

where() উদাহরণ:

# where() মেথড ব্যবহার করে DataFrame-এ ফিল্টার করা
df.where(df['age'] > 30).show()

filter() এবং where() দুটি একে অপরের সমতুল্য এবং একই কাজ করে। আপনি যেকোনো একটি ব্যবহার করতে পারেন।


DataFrame-এ সিলেকশন (Selection)

সিলেকশন হলো DataFrame থেকে নির্দিষ্ট কলামগুলো নির্বাচন করার একটি প্রক্রিয়া। Spark SQL-এ select() মেথড ব্যবহার করে এক বা একাধিক কলাম নির্বাচন করা যায়।

select() উদাহরণ:

# select() মেথড ব্যবহার করে DataFrame-এ কলাম সিলেকশন
df.select('name', 'age').show()

এখানে, name এবং age কলাম দুটি নির্বাচন করা হয়েছে এবং show() মেথড ব্যবহার করে ফলাফল প্রদর্শন করা হয়েছে।

একাধিক কলাম সিলেকশন:

# select() মেথডে একাধিক কলাম নির্বাচন
df.select('name', 'age', 'salary').show()

এটি name, age, এবং salary কলামগুলো নির্বাচন করবে।

নতুন কলাম তৈরি করা:

# নতুন কলাম তৈরি করে সিলেকশন করা
df.select(df['name'], (df['age'] * 2).alias('double_age')).show()

এখানে, age কলামের মানের দ্বিগুণ করে একটি নতুন কলাম double_age তৈরি করা হয়েছে।


DataFrame-এ অর্ডারিং (Ordering)

অর্ডারিং অপারেশনটি DataFrame-এর ডেটাকে একটি নির্দিষ্ট কলামের মানের উপর ভিত্তি করে সাজানোর জন্য ব্যবহৃত হয়। Spark SQL-এ ডেটা অর্ডার করতে orderBy() মেথড ব্যবহার করা হয়।

orderBy() উদাহরণ:

# orderBy() মেথড ব্যবহার করে DataFrame-এ অর্ডারিং
df.orderBy('age').show()

এখানে, age কলামের মানের উপর ভিত্তি করে ডেটা চড়া থেকে নামিয়ে সাজানো হয়েছে।

DESCENDING অর্ডার:

# DESCENDING অর্ডারে অর্ডারিং করা
df.orderBy(df['age'], ascending=False).show()

এটি age কলামের মানের উপর ভিত্তি করে ডেটাকে নামিয়ে সাজাবে (ডিসেন্ডিং অর্ডারে)।

একাধিক কলাম দিয়ে অর্ডারিং:

# একাধিক কলাম দিয়ে অর্ডারিং করা
df.orderBy('age', 'salary').show()

এটি প্রথমে age কলাম দিয়ে অর্ডার করবে এবং তারপর salary কলাম দিয়ে অর্ডার করবে (যদি age এর মান একীভূত হয়)।


ফিল্টারিং, সিলেকশন এবং অর্ডারিং-এর সংক্ষিপ্ত ব্যাখ্যা:

  • ফিল্টারিং (Filtering): filter() বা where() মেথড ব্যবহার করে DataFrame থেকে শর্ত পূর্ণ করা রেকর্ডগুলো নির্বাচন করা হয়।
  • সিলেকশন (Selection): select() মেথড দিয়ে নির্দিষ্ট কলাম নির্বাচন করা যায় বা নতুন কলাম তৈরি করা যায়।
  • অর্ডারিং (Ordering): orderBy() মেথড ব্যবহার করে DataFrame ডেটাকে এক বা একাধিক কলাম অনুযায়ী সাজানো হয়, যেখানে ascending বা descending অপশন ব্যবহার করে অর্ডার নির্ধারণ করা যায়।

সারাংশ

Spark SQL-এ DataFrame ব্যবহার করে ফিল্টারিং, সিলেকশন, এবং অর্ডারিং অপারেশন খুবই গুরুত্বপূর্ণ। ফিল্টারিংয়ের মাধ্যমে ডেটাকে শর্ত দিয়ে ফিল্টার করা যায়, সিলেকশনের মাধ্যমে নির্দিষ্ট কলাম নির্বাচন করা যায়, এবং অর্ডারিংয়ের মাধ্যমে ডেটাকে নির্দিষ্ট কলাম অনুযায়ী সাজানো যায়। এগুলো Spark SQL-এর মাধ্যমে ডেটার উপর আরও কার্যকরী বিশ্লেষণ করতে সহায়ক হয়।

Content added By
Promotion

Are you sure to start over?

Loading...