DataFrame এবং Dataset এর ধারণা

DataFrames এবং Datasets - অ্যাপাচি স্পার্ক (Apache Spark) - Big Data and Analytics

507

অ্যাপাচি স্পার্ক (Apache Spark) একটি শক্তিশালী এবং স্কেলেবল ডিস্ট্রিবিউটেড কম্পিউটিং ফ্রেমওয়ার্ক যা ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। স্পার্ক batch processing, real-time streaming, machine learning, এবং graph processing সাপোর্ট করে। স্পার্কে ডেটা প্রক্রিয়া করতে, DataFrame এবং Dataset দুটি প্রধান ডেটা স্ট্রাকচার ব্যবহৃত হয়। এগুলি স্পার্কের মধ্যে ডেটা সংরক্ষণ, প্রসেস এবং বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

এই টিউটোরিয়ালে, আমরা DataFrame এবং Dataset এর ধারণা এবং তাদের পার্থক্য আলোচনা করব।

DataFrame in Spark

DataFrame হল স্পার্কের একটি উচ্চ স্তরের ডেটা স্ট্রাকচার যা ডিস্ট্রিবিউটেড ডেটাকে একটি টেবিলের মতো কাঠামোয় উপস্থাপন করে। এটি একটি immutable distributed collection (যেমন RDD) যা rows এবং columns এর মাধ্যমে ডেটা সংরক্ষণ করে। স্পার্কের DataFrame API SQL অনুরূপ অপারেশনসমূহ যেমন select, filter, groupBy, join, এবং agg সমর্থন করে।

Key Features of DataFrame:

Structured Data: DataFrame হল টেবিলের মতো, যেখানে rows এবং columns থাকে।
Schema: DataFrame-এ একটি স্পষ্ট স্কিমা থাকে, যার মাধ্যমে প্রতিটি কলামের ডেটার ধরন সংজ্ঞায়িত থাকে (যেমন string, integer, date ইত্যাদি)।
Optimized Execution: DataFrame গুলি স্পার্কের Catalyst optimizer এর মাধ্যমে অপটিমাইজ হয়, যা SQL স্টাইল কুয়েরি এক্সিকিউশনকে দ্রুত এবং কার্যকরী করে তোলে।
Interoperability: DataFrame-এর মাধ্যমে আপনি স্পার্ক SQL এবং প্রোগ্রাম্যাটিক কোডের মাধ্যমে একে অপরের সাথে কাজ করতে পারবেন।

Creating DataFrame in Spark:

স্পার্কের DataFrame তৈরি করতে, আপনি SparkSession ব্যবহার করেন। নিচে একটি DataFrame তৈরি করার উদাহরণ দেওয়া হলো:

from pyspark.sql import SparkSession

# Create Spark session
spark = SparkSession.builder.appName("DataFrame Example").getOrCreate()

# Creating a DataFrame from a list of tuples
data = [("Alice", 25), ("Bob", 30), ("Catherine", 28)]
df = spark.createDataFrame(data, ["Name", "Age"])

# Show the DataFrame
df.show()

এখানে:

createDataFrame: এটি একটি পদ্ধতি যা Python list অথবা RDD থেকে DataFrame তৈরি করে।
df.show(): এটি DataFrame এর প্রথম 20 টি রেকর্ড প্রদর্শন করে।

DataFrame Operations:

DataFrame-এর সাথে আপনি বিভিন্ন অপারেশন চালাতে পারেন যেমন:

# Select specific columns
df.select("Name").show()

# Filter rows
df.filter(df.Age > 25).show()

# Group by and aggregate
df.groupBy("Age").count().show()

Dataset in Spark

Dataset হল DataFrame-এর একটি শক্তিশালী রূপ যা ডেটার টাইপ সেফটি এবং পারফরম্যান্সের জন্য উন্নত। স্পার্কের Dataset API Java এবং Scala-তে উপলব্ধ, যেখানে ডেটা টাইপগুলি সুনির্দিষ্ট থাকে। স্পার্কের Dataset সাধারণত DataFrame-এর সাথে তুলনা করা হয়, তবে এটি আরও শক্তিশালী কারণ এতে টাইপ সেফটি এবং কম্পাইল টাইম ত্রুটির প্রতিবন্ধকতা থাকে।

Key Features of Dataset:

Strongly Typed: Dataset টাইপ সেফটি প্রদান করে, অর্থাৎ আপনি নির্দিষ্ট ডেটা টাইপের সাথে কাজ করবেন (যেমন, String, Int ইত্যাদি)। এটি ত্রুটি কমায় এবং উন্নত পারফরম্যান্স প্রদান করে।
Interoperability: Dataset API এবং DataFrame API এর মধ্যে সহজ ইন্টারঅপারেবিলিটি থাকে, যেহেতু DataFrame-ও Dataset হিসাবে বিবেচিত হয়।
Typed Operations: Dataset এ কলাম এবং ডেটার ধরন স্পষ্টভাবে সংজ্ঞায়িত থাকে, যা টাইপ সেফ অপারেশন করে।

Creating Dataset in Spark:

Java এবং Scala-তে Dataset তৈরি করা সাধারণত আরও টাইপ সেফ হয়। নিচে Scala ভাষায় Dataset তৈরি করার উদাহরণ দেওয়া হলো:

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.appName("Dataset Example").getOrCreate()

// Case class definition (schema)
case class Person(name: String, age: Int)

// Creating a Dataset from a list of objects
val data = Seq(Person("Alice", 25), Person("Bob", 30), Person("Catherine", 28))
val ds = spark.createDataset(data)

// Show the Dataset
ds.show()

এখানে:

case class: স্পার্কের case class ডেটা টাইপ সেফটি এবং স্কিমা সংজ্ঞায়িত করতে ব্যবহৃত হয়।
createDataset: এটি Dataset তৈরি করার জন্য ব্যবহৃত হয়।

Dataset Operations:

Dataset-এ অপারেশন চালানোর জন্য আপনি map, filter, groupBy, ইত্যাদি ফাংশন ব্যবহার করতে পারেন:

// Filtering Dataset
val filteredDS = ds.filter(_.age > 25)

// Showing the result
filteredDS.show()

Differences Between DataFrame and Dataset

Feature	DataFrame	Dataset
Type Safety	No type safety (dynamic typing)	Type safe (compile-time checking)
Language Support	Available in Scala, Python, R, Java	Available in Scala and Java
Execution Engine	Uses Spark's Catalyst Optimizer for optimization	Uses Catalyst Optimizer + type-safe execution
API	High-level, with no explicit schema types	High-level, with explicit schema types
Performance	Generally faster for untyped operations	Faster when you need compile-time checking
Flexibility	Less flexible compared to Dataset for strongly typed objects	More flexible with strongly typed objects and functional transformations

Conclusion

DataFrame এবং Dataset সলরে দুটি গুরুত্বপূর্ণ ডেটা স্ট্রাকচার যা ডেটা প্রসেসিং, ট্রান্সফর্মেশন, এবং বিশ্লেষণের জন্য ব্যবহৃত হয়। DataFrame হল একটি টেবিলের মতো ডেটা স্ট্রাকচার যা উচ্চ পারফরম্যান্স এবং SQL অনুরূপ অপারেশন প্রদান করে, যেখানে Dataset টাইপ সেফটি প্রদান করে এবং টাইপ সেফ অপারেশন সমর্থন করে। Dataset Java এবং Scala-তে বেশি ব্যবহৃত হলেও, DataFrame Python এবং R-এ খুব জনপ্রিয়।

আপনি যদি টাইপ সেফটি এবং কম্পাইল টাইম ত্রুটির সম্ভাবনা কমাতে চান, তবে Dataset বেছে নিতে পারেন, এবং যদি আপনি একটি সাধারণ এবং দ্রুত ডেটা প্রসেসিং চান, তবে DataFrame একটি ভালো অপশন হতে পারে।

Content added By

Rezwan Siddiki Tamim

RDD, DataFrame এবং Dataset এর মধ্যে পার্থক্য DataFrame API এবং SQL Queries Dataset API এর ব্যবহার

DataFrame এবং Dataset এর ধারণা

DataFrame in Spark

Key Features of DataFrame:

Creating DataFrame in Spark:

DataFrame Operations:

Dataset in Spark

Key Features of Dataset:

Creating Dataset in Spark:

Dataset Operations:

Differences Between DataFrame and Dataset

Conclusion

Promotion

Satt AI

Hi, আমি SATT AI!

DataFrame এবং Dataset এর ধারণা

DataFrame in Spark

Key Features of DataFrame:

Creating DataFrame in Spark:

DataFrame Operations:

Dataset in Spark

Key Features of Dataset:

Creating Dataset in Spark:

Dataset Operations:

Differences Between DataFrame and Dataset

Conclusion

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!