Big Data and Analytics DataFrame এবং Dataset এর ধারণা গাইড ও নোট

463

অ্যাপাচি স্পার্ক (Apache Spark) একটি শক্তিশালী এবং স্কেলেবল ডিস্ট্রিবিউটেড কম্পিউটিং ফ্রেমওয়ার্ক যা ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। স্পার্ক batch processing, real-time streaming, machine learning, এবং graph processing সাপোর্ট করে। স্পার্কে ডেটা প্রক্রিয়া করতে, DataFrame এবং Dataset দুটি প্রধান ডেটা স্ট্রাকচার ব্যবহৃত হয়। এগুলি স্পার্কের মধ্যে ডেটা সংরক্ষণ, প্রসেস এবং বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

এই টিউটোরিয়ালে, আমরা DataFrame এবং Dataset এর ধারণা এবং তাদের পার্থক্য আলোচনা করব।


DataFrame in Spark

DataFrame হল স্পার্কের একটি উচ্চ স্তরের ডেটা স্ট্রাকচার যা ডিস্ট্রিবিউটেড ডেটাকে একটি টেবিলের মতো কাঠামোয় উপস্থাপন করে। এটি একটি immutable distributed collection (যেমন RDD) যা rows এবং columns এর মাধ্যমে ডেটা সংরক্ষণ করে। স্পার্কের DataFrame API SQL অনুরূপ অপারেশনসমূহ যেমন select, filter, groupBy, join, এবং agg সমর্থন করে।

Key Features of DataFrame:

  1. Structured Data: DataFrame হল টেবিলের মতো, যেখানে rows এবং columns থাকে।
  2. Schema: DataFrame-এ একটি স্পষ্ট স্কিমা থাকে, যার মাধ্যমে প্রতিটি কলামের ডেটার ধরন সংজ্ঞায়িত থাকে (যেমন string, integer, date ইত্যাদি)।
  3. Optimized Execution: DataFrame গুলি স্পার্কের Catalyst optimizer এর মাধ্যমে অপটিমাইজ হয়, যা SQL স্টাইল কুয়েরি এক্সিকিউশনকে দ্রুত এবং কার্যকরী করে তোলে।
  4. Interoperability: DataFrame-এর মাধ্যমে আপনি স্পার্ক SQL এবং প্রোগ্রাম্যাটিক কোডের মাধ্যমে একে অপরের সাথে কাজ করতে পারবেন।

Creating DataFrame in Spark:

স্পার্কের DataFrame তৈরি করতে, আপনি SparkSession ব্যবহার করেন। নিচে একটি DataFrame তৈরি করার উদাহরণ দেওয়া হলো:

from pyspark.sql import SparkSession

# Create Spark session
spark = SparkSession.builder.appName("DataFrame Example").getOrCreate()

# Creating a DataFrame from a list of tuples
data = [("Alice", 25), ("Bob", 30), ("Catherine", 28)]
df = spark.createDataFrame(data, ["Name", "Age"])

# Show the DataFrame
df.show()

এখানে:

  • createDataFrame: এটি একটি পদ্ধতি যা Python list অথবা RDD থেকে DataFrame তৈরি করে।
  • df.show(): এটি DataFrame এর প্রথম 20 টি রেকর্ড প্রদর্শন করে।

DataFrame Operations:

DataFrame-এর সাথে আপনি বিভিন্ন অপারেশন চালাতে পারেন যেমন:

# Select specific columns
df.select("Name").show()

# Filter rows
df.filter(df.Age > 25).show()

# Group by and aggregate
df.groupBy("Age").count().show()

Dataset in Spark

Dataset হল DataFrame-এর একটি শক্তিশালী রূপ যা ডেটার টাইপ সেফটি এবং পারফরম্যান্সের জন্য উন্নত। স্পার্কের Dataset API Java এবং Scala-তে উপলব্ধ, যেখানে ডেটা টাইপগুলি সুনির্দিষ্ট থাকে। স্পার্কের Dataset সাধারণত DataFrame-এর সাথে তুলনা করা হয়, তবে এটি আরও শক্তিশালী কারণ এতে টাইপ সেফটি এবং কম্পাইল টাইম ত্রুটির প্রতিবন্ধকতা থাকে।

Key Features of Dataset:

  1. Strongly Typed: Dataset টাইপ সেফটি প্রদান করে, অর্থাৎ আপনি নির্দিষ্ট ডেটা টাইপের সাথে কাজ করবেন (যেমন, String, Int ইত্যাদি)। এটি ত্রুটি কমায় এবং উন্নত পারফরম্যান্স প্রদান করে।
  2. Interoperability: Dataset API এবং DataFrame API এর মধ্যে সহজ ইন্টারঅপারেবিলিটি থাকে, যেহেতু DataFrame-ও Dataset হিসাবে বিবেচিত হয়।
  3. Typed Operations: Dataset এ কলাম এবং ডেটার ধরন স্পষ্টভাবে সংজ্ঞায়িত থাকে, যা টাইপ সেফ অপারেশন করে।

Creating Dataset in Spark:

Java এবং Scala-তে Dataset তৈরি করা সাধারণত আরও টাইপ সেফ হয়। নিচে Scala ভাষায় Dataset তৈরি করার উদাহরণ দেওয়া হলো:

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.appName("Dataset Example").getOrCreate()

// Case class definition (schema)
case class Person(name: String, age: Int)

// Creating a Dataset from a list of objects
val data = Seq(Person("Alice", 25), Person("Bob", 30), Person("Catherine", 28))
val ds = spark.createDataset(data)

// Show the Dataset
ds.show()

এখানে:

  • case class: স্পার্কের case class ডেটা টাইপ সেফটি এবং স্কিমা সংজ্ঞায়িত করতে ব্যবহৃত হয়।
  • createDataset: এটি Dataset তৈরি করার জন্য ব্যবহৃত হয়।

Dataset Operations:

Dataset-এ অপারেশন চালানোর জন্য আপনি map, filter, groupBy, ইত্যাদি ফাংশন ব্যবহার করতে পারেন:

// Filtering Dataset
val filteredDS = ds.filter(_.age > 25)

// Showing the result
filteredDS.show()

Differences Between DataFrame and Dataset

FeatureDataFrameDataset
Type SafetyNo type safety (dynamic typing)Type safe (compile-time checking)
Language SupportAvailable in Scala, Python, R, JavaAvailable in Scala and Java
Execution EngineUses Spark's Catalyst Optimizer for optimizationUses Catalyst Optimizer + type-safe execution
APIHigh-level, with no explicit schema typesHigh-level, with explicit schema types
PerformanceGenerally faster for untyped operationsFaster when you need compile-time checking
FlexibilityLess flexible compared to Dataset for strongly typed objectsMore flexible with strongly typed objects and functional transformations

Conclusion

DataFrame এবং Dataset সলরে দুটি গুরুত্বপূর্ণ ডেটা স্ট্রাকচার যা ডেটা প্রসেসিং, ট্রান্সফর্মেশন, এবং বিশ্লেষণের জন্য ব্যবহৃত হয়। DataFrame হল একটি টেবিলের মতো ডেটা স্ট্রাকচার যা উচ্চ পারফরম্যান্স এবং SQL অনুরূপ অপারেশন প্রদান করে, যেখানে Dataset টাইপ সেফটি প্রদান করে এবং টাইপ সেফ অপারেশন সমর্থন করে। Dataset Java এবং Scala-তে বেশি ব্যবহৃত হলেও, DataFrame Python এবং R-এ খুব জনপ্রিয়।

আপনি যদি টাইপ সেফটি এবং কম্পাইল টাইম ত্রুটির সম্ভাবনা কমাতে চান, তবে Dataset বেছে নিতে পারেন, এবং যদি আপনি একটি সাধারণ এবং দ্রুত ডেটা প্রসেসিং চান, তবে DataFrame একটি ভালো অপশন হতে পারে।

Content added By
Promotion

Are you sure to start over?

Loading...