Structured Streaming এবং Real-time Data Processing

অ্যাপাচি স্পার্ক (Apache Spark) - Big Data and Analytics

481

Apache Spark একটি অত্যন্ত শক্তিশালী এবং স্কেলেবল ডেটা প্রসেসিং ফ্রেমওয়ার্ক যা batch processing এবং stream processing উভয়ই সমর্থন করে। তবে, গত কিছু বছর ধরে রিয়েল-টাইম ডেটা প্রসেসিং-এর গুরুত্ব বেড়েছে, এবং এ জন্য Structured Streaming নামক একটি ফিচার তৈরি করা হয়েছে। Structured Streaming স্পার্কের জন্য একটি উচ্চ-স্তরের স্ট্রিমিং API, যা সহজে রিয়েল-টাইম ডেটা প্রসেসিং করতে সক্ষম।

এই টিউটোরিয়ালে, আমরা Structured Streaming এবং Real-time Data Processing নিয়ে আলোচনা করব এবং স্পার্কে কিভাবে রিয়েল-টাইম ডেটা প্রসেস করা যায় তা দেখাব।

Structured Streaming কী?

Structured Streaming হল Apache Spark এর একটি স্ট্রিমিং API, যা স্ট্রিমিং ডেটাকে structured data হিসেবে প্রক্রিয়া করে। এটি DataFrame বা Dataset API এর উপর ভিত্তি করে তৈরি, এবং স্পার্কের batch processing কৌশলকে real-time stream processing এ রূপান্তরিত করে। Structured Streaming একটি খুব সহজ, পারফরম্যান্ট, এবং ফাল্ট-টলারেন্ট সিস্টেম প্রদান করে, যেখানে micro-batching মডেল ব্যবহার করা হয়।

Structured Streaming এর মূল বৈশিষ্ট্য:

Batch Processing to Streaming: এটি batch processing কে স্ট্রিমিং ডেটা প্রসেসিংয়ে রূপান্তরিত করে।
Fault Tolerance: স্পার্কের checkpointing এবং write-ahead logs এর মাধ্যমে, এটি ডেটা হারানো থেকে রক্ষা পায়।
Unified API: Structured Streaming, DataFrame এবং Dataset API এর উপর কাজ করে, যেগুলি সহজে SQL কুয়েরি এবং ডেটা ট্রান্সফরমেশন পরিচালনা করতে সক্ষম।
Event-time processing: Structured Streaming এ event-time প্রসেসিং সাপোর্ট রয়েছে, যা ডেটার আসার সময় অনুযায়ী প্রসেসিং করতে সক্ষম।

Structured Streaming কিভাবে কাজ করে?

Structured Streaming batch processing মডেলকে ব্যবহার করে ডেটা স্ট্রিমিং কাজ সম্পন্ন করে। এটি ডেটাকে ছোট ছোট micro-batches তে বিভক্ত করে এবং প্রতিটি ব্যাচের উপর ট্রান্সফরমেশন ও অ্যাকশন প্রয়োগ করে।

Spark Structured Streaming Workflow:

Data Ingestion: Structured Streaming বিভিন্ন সোর্স (যেমন Kafka, HDFS, Kinesis, Socket, etc.) থেকে ডেটা গ্রহণ করে।
Transformations: ডেটার উপর বিভিন্ন ট্রান্সফরমেশন প্রয়োগ করা হয় (যেমন map(), filter(), groupBy())।
Output Sink: ফলস্বরূপ ডেটা বিভিন্ন আউটপুট স্টোরেজ (যেমন HDFS, Kafka, Database) এ লেখা হয়।

Structured Streaming Example:

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

val spark = SparkSession.builder.appName("Structured Streaming Example").getOrCreate()

// Read streaming data from a socket
val inputStream = spark.readStream.format("socket").option("host", "localhost").option("port", "9999").load()

// Perform transformation on the stream
val words = inputStream.select(explode(split(inputStream("value"), " ")).alias("word"))

// Count the occurrences of each word
val wordCounts = words.groupBy("word").count()

// Write the result to the console
val query = wordCounts.writeStream.outputMode("complete").format("console").start()

query.awaitTermination()

এখানে:

spark.readStream: এটি একটি streaming data সোর্স থেকে ডেটা পড়তে ব্যবহৃত হয় (এখানে socket ব্যবহার করা হয়েছে)।
select(), explode(), split(): বিভিন্ন ট্রান্সফরমেশন প্রয়োগ করা হচ্ছে।
writeStream: রিয়েল-টাইম আউটপুট কনসোল বা অন্য কোনো ডেটাবেসে লেখা হচ্ছে।

Key Concepts in Structured Streaming:

Input Data Sources: Kafka, Flume, HDFS, S3, Kinesis, FileStream, etc.
Output Sinks: Console, File, Kafka, HDFS, Delta Lake, JDBC, etc.
Micro-batch: Structured Streaming ডেটাকে ছোট ছোট ব্যাচে ভাগ করে এবং প্রতি ব্যাচের উপর ট্রান্সফরমেশন চালানো হয়।
Event Time Processing: Structured Streaming event-time প্রসেসিং সমর্থন করে, যা ডেটার আসার সময় অনুযায়ী প্রক্রিয়া করে।

Why is Structured Streaming Important for Real-time Data Processing?

Structured Streaming স্পার্কের রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ কারণ এটি একটি একক API প্রদান করে যা ব্যাচ এবং স্ট্রিমিং ডেটা উভয়ই প্রসেস করতে সক্ষম। এর মাধ্যমে আপনি scalable, fault-tolerant, এবং distributed real-time data processing সিস্টেম তৈরি করতে পারেন।

1. Real-time Data Processing:

রিয়েল-টাইম ডেটা যেমন সোশ্যাল মিডিয়া স্ট্রিম, IoT ডিভাইস ডেটা, কিংবা ফিনান্সিয়াল মার্কেট ডেটা স্পার্কে প্রক্রিয়া করতে সক্ষম। Structured Streaming এগুলিকে দ্রুত এবং সঠিকভাবে প্রক্রিয়া করতে সাহায্য করে।

2. Fault Tolerance:

Structured Streaming এ checkpointing ব্যবহার করা হয়, যা ডেটার হারানোর ঝুঁকি কমায় এবং ব্যর্থতার পর ডেটাকে পুনরুদ্ধার করতে সাহায্য করে।

3. Scalability:

Spark Streaming পুরোপুরি স্কেলেবল, অর্থাৎ আপনি যখন ডেটা আকার বৃদ্ধি করবেন, তখন স্পার্ক স্বয়ংক্রিয়ভাবে উপযুক্ত রিসোর্স ব্যবহার করবে।

4. Unified Processing Model:

ব্যাচ এবং স্ট্রিমিং ডেটার জন্য একটি ইউনিফাইড মডেল প্রদান করা হয়। এটি ডেটা প্রসেসিং সহজ এবং সমন্বিত করে।

5. Event Time Handling:

Event time এবং processing time এর মধ্যে পার্থক্য নিশ্চিত করার জন্য Structured Streaming এ event-time processing সুবিধা রয়েছে, যা বিশেষভাবে out-of-order data এবং late arrivals সঠিকভাবে হ্যান্ডেল করতে সহায়তা করে।

Use Cases for Structured Streaming

Real-time Analytics:
- ই-কমার্স সাইটে কাস্টমারের ক্রয় ট্র্যাকিং, ওয়েবসাইট ট্রাফিক বিশ্লেষণ ইত্যাদি।
- রিয়েল-টাইম মেট্রিকস ড্যাশবোর্ড তৈরি।
Fraud Detection:
- ব্যাংকিং, ই-কমার্স বা ক্রেডিট কার্ড সিস্টেমে রিয়েল-টাইম ফ্রড ডিটেকশন।
- সিকিউরিটি মনিটরিং।
IoT Data Processing:
- স্মার্ট ডিভাইস থেকে রিয়েল-টাইম ডেটা সংগ্রহ এবং বিশ্লেষণ।
- সেন্সর ডেটা ম্যানেজমেন্ট।
Social Media Monitoring:
- টুইটার, ফেসবুক বা অন্যান্য সোশ্যাল মিডিয়া থেকে রিয়েল-টাইম ডেটা সংগ্রহ ও বিশ্লেষণ।
- হ্যাশট্যাগ মনিটরিং, মন্তব্য বিশ্লেষণ।
Log Processing:
- রিয়েল-টাইম লগ মনিটরিং এবং বিশ্লেষণ।
- সিস্টেম অস্বাভাবিকতা বা নিরাপত্তা দুর্বলতা শনাক্তকরণ।

Structured Streaming Performance Tuning

Batch Interval:
- Batch interval সঠিকভাবে নির্বাচন করলে পারফরম্যান্স বৃদ্ধি পায়। একে অত্যন্ত ছোট বা বড় না রেখে একটি মডারেট সাইজে নির্বাচন করা উচিত।
Tuning Kafka Consumer Parameters:
- Kafka থেকে ডেটা স্ট্রিম করার সময় Kafka Consumer এর প্যারামিটারগুলো যেমন fetch.min.bytes এবং fetch.max.wait.ms টিউন করা যেতে পারে।
Checkpointing:
- ডেটা হারানোর ঝুঁকি কমানোর জন্য checkpointing সক্রিয় করা উচিত, বিশেষত দীর্ঘ-running বা সিজেনের জন্য।
Backpressure Handling:
- Backpressure যখন স্ট্রিমের ডেটা প্রসেসিংয়ের গতি বেশি হয়ে যায় তখন সঠিকভাবে ব্যাকপ্রেশার হ্যান্ডেল করতে হবে। এটি ডেটা প্রবাহকে মনিটর করে এবং ভারী লোডের মধ্যে ডেটা প্রসেসিংয়ের গতি কমাতে সাহায্য করে।

Conclusion

Structured Streaming Apache Spark এর জন্য একটি অত্যন্ত কার্যকরী রিয়েল-টাইম ডেটা প্রসেসিং টুল, যা ডিস্ট্রিবিউটেড এবং স্কেলেবল সিস্টেমে রিয়েল-টাইম ডেটা প্রসেসিং করতে সহায়তা করে। এটি batch processing এর উপর ভিত্তি করে স্ট্রিমিং ডেটা প্রসেসিং প্রক্রিয়া করার জন্য অত্যন্ত উপযোগী। Fault tolerance, scalability, এবং event-time processing এর মতো বৈশিষ্ট্যগুলির মাধ্যমে এটি রিয়েল-টাইম ডেটা বিশ্লেষণ, ফ্রড ডিটেকশন, IoT ডিভাইস ডেটা এবং সোশ্যাল মিডিয়া মনিটরিংয়ের জন্য অপরিহার্য একটি টুল।

Content added By

Rezwan Siddiki Tamim

Structured Streaming এর ধারণা

488

Structured Streaming হল Apache Spark এর একটি ফিচার যা রিয়েল-টাইম ডেটা প্রসেসিংকে আরও উন্নত এবং সুবিধাজনক করে তোলে। এটি স্পার্কের একটি উচ্চ-স্তরের API যা batch processing এবং streaming processing এর মধ্যে সেতুবন্ধন তৈরি করে। Structured Streaming এর মাধ্যমে ডেটাকে continuous streams তে প্রক্রিয়া করা সম্ভব হয়, এবং এটি DataFrames এবং Datasets এর উপর ভিত্তি করে কাজ করে, যা SQL-স্টাইলের কুয়েরি এবং ট্রান্সফরমেশনকে রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য সহজ করে তোলে।

এটি বিশেষ করে স্পার্ক ব্যবহারকারীদের জন্য গুরুত্বপূর্ণ কারণ এটি batch processing এবং streaming এর মধ্যে পার্থক্য কমিয়ে দেয়, এবং ব্যবহারকারীরা একই কোডবেসে দুটি কাজ করতে পারেন। এই টিউটোরিয়ালে, আমরা Structured Streaming এর মূল ধারণা, কাজের ধরণ এবং এর ব্যবহার সম্পর্কে বিস্তারিত আলোচনা করব।

Structured Streaming কী?

Structured Streaming স্পার্কের একটি উন্নত ফিচার যা ডেটা স্ট্রিমিং এবং ডেটা ব্যাচ প্রসেসিংয়ের মধ্যে একীভূত কার্যপ্রণালী তৈরি করে। এর মাধ্যমে আপনি continuous data streams থেকে ডেটা গ্রহণ করে batch প্রসেসিংয়ের মতো ট্রান্সফরমেশন এবং অ্যাকশন প্রয়োগ করতে পারেন। Structured Streaming এ, ডেটা একটি micro-batch হিসেবে প্রসেস হয়, যা প্রতি নির্দিষ্ট সময় অন্তর (যেমন প্রতি 100 মিলিসেকেন্ড) নতুন ডেটা সংগ্রহ এবং প্রসেস করা হয়।

Structured Streaming এর মূল বৈশিষ্ট্য:

Micro-batch Processing: Structured Streaming ডেটাকে ছোট ছোট ব্যাচে ভাগ করে, এবং প্রতিটি ব্যাচে ট্রান্সফরমেশন এবং অ্যাকশন প্রয়োগ করে।
End-to-end Fault Tolerance: এটি ডেটা হারানো বা সিস্টেম ক্র্যাশ হলে পুনরুদ্ধার করতে সক্ষম, কারণ এটি checkpointing এবং write-ahead logs ব্যবহার করে।
Unified API: Structured Streaming DataFrame এবং Dataset API এর উপর ভিত্তি করে কাজ করে, যা ব্যবহারকারীদের সহজ এবং পরিষ্কার কোড লেখার সুবিধা দেয়।
Scalability: স্পার্কের অন্যান্য কম্পোনেন্টের মতো এটি ডিস্ট্রিবিউটেড এনভায়রনমেন্টে স্কেলেবল, এবং বিভিন্ন ধরনের ডেটা সোর্স (যেমন Kafka, Kinesis, HDFS) থেকে ডেটা গ্রহণ করতে সক্ষম।
Real-time Processing with Exactly-once Semantics: Structured Streaming সিস্টেমে রিয়েল-টাইম ডেটা প্রসেস করার সময় exactly-once সেম্যান্টিক্স বজায় রাখতে সক্ষম, অর্থাৎ একাধিক বার ডেটা প্রক্রিয়া বা ডুপ্লিকেট ফলাফল এড়িয়ে চলতে পারে।

Structured Streaming কীভাবে কাজ করে?

Structured Streaming ব্যাচ এবং স্ট্রিমিং ডেটার মধ্যে পার্থক্য কমিয়ে দেয়। এটি DataFrame এবং Dataset API ব্যবহার করে কাজ করে, এবং প্রতিটি micro-batch (ছোট ব্যাচ) প্রসেস করে, একে একে ডেটা স্ট্রিমে নতুন রেকর্ড যুক্ত করা হয়।

Working of Structured Streaming:

Input Sources: Structured Streaming ডেটা সোর্স (যেমন Kafka, HDFS, Socket, etc.) থেকে ডেটা নেয়।
Transformations: ডেটার উপর transformation (যেমন filter, map, join) প্রক্রিয়া করা হয়।
Output Sinks: প্রক্রিয়াকৃত ডেটা sink (যেমন HDFS, Kafka, Console, JDBC) তে আউটপুট হিসাবে লেখা হয়।

Structured Streaming অ্যাপ্লিকেশনে, আপনি DataFrame বা Dataset তে স্ট্রিমিং ডেটা প্রসেস করেন, এবং এগুলির উপর ট্রান্সফরমেশন প্রয়োগ করে রিয়েল-টাইম আউটপুট পেতে পারেন।

Structured Streaming Example

Basic Example of Structured Streaming:

ধরা যাক, আপনি একটি socket থেকে রিয়েল-টাইম ডেটা নিতে চান এবং প্রতিটি শব্দ গুনতে চান।

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

val spark = SparkSession.builder.appName("Structured Streaming Example").getOrCreate()

// Read from a socket stream
val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

// Split the lines into words
val words = lines.select(explode(split(col("value"), " ")).alias("word"))

// Count the occurrences of each word
val wordCounts = words.groupBy("word").count()

// Output the results to the console
val query = wordCounts.writeStream.outputMode("complete").format("console").start()

query.awaitTermination()

এখানে:

readStream: socket সোর্স থেকে ডেটা পড়া হচ্ছে।
select এবং explode: ডেটাকে পৃথক শব্দে ভাগ করা হচ্ছে।
groupBy এবং count: প্রতিটি শব্দের গড় গণনা করা হচ্ছে।
writeStream: আউটপুট কনসোলে প্রদর্শিত হবে।

এই কোডটি streaming ডেটা কনসোল আউটপুটে দেখাবে।

Structured Streaming এর সুবিধা

Unified Programming Model: Structured Streaming DataFrame এবং Dataset API ব্যবহার করে, যেটি SQL-স্টাইলের কুয়েরি এবং ট্রান্সফরমেশনকে স্ট্রিমিং ডেটা প্রসেসিংয়ে প্রয়োগ করা সহজ করে তোলে।
Fault Tolerance: Structured Streaming স্বয়ংক্রিয়ভাবে checkpointing এবং write-ahead logs ব্যবহার করে ডেটার ফাল্ট টলারেন্স নিশ্চিত করে। এর মাধ্যমে, সিস্টেম ক্র্যাশ বা ডেটা হারানোর ফলে প্রক্রিয়াকৃত ডেটা পুনরুদ্ধার করা যায়।
Scalability: Spark-এর স্কেলেবিলিটির সুবিধা নিয়ে, Structured Streaming একই কোডের মাধ্যমে ডিস্ট্রিবিউটেড এনভায়রনমেন্টে কাজ করতে পারে। এটি বড় ডেটাসেট এবং ডেটা সোর্সের জন্য উপযুক্ত।
End-to-End Exactly-Once Semantics: Structured Streaming ডেটা প্রসেসিংয়ের সময় exactly-once semantics নিশ্চিত করে, যা ডুপ্লিকেট ডেটা প্রসেসিং এবং ফলাফল এড়াতে সহায়ক।
Easy Integration: Structured Streaming বিভিন্ন ডেটা সোর্সের (যেমন Kafka, HDFS, Kinesis) সাথে সহজভাবে ইন্টিগ্রেট করা যায়।

Structured Streaming এর ব্যবহারিক ক্ষেত্রে

Real-time Analytics: রিয়েল-টাইম ডেটা অ্যানালাইসিস যেমন ওয়েবসাইট ট্রাফিক মনিটরিং, কাস্টমার ইন্টারঅ্যাকশন ট্র্যাকিং ইত্যাদি।
IoT (Internet of Things): সেন্সর ডেটা প্রক্রিয়া এবং ইন্টেলিজেন্ট সিস্টেম পরিচালনা করা।
Fraud Detection: ফিনান্সিয়াল সিস্টেমে রিয়েল-টাইম ফ্রড শনাক্তকরণ।
Social Media Analysis: সোশ্যাল মিডিয়া ডেটার উপর রিয়েল-টাইম ট্রেন্ড অ্যানালিসিস এবং বিশ্লেষণ করা।
Monitoring Logs: সিস্টেম বা অ্যাপ্লিকেশন লগ মনিটরিং এবং অ্যানালিসিস।

Conclusion

Structured Streaming হল Apache Spark এর একটি অত্যন্ত শক্তিশালী ফিচার যা রিয়েল-টাইম ডেটা প্রসেসিংকে সহজ করে তোলে। এটি micro-batch processing এর মাধ্যমে ডেটা স্ট্রিমিং এবং ব্যাচ প্রসেসিংয়ের মধ্যে পার্থক্য কমিয়ে দেয়, এবং ব্যবহারকারীদের DataFrame এবং Dataset API এর উপর ভিত্তি করে রিয়েল-টাইম ডেটা ট্রান্সফরমেশন এবং কুয়েরি চালানোর সুযোগ দেয়। এর fault tolerance, scalability, এবং end-to-end exactly-once semantics স্পার্ক স্ট্রিমিংকে একটি অত্যন্ত কার্যকরী এবং স্কেলেবল প্ল্যাটফর্মে পরিণত করে, যা বিভিন্ন ধরনের রিয়েল-টাইম ডেটা প্রসেসিং অ্যাপ্লিকেশন তৈরি করতে সক্ষম।

Content added By

Rezwan Siddiki Tamim

DataFrame API ব্যবহার করে Real-time Data Processing

410

Apache Spark একটি শক্তিশালী ডিস্ট্রিবিউটেড ডেটা প্রসেসিং ফ্রেমওয়ার্ক যা ডেটা বিশ্লেষণ, ট্রান্সফরমেশন, এবং মেশিন লার্নিংসহ বিভিন্ন ডেটা প্রসেসিং কার্যক্রমে ব্যবহৃত হয়। Real-time data processing বা streaming হলো এমন একটি প্রক্রিয়া যেখানে ডেটা আসার সাথে সাথে সেটি প্রক্রিয়া করা হয়। স্পার্কে Structured Streaming এর মাধ্যমে আমরা DataFrame API ব্যবহার করে রিয়েল-টাইম ডেটা প্রসেসিং করতে পারি।

এই টিউটোরিয়ালে, আমরা DataFrame API ব্যবহার করে Real-time Data Processing নিয়ে আলোচনা করব এবং কিভাবে স্পার্কে রিয়েল-টাইম ডেটা প্রসেসিং করা যায় তা দেখব।

Structured Streaming in Apache Spark

Structured Streaming হলো স্পার্কের একটি API যা স্ট্রাকচারড ডেটা বা DataFrame/Dataset এর মাধ্যমে রিয়েল-টাইম ডেটা প্রসেসিং করার সুবিধা প্রদান করে। এটি ডেটা স্ট্রিমিংয়ের জন্য স্পার্কের এক ধরনের DataFrame API যা স্ট্রিমিং ডেটার সাথে একইভাবে কাজ করে যেমনটি আপনি ব্যাচ ডেটার সাথে কাজ করেন।

Structured Streaming একটি ফ্রেমওয়ার্ক হিসেবে কাজ করে যেখানে আপনি DataFrame বা Dataset API ব্যবহার করে ডেটা প্রসেস করেন এবং সেই ডেটা continuous ভাবে আপডেট হয়।

Structured Streaming Basic Example

স্পার্ক স্ট্রাকচারড স্ট্রিমিংয়ের মাধ্যমে রিয়েল-টাইম ডেটা প্রসেসিং করার জন্য, প্রথমে আপনি ইনপুট সোর্স (যেমন কনসোল, Kafka, হাডুপ ফাইল সিস্টেম) থেকে ডেটা পড়েন এবং তারপর ডেটা ট্রান্সফর্মেশন ও কুয়েরি চালান।

Step 1: SparkSession and Structured Streaming Setup

প্রথমে, SparkSession তৈরি করতে হবে এবং স্পার্ক স্ট্রাকচারড স্ট্রিমিং সক্রিয় করতে হবে।

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

val spark = SparkSession.builder()
  .appName("Real-time Data Processing Example")
  .getOrCreate()

Step 2: Reading Streaming Data

স্পার্ক স্ট্রাকচারড স্ট্রিমিং এ readStream() ফাংশন ব্যবহার করে আপনি কনসোল, Kafka, অথবা ফাইল সিস্টেম থেকে রিয়েল-টাইম ডেটা পড়তে পারেন।

// Reading streaming data from a directory (file stream)
val inputDF = spark.readStream
  .format("csv")
  .option("header", "true")
  .schema("name STRING, age INT")
  .load("path/to/your/input/data")

inputDF.printSchema()

এখানে:

readStream() ফাংশনটি স্ট্রিমিং ডেটা পড়তে ব্যবহৃত হয়।
format("csv") কনফিগারেশনটি ডেটার ফরম্যাট সেট করে।
option("header", "true"): প্রথম লাইনটি হেডার হিসেবে গ্রহণ করে।
schema(): ডেটার স্কিমা নির্ধারণ করে।

Step 3: Transformations on Streaming Data

স্ট্রিমিং ডেটার ওপর transformations যেমন map(), filter(), groupBy() ইত্যাদি ব্যবহার করা যেতে পারে।

val transformedDF = inputDF.filter(col("age") > 30)

এখানে:

filter() ফাংশনটি age > 30 শর্তে ডেটা ফিল্টার করছে।

Step 4: Writing Stream to Sink

স্ট্রিমিং ডেটা প্রসেস করার পর সেই ডেটাকে sink এ লিখতে হবে। এখানে console একটি সাধারণ sink হিসেবে ব্যবহৃত হয়, যেখানে আপনি রিয়েল-টাইম আউটপুট দেখতে পাবেন।

val query = transformedDF.writeStream
  .outputMode("append") // This defines how the output is written: 'append', 'complete', or 'update'
  .format("console")
  .start()

query.awaitTermination()

এখানে:

writeStream(): স্ট্রিমিং ডেটা আউটপুট করার জন্য ব্যবহৃত হয়।
outputMode("append"): আউটপুট মুছে না ফেলে নতুন ডেটা অ্যাড করবে।
format("console"): আউটপুট কনসোলে প্রিন্ট হবে।

Step 5: Running and Stopping the Stream

রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য স্পার্ক স্ট্রিমিং অ্যাপ্লিকেশনটি চালানো এবং থামানো খুবই গুরুত্বপূর্ণ। awaitTermination() ফাংশনটি স্ট্রিমিং প্রক্রিয়া চালু রাখে যতক্ষণ না আপনি নিজে এটি থামান।

query.awaitTermination() // Keep the stream running

এটি স্ট্রিমিং কুয়েরির কার্যক্রম চালু রাখে যতক্ষণ না আপনি সেটি থামান।

Advanced Operations with Structured Streaming

Aggregations on Streaming Data: আপনি স্ট্রিমিং ডেটার উপর বিভিন্ন ধরনের অ্যাগ্রিগেশন করতে পারেন, যেমন গড়, মোট, গুণফল ইত্যাদি।

val aggregatedDF = inputDF.groupBy("name").agg(avg("age").alias("avg_age"))

এখানে, avg("age") ফাংশনটি স্ট্রিমিং ডেটার উপর age কলামের গড় হিসাব করছে।

Windowing Operations: window() ফাংশন ব্যবহার করে আপনি একটি নির্দিষ্ট সময়সীমার মধ্যে ডেটা অ্যাগ্রিগেট করতে পারেন। এটি রিয়েল-টাইম ডেটা প্রসেসিংয়ে খুবই গুরুত্বপূর্ণ।

val windowedDF = inputDF
  .withWatermark("timestamp", "10 minutes")
  .groupBy(window(col("timestamp"), "5 minutes"))
  .agg(sum("value").alias("total_value"))

এখানে:

withWatermark(): ডেটা স্ট্রিমিংয়ের মধ্যে লেট ডেটা পরিচালনা করার জন্য ব্যবহৃত হয়।
window(): একটি সময়ের জানুয়ারি উইন্ডো তৈরি করে।

Streaming Joins: আপনি স্ট্রিমিং ডেটা সেটগুলির মধ্যে join অপারেশনও চালাতে পারেন। তবে, এখানে কিছু সীমাবদ্ধতা থাকতে পারে, যেমন ডেটা ফ্রেমের মধ্যে একটি সময়সীমা নির্ধারণ করা।

val stream1 = spark.readStream.format("kafka").option("subscribe", "topic1").load()
val stream2 = spark.readStream.format("kafka").option("subscribe", "topic2").load()

val joinedStream = stream1.join(stream2, stream1("key") === stream2("key"))

এখানে:

join() ফাংশনটি দুইটি স্ট্রিমিং ডেটাসেটের মধ্যে যুক্ত হচ্ছে।

Fault Tolerance and Exactly Once Semantics

স্পার্ক স্ট্রাকচারড স্ট্রিমিং fault tolerance সমর্থন করে, এবং এটি Exactly Once Semantics (EOS) নিশ্চিত করতে পারে। এটি নিশ্চিত করে যে স্ট্রিমিং ডেটার কোনো রেকর্ড একাধিক বার প্রসেস হবে না, যদিও সিস্টেমের মধ্যে কোনো ত্রুটি ঘটে।

স্পার্ক স্ট্রাকচারড স্ট্রিমিংয়ে checkpointing এবং write-ahead logs (WAL) ব্যবহার করা হয়, যা স্ট্রিমিং প্রসেসিংয়ের মধ্যে ত্রুটির ক্ষেত্রেও ডেটাকে সঠিকভাবে সংরক্ষণ করতে সহায়তা করে।

val query = transformedDF.writeStream
  .outputMode("append")
  .format("parquet")
  .option("checkpointLocation", "path_to_checkpoint_directory")
  .start()

এখানে, checkpointLocation ডিরেক্টরি ব্যবহার করা হচ্ছে যাতে স্ট্রিমিং প্রসেসটি ত্রুটিপূর্ণভাবে পুনরায় শুরু করা গেলে সঠিক অবস্থান থেকে শুরু হতে পারে।

Conclusion

Structured Streaming স্পার্কের একটি শক্তিশালী ফিচার যা DataFrame API ব্যবহার করে রিয়েল-টাইম ডেটা প্রসেসিং সম্পাদন করতে সহায়তা করে। এটি ডেটা স্ট্রিমিংয়ের ক্ষেত্রে streaming joins, windowing, aggregations, fault tolerance, এবং exactly once semantics সমর্থন করে, যা রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য অত্যন্ত কার্যকর। স্পার্ক স্ট্রাকচারড স্ট্রিমিংয়ের মাধ্যমে আপনি সহজে রিয়েল-টাইম ডেটা প্রসেসিং করতে পারেন এবং ডেটাকে কার্যকরভাবে ট্রান্সফর্ম, অ্যানালাইজ এবং স্টোর করতে পারবেন।

Content added By

Rezwan Siddiki Tamim

Event Time এবং Watermarking

412

Apache Spark একটি শক্তিশালী ডিস্ট্রিবিউটেড ডেটা প্রসেসিং ফ্রেমওয়ার্ক যা স্ট্রিমিং ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। স্ট্রিমিং ডেটা সিস্টেমে, ডেটার event time এবং watermarking দুটো অত্যন্ত গুরুত্বপূর্ণ ধারণা, যা স্ট্রিমিং প্রসেসিংকে সঠিকভাবে এবং কার্যকরীভাবে পরিচালনা করতে সাহায্য করে।

Event Time in Apache Spark

Event Time হল সেই সময় যা ডেটা প্রসেসিংয়ের সময় ডেটা উৎপন্ন হওয়ার সময়কে নির্দেশ করে। স্ট্রিমিং ডেটা সিস্টেমে, ডেটার উৎপত্তি সময় বা প্রকৃত ইভেন্টের সময়, যা ডেটা তৈরি হওয়ার সময়, সেটি event time হিসেবে গণ্য করা হয়। স্ট্রিমিং ডেটা প্রসেসিংয়ে event time অত্যন্ত গুরুত্বপূর্ণ কারণ এটি ডেটার সঠিক ক্রম এবং বিশ্লেষণ নিশ্চিত করে, বিশেষত যখন ডেটা আংশিকভাবে বা দেরিতে আসে।

Why is Event Time Important?

Correct Data Ordering: অনেক সময় ডেটা দেরিতে আসে (লেট ডেটা), এবং একে সঠিকভাবে ট্র্যাক করা খুব গুরুত্বপূর্ণ। Event time এর মাধ্যমে ডেটার প্রাকৃতিক ক্রম অনুসারে তা প্রক্রিয়া করা যায়।
Time-based Windowing: যদি ডেটার উপর টাইম-ভিত্তিক উইন্ডো (time window) প্রয়োগ করতে হয়, তবে event time অনুসারে ফলাফল প্রক্রিয়া করা হয়।

Event Time Example:

ধরা যাক, আমাদের একটি স্ট্রিমিং ডেটা রয়েছে যেখানে সেলস রেকর্ড জমা হচ্ছে, এবং আমরা এই রেকর্ডগুলো তাদের উৎপত্তি সময়ের ভিত্তিতে বিশ্লেষণ করতে চাই।

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, window

spark = SparkSession.builder \
    .appName("Event Time Example") \
    .getOrCreate()

# Example streaming data
data = [(1, "2024-12-01 10:00:00", 100),
        (2, "2024-12-01 10:05:00", 150),
        (3, "2024-12-01 10:10:00", 200)]

df = spark.createDataFrame(data, ["id", "event_time", "sales"])

# Convert event_time to timestamp type
df = df.withColumn("event_time", col("event_time").cast("timestamp"))

# Using event_time for windowing operations
windowed_df = df.groupBy(window(col("event_time"), "10 minutes")).sum("sales")
windowed_df.show()

এখানে, window(col("event_time"), "10 minutes") এর মাধ্যমে event time ব্যবহার করে ১০ মিনিটের উইন্ডোতে সেলসের মোট পরিমাণ গণনা করা হচ্ছে।

Watermarking in Apache Spark

Watermarking হল একটি কৌশল যা স্ট্রিমিং ডেটা সিস্টেমে দেরিতে আসা ডেটার (late data) সমস্যা সমাধান করতে সাহায্য করে। যখন স্ট্রিমিং ডেটার কিছু অংশ দেরিতে আসে, তখন watermarking এটি পরিচালনা করতে ব্যবহৃত হয়। Watermarking স্পার্ককে সঠিকভাবে late data বা out-of-order data পরিচালনা করতে সহায়তা করে।

Watermarking এর মাধ্যমে, আপনি একটি নির্দিষ্ট সময়সীমা (threshold) সেট করতে পারেন, যাতে আপনি জানেন কোন ইভেন্টগুলি দেরিতে এসেছে এবং কোনগুলির জন্য প্রসেসিং করতে হবে।

How Watermarking Works:

Event Time vs Processing Time: Watermarking ইভেন্টের সময়ের ভিত্তিতে কাজ করে, অর্থাৎ যখন ডেটা event time অনুযায়ী প্রক্রিয়া করা হয়, তখন watermarks নিশ্চিত করে যে দেরিতে আসা ডেটা প্রসেস হবে না।
Threshold Time: এটি একটি সময়সীমা সেট করে, যা event time এর একটি নির্দিষ্ট দেরিতে আসা ডেটা valid রাখতে সহায়তা করে। উদাহরণস্বরূপ, আপনি বলতে পারেন যে একটি ইভেন্ট যদি ৫ মিনিটের মধ্যে না আসে, তবে তা আর late data হিসেবে গণ্য করা হবে না।

Watermarking Example:

from pyspark.sql.functions import watermark

# Streaming DataFrame with Event Time
df = spark.readStream \
    .format("kafka") \
    .option("subscribe", "sales_topic") \
    .load()

# Applying watermarking
df_with_watermark = df.withWatermark("event_time", "10 minutes")

# Processing data with watermarking
windowed_df = df_with_watermark.groupBy(window(col("event_time"), "10 minutes")).sum("sales")

# Output the result to the console
query = windowed_df.writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query.awaitTermination()

এখানে:

withWatermark("event_time", "10 minutes"): event_time কলামকে ১০ মিনিটের watermark সহ প্রক্রিয়া করা হচ্ছে।
যদি ডেটা ১০ মিনিট পরেও আসে, তাহলে এটি আর valid হিসেবে গণ্য হবে না।

Why is Watermarking Important?

Late Data Handling: স্ট্রিমিং ডেটা সিস্টেমে দেরিতে আসা ডেটা সামলানো।
Efficiency: Watermarking প্রক্রিয়াকে আরও কার্যকরী এবং দ্রুত করে তোলে, কারণ এটি কেবলমাত্র সংশ্লিষ্ট ডেটার উপর কাজ করে এবং দীর্ঘ সময় ধরে ঝুলন্ত ডেটা প্রক্রিয়া করতে বাধা দেয়।
Time-based Windowing: Watermarking টাইম-ভিত্তিক উইন্ডো প্রসেসিংকে সঠিকভাবে পরিচালনা করে, যখন ডেটা দেরিতে আসে।

Event Time এবং Watermarking এর ব্যবহার

স্পার্ক স্ট্রিমিং এ Event Time এবং Watermarking ব্যবহার করা হয় late data বা out-of-order data এর সঠিকভাবে প্রসেস করার জন্য। Event Time এর মাধ্যমে ডেটার প্রাকৃতিক ক্রমে বিশ্লেষণ সম্ভব হয় এবং Watermarking ডেটা শর্ত অনুযায়ী দেরিতে আসা ডেটাকে নিয়ন্ত্রণ করতে সহায়তা করে।

এটি স্ট্রিমিং ডেটা প্রসেসিং এর মধ্যে গুরুত্বপূর্ণ একটি অংশ, বিশেষত যখন ডেটা প্যাসিং দ্রুত পরিবর্তিত হয় এবং আপনি সঠিক ফলাফল পেতে চান।

Conclusion

Event Time এবং Watermarking স্পার্ক স্ট্রিমিং ডেটা প্রসেসিংয়ের দুটি অত্যন্ত গুরুত্বপূর্ণ ধারণা। Event Time ডেটার প্রকৃত উৎপত্তি সময়ের উপর ভিত্তি করে বিশ্লেষণ করতে সহায়তা করে, যেখানে Watermarking দেরিতে আসা ডেটাকে প্রসেস করার জন্য সময়সীমা নির্ধারণ করে। এই দুটি ফিচার স্ট্রিমিং অ্যাপ্লিকেশনকে আরও কার্যকরী এবং সঠিকভাবে ডেটা প্রক্রিয়া করার সুযোগ দেয়। Watermarking এবং Event Time স্ট্রিমিং ডেটার সাথে আরও নির্ভুলতা এবং স্থিরতা নিশ্চিত করে, যা স্পার্ক স্ট্রিমিংয়ের জন্য অপরিহার্য।

Content added By

Rezwan Siddiki Tamim

Stateful Streaming এবং Windowed Operations

416

Apache Spark একটি অত্যন্ত জনপ্রিয় এবং শক্তিশালী ডিস্ট্রিবিউটেড ডেটা প্রসেসিং ফ্রেমওয়ার্ক, যা রিয়েল-টাইম ডেটা স্ট্রিমিং এবং ব্যাচ প্রসেসিং সমর্থন করে। স্পার্কের স্ট্রিমিং ফিচারটি Spark Streaming নামে পরিচিত, এবং এটি মাইক্রো-ব্যাচ প্রক্রিয়ায় ডেটা প্রক্রিয়া করতে সক্ষম। স্ট্রিমিং ডেটা প্রক্রিয়াকরণের ক্ষেত্রে Stateful Streaming এবং Windowed Operations দুটি গুরুত্বপূর্ণ কৌশল।

এই টিউটোরিয়ালে, আমরা Stateful Streaming এবং Windowed Operations এর ধারণা, তাদের ব্যবহার এবং কেন এগুলি স্ট্রিমিং ডেটা বিশ্লেষণে গুরুত্বপূর্ণ তা আলোচনা করব।

Stateful Streaming in Apache Spark

Stateful Streaming হল একটি স্ট্রিমিং কৌশল যেখানে ডেটার স্টেট (অথবা পরিস্থিতি) রক্ষিত থাকে এবং প্রতি নতুন ডেটা আউটপুট উৎপন্ন করার আগে পূর্ববর্তী ডেটার সাথে যুক্ত থাকে। সাধারণত, স্ট্রিমিং ডেটার প্রতিটি নতুন ইনপুট মান নির্দিষ্টভাবে প্রসেস করা হয়, কিন্তু Stateful Streaming এর মাধ্যমে একটি state রাখা হয়, যা আগের ডেটার সাথে মিলিয়ে নতুন ডেটা প্রসেস করার জন্য ব্যবহৃত হয়।

Stateful Operations Example:

ধরা যাক, একটি ওয়েবসাইটে লগইন ইভেন্টগুলো স্ট্রিম করা হচ্ছে, এবং আপনি ইউজারদের মোট লগইন সংখ্যা ট্র্যাক করতে চান।

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka010._

val ssc = new StreamingContext(conf, Seconds(10))

// Example of a stream of user login events
val stream = KafkaUtils.createDirectStream[String, String](ssc, ...)

val statefulStream = stream.mapWithState(StateSpec.function(updateFunction))

def updateFunction(key: String, value: Option[String], state: State[Int]): Option[(String, Int)] = {
  val newState = state.getOption.getOrElse(0) + value.getOrElse("0").toInt
  state.update(newState)
  Some((key, newState))
}

এখানে, mapWithState ফাংশন ব্যবহার করে, state এর মান এবং নতুন value যোগ করে update করা হচ্ছে।

Why Use Stateful Streaming?

Tracking Long-Term Events: যখন আপনি দীর্ঘমেয়াদী ডেটার উপর ভিত্তি করে কিছু গণনা বা বিশ্লেষণ করতে চান, যেমন লগইন ট্র্যাকিং বা ফ্রড ডিটেকশন।
Incremental Calculations: স্ট্রিমিং ডেটার উপর চলতি অবস্থায় গণনা করতে, যেখানে আগের স্টেট ধারণ করে নতুন ডেটার সাথে আপডেট করা হয়।

Challenges with Stateful Streaming:

Memory Management: স্টেট রক্ষণের জন্য মেমরি ব্যবস্থাপনা অত্যন্ত গুরুত্বপূর্ণ, কারণ দীর্ঘমেয়াদী স্টেটের জন্য অতিরিক্ত মেমরি প্রয়োজন হতে পারে।
Fault Tolerance: স্টেটফুল অপারেশনগুলো যদি ফেইল করে, তবে সেগুলিকে পুনরুদ্ধার করার জন্য একটি শক্তিশালী ফাল্ট টলারেন্স সিস্টেম প্রয়োজন।

Windowed Operations in Apache Spark

Windowed Operations হল একটি স্ট্রিমিং কৌশল যেখানে ডেটাকে একটি নির্দিষ্ট সময়ের উইন্ডোতে প্রসেস করা হয়। এটি টাইম-ভিত্তিক বিশ্লেষণের জন্য ব্যবহৃত হয়, যেমন সাম্প্রতিক ৫ মিনিটের ডেটা বা এক ঘণ্টার ডেটা বিশ্লেষণ করা। উইন্ডো অপারেশনগুলি বিশেষত গুরুত্বপূর্ণ যখন আপনাকে রিয়েল-টাইমে অস্থির ডেটা (যেমন: ওয়েবসাইট ট্রাফিক, IoT ডিভাইস ডেটা) বিশ্লেষণ করতে হয়।

Types of Windowed Operations:

Sliding Window: একটি চলমান উইন্ডো, যেখানে সময়ের সাথে সাথে নতুন ডেটা যোগ হয় এবং পুরানো ডেটা বাদ পড়ে।
Tumbling Window: একটি নির্দিষ্ট সময়ের পরিমাণ, যেখানে একে একে ডেটা ব্যাচে বিভক্ত হয়।

Windowed Operations Example:

ধরা যাক, আপনি প্রতি ৫ মিনিটে একটি ডেটাসেটের সর্বোচ্চ সেলস পরিমাণ বের করতে চান।

val stream = ssc.socketTextStream("localhost", 9999)

val salesStream = stream.map(line => line.split(","))
  .map(data => (data(0), data(1).toInt)) // Assume (item, sales)

val windowedSales = salesStream.reduceByKeyAndWindow(
  (x: Int, y: Int) => x + y, // Aggregate by summing sales
  (x: Int, y: Int) => x - y, // Remove sales from the previous window
  Seconds(300), // Window duration (5 minutes)
  Seconds(60)    // Sliding interval (1 minute)
)

windowedSales.print()

এখানে, reduceByKeyAndWindow ফাংশনটি ৫ মিনিটের একটি উইন্ডোতে সেলসের পরিমাণ গুণে এবং প্রতি মিনিটে ডেটা আপডেট করছে।

Windowed Operations Use Cases:

Real-time Analytics: রিয়েল-টাইম ডেটার উপর চলতি সময়ের মধ্যে বিশ্লেষণ করতে ব্যবহৃত হয়।
Trend Detection: সময়ের মধ্যে পরিবর্তন শনাক্ত করার জন্য, যেমন ওয়েবসাইটের ট্রাফিক বা ক্রিপ্টোকারেন্সি প্রাইস ট্র্যাকিং।
IoT Data Processing: বিভিন্ন সেন্সর ডিভাইস থেকে আসা ডেটা সময়সীমার মধ্যে সংগ্রহ এবং বিশ্লেষণ।

Challenges with Windowed Operations:

Late Data: যখন ডেটা দেরিতে আসে, তখন সঠিক ফলাফল পাওয়ার জন্য উইন্ডো সাইজ এবং টাইমস্ট্যাম্প সঠিকভাবে পরিচালনা করতে হয়।
Window Size: উইন্ডো সাইজ ঠিকভাবে নির্বাচন করা অত্যন্ত গুরুত্বপূর্ণ, কারণ ছোট উইন্ডোতে অতিরিক্ত প্রসেসিং হতে পারে এবং বড় উইন্ডোতে পেনাল্টি হতে পারে।

Combining Stateful Streaming and Windowed Operations

কিছু পরিস্থিতিতে, আপনি Stateful Streaming এবং Windowed Operations একসাথে ব্যবহার করতে পারেন, যেমন যখন আপনি একটি চলমান উইন্ডোর মধ্যে stateful aggregation করতে চান। উদাহরণস্বরূপ, একটি সিস্টেম যা IoT ডিভাইস থেকে রিয়েল-টাইম ডেটা নেবে এবং একটি উইন্ডোর মধ্যে stateful aggregation চালাবে।

val stream = ssc.socketTextStream("localhost", 9999)

val statefulWindowedStream = stream
  .mapWithState(StateSpec.function(updateState))
  .window(Seconds(300), Seconds(60)) // 5-minute window with 1-minute sliding interval

def updateState(key: String, value: Option[Int], state: State[Int]): Option[(String, Int)] = {
  val newState = state.getOption.getOrElse(0) + value.getOrElse(0)
  state.update(newState)
  Some((key, newState))
}

এখানে, mapWithState এবং window() দুটি কৌশল একসাথে ব্যবহৃত হয়েছে, যা স্ট্রিমিং ডেটাকে ৫ মিনিটের উইন্ডোতে statefulভাবে প্রসেস করে।

Conclusion

Stateful Streaming এবং Windowed Operations স্পার্ক স্ট্রিমিংয়ের দুটি গুরুত্বপূর্ণ কৌশল যা ডেটাকে সঠিকভাবে ট্র্যাক এবং বিশ্লেষণ করতে সাহায্য করে। Stateful Streaming আপনাকে আগের ডেটার সাথে সম্পর্ক রেখে নতুন ডেটা প্রসেস করতে সহায়তা করে, যা ফ্রড ডিটেকশন বা ইউজার একটিভিটি ট্র্যাকিং-এর মতো অ্যাপ্লিকেশনে উপকারী। অন্যদিকে, Windowed Operations আপনাকে ডেটাকে একটি নির্দিষ্ট সময়ের মধ্যে প্রসেস করতে দেয়, যা টাইম-ভিত্তিক বিশ্লেষণের জন্য অপরিহার্য।

এই কৌশলগুলি real-time data processing, analytics, এবং IoT data handling-এ অত্যন্ত গুরুত্বপূর্ণ এবং স্পার্ক স্ট্রিমিংয়ের শক্তিশালী ব্যবহারে অবদান রাখে।

Content added By

Rezwan Siddiki Tamim

Apache Spark এর পরিচিতি Apache Spark Architecture এবং Components Spark Installation এবং Setup Spark RDD (Resilient Distributed Dataset) এর মৌলিক ধারণা DataFrames এবং Datasets

Structured Streaming এবং Real-time Data Processing

Structured Streaming কী?

Structured Streaming এর মূল বৈশিষ্ট্য:

Structured Streaming কিভাবে কাজ করে?

Spark Structured Streaming Workflow:

Structured Streaming Example:

Key Concepts in Structured Streaming:

Why is Structured Streaming Important for Real-time Data Processing?

1. Real-time Data Processing:

2. Fault Tolerance:

3. Scalability:

4. Unified Processing Model:

5. Event Time Handling:

Use Cases for Structured Streaming

Structured Streaming Performance Tuning

Conclusion

Structured Streaming এর ধারণা

Structured Streaming কী?

Structured Streaming এর মূল বৈশিষ্ট্য:

Structured Streaming কীভাবে কাজ করে?

Working of Structured Streaming:

Structured Streaming Example

Basic Example of Structured Streaming:

Structured Streaming এর সুবিধা

Structured Streaming এর ব্যবহারিক ক্ষেত্রে

Conclusion

DataFrame API ব্যবহার করে Real-time Data Processing

Structured Streaming in Apache Spark

Structured Streaming Basic Example

Step 1: SparkSession and Structured Streaming Setup

Step 2: Reading Streaming Data

Step 3: Transformations on Streaming Data

Step 4: Writing Stream to Sink

Step 5: Running and Stopping the Stream

Advanced Operations with Structured Streaming

Fault Tolerance and Exactly Once Semantics

Conclusion

Event Time এবং Watermarking

Event Time in Apache Spark

Why is Event Time Important?

Event Time Example:

Watermarking in Apache Spark

How Watermarking Works:

Watermarking Example:

Why is Watermarking Important?

Event Time এবং Watermarking এর ব্যবহার

Conclusion

Stateful Streaming এবং Windowed Operations

Stateful Streaming in Apache Spark

Stateful Operations Example:

Why Use Stateful Streaming?

Challenges with Stateful Streaming:

Windowed Operations in Apache Spark

Types of Windowed Operations:

Windowed Operations Example:

Windowed Operations Use Cases:

Challenges with Windowed Operations:

Combining Stateful Streaming and Windowed Operations

Conclusion

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!