Spark Streaming এর মৌলিক ধারণা

অ্যাপাচি স্পার্ক (Apache Spark) - Big Data and Analytics

622

অ্যাপাচি স্পার্ক (Apache Spark) একটি দ্রুত এবং স্কেলেবল ডেটা প্রসেসিং ফ্রেমওয়ার্ক, যা ডিস্ট্রিবিউটেড প্রসেসিংয়ের জন্য ব্যবহৃত হয়। এর মধ্যে একটি গুরুত্বপূর্ণ ফিচার হল Spark Streaming, যা রিয়েল-টাইম ডেটা স্ট্রিমিং এবং প্রসেসিংয়ের জন্য ব্যবহৃত হয়। Spark Streaming স্পার্কের একটি গুরুত্বপূর্ণ মডিউল, যা রিয়েল-টাইম ডেটা ফিড বা স্ট্রিমিং ডেটা প্রক্রিয়া করতে সক্ষম।

এই টিউটোরিয়ালে আমরা Spark Streaming এর মৌলিক ধারণা, এর কাজের পদ্ধতি, সুবিধা এবং ব্যবহার নিয়ে আলোচনা করব।

Spark Streaming Overview

Spark Streaming হল স্পার্কের একটি এক্সটেনশন, যা রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। এটি ডেটাকে micro-batches (ছোট ব্যাচে) ভাগ করে এবং সেই ব্যাচগুলোকে পরবর্তীতে প্রসেস করে। Spark Streaming রিয়েল-টাইম ডেটা সলিউশন তৈরি করতে ব্যবহৃত হয় যেখানে ডেটা স্ট্রিমিং সার্ভিস, সেন্সর ডেটা, লগ ফাইল, ইত্যাদি থেকে ডেটা আসতে থাকে।

Key Concepts of Spark Streaming:

Micro-Batch Processing: Spark Streaming ডেটাকে ছোট ছোট ব্যাচে ভাগ করে এবং প্রতি ব্যাচকে পৃথকভাবে প্রসেস করে। এটি রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য একটি কার্যকরী মডেল।
DStreams (Discretized Streams): Spark Streaming ডেটাকে DStream (Discretized Stream) নামে পরিচিত একটি ডেটা স্ট্রাকচারে রূপান্তরিত করে। DStream হল একটি সিকোয়েন্স (sequence) যা ছোট ছোট ব্যাচের মাধ্যমে ডেটা স্ট্রিম প্রকাশ করে।
SparkContext and StreamingContext: SparkContext হল স্পার্ক অ্যাপ্লিকেশন চালানোর মূল কম্পোনেন্ট এবং StreamingContext হল Spark Streaming অ্যাপ্লিকেশন চালানোর জন্য ব্যবহৃত হয়।
Transformation and Actions: Spark Streaming এ transformations (যেমন map, filter, reduceByKey) এবং actions (যেমন count, save) ব্যবহার করা যায়, ঠিক যেমন স্পার্কে RDD এবং DataFrame এর জন্য।

How Spark Streaming Works

Spark Streaming ডেটাকে DStreams এ রূপান্তরিত করে এবং micro-batches হিসেবে প্রসেস করে। এটি সাধারণত ইনপুট ডেটা যেমন Kafka, Flume, Kinesis, TCP/IP সোসকেট, বা লোকাল ফাইল সিস্টেম থেকে ডেটা নিয়ে আসে।

Working Flow of Spark Streaming:

Input Data: Spark Streaming ডেটা বিভিন্ন উৎস থেকে গ্রহণ করে (যেমন Kafka, Flume, HDFS, S3, etc.)।
DStream Creation: ইনপুট ডেটাকে DStream এ রূপান্তরিত করা হয়, যা একটি অবজেক্টের আকারে ডেটা স্ট্রিম ধারণ করে।
Micro-Batch Processing: DStream গুলি ছোট ব্যাচে ভাগ করা হয় এবং প্রতিটি ব্যাচের জন্য ডেটা ট্রান্সফর্ম করা হয়।
Output Data: ডেটা প্রক্রিয়ার পর আউটপুট ফলাফল বিভিন্ন আউটপুট সোর্সে (যেমন HDFS, S3, JDBC, Console) পাঠানো হয়।

DStream Example:

import org.apache.spark.streaming._
import org.apache.spark.streaming.twitter._

val conf = new SparkConf().setMaster("local[2]").setAppName("Spark Streaming Example")
val ssc = new StreamingContext(conf, Seconds(10))  // batch interval of 10 seconds

// Create a DStream to connect to Twitter stream
val tweets = TwitterUtils.createStream(ssc, None)

// Process each tweet (DStream)
tweets.map(status => status.getText).print()

ssc.start()  // Start Spark Streaming
ssc.awaitTermination()  // Wait for the streaming to finish

এখানে:

ssc: StreamingContext তৈরির মাধ্যমে স্পার্ক স্ট্রিমিং অ্যাপ্লিকেশন চালু করা হয়।
TwitterUtils.createStream: এটি টুইটার থেকে ডেটা স্ট্রিম তৈরি করে।
print(): আউটপুট কনসোলে দেখানোর জন্য ব্যবহৃত হয়।

Types of Data Sources in Spark Streaming

Spark Streaming বিভিন্ন ইনপুট সোর্স থেকে ডেটা গ্রহণ করতে পারে। কয়েকটি সাধারণ ইনপুট সোর্স:

Kafka: Kafka থেকে ডেটা স্ট্রিমিং করতে ব্যবহার করা হয়। Kafka স্পার্ক স্ট্রিমিংয়ের জন্য জনপ্রিয় ডেটা সোর্স।
Flume: Flume থেকে লগ ডেটা বা অন্যান্য ফাইল ডেটা স্ট্রিমিং করার জন্য ব্যবহৃত হয়।
Kinesis: AWS Kinesis স্ট্রিমিং ডেটা সোর্স থেকে ডেটা ইনপুট হিসাবে নেয়।
Socket: TCP/IP সোসকেট থেকেও ডেটা ইনপুট হিসেবে নেয়।

Example: Reading Data from Kafka:

import org.apache.spark.streaming.kafka010._

val topics = Array("test")
val kafkaParams = Map[String, String]("bootstrap.servers" -> "localhost:9092", "group.id" -> "testGroup")

val stream = KafkaUtils.createDirectStream[String, String](
  ssc,
  LocationStrategies.PreferConsistent,
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
)

stream.foreachRDD { rdd =>
  val messages = rdd.map(record => record.value)
  messages.foreach(println)
}

ssc.start()
ssc.awaitTermination()

Operations in Spark Streaming

Transformations এবং Actions স্পার্ক স্ট্রিমিংয়ের প্রধান অপারেশন। এগুলি ব্যবহার করে আপনি ডেটা ট্রান্সফর্ম এবং ফলাফল তৈরি করতে পারেন।

Transformations:

map: প্রতিটি ডেটা আইটেমের উপর কাজ করার জন্য ব্যবহার করা হয়।
```
val transformed = stream.map(record => record.value.toUpperCase())
```
filter: ডেটা ফিল্টার করার জন্য ব্যবহার করা হয়।
```
val filtered = stream.filter(record => record.value.contains("ERROR"))
```

reduceByKey: কুমুলেটিভ বা অ্যাগ্রিগেটিভ কাজ করার জন্য ব্যবহৃত হয়।

val wordCounts = stream.flatMap(record => record.value.split(" "))
                        .map(word => (word, 1))
                        .reduceByKey(_ + _)

Actions:

print(): রিয়েল-টাইম আউটপুট কনসোলে দেখানোর জন্য ব্যবহৃত হয়।
```
transformed.print()
```
saveAsTextFiles(): ডেটা HDFS বা লোকাল ফাইল সিস্টেমে সংরক্ষণ করার জন্য ব্যবহৃত হয়।
```
wordCounts.saveAsTextFiles("output")
```

Advantages of Spark Streaming

Scalable: Spark Streaming হালকা ওজনের এবং স্কেলেবল, যা বৃহৎ ডেটা ইনপুট সোর্সে কাজ করতে সক্ষম।
Fault-Tolerant: ডেটা লস হলে, Spark Streaming ডেটাকে পুনরুদ্ধার করতে পারে, কারণ এটি checkpointing এবং write-ahead logs ব্যবহার করে।
Integration with Spark Ecosystem: Spark Streaming পুরো স্পার্ক ইকোসিস্টেমের সাথে ইন্টিগ্রেটেড, যা মেশিন লার্নিং (MLlib), গ্রাফ প্রসেসিং (GraphX) এবং SQL (Spark SQL) এর সাথে কাজ করতে সহায়তা করে।
Windowed Computation: সময়ভিত্তিক ক্যালকুলেশন বা উইন্ডো-ভিত্তিক কম্পিউটেশন সমর্থন করে, যা রিয়েল-টাইম বিশ্লেষণ করা সহজ করে।

Conclusion

Spark Streaming হল একটি শক্তিশালী টুল যা রিয়েল-টাইম ডেটা স্ট্রিমিং এবং প্রসেসিংয়ের জন্য ব্যবহৃত হয়। এটি micro-batching এর মাধ্যমে ডেটাকে ছোট ব্যাচে ভাগ করে এবং সেই ব্যাচগুলোকে প্রসেস করে। স্পার্ক স্ট্রিমিং DStreams ব্যবহার করে ডেটা প্রসেসিং এবং বিভিন্ন transformations ও actions ব্যবহার করে ডেটার উপর কাজ করে। Spark Streaming এর স্কেলেবিলিটি, ফোল্ট টলারেন্স, এবং স্পার্ক ইকোসিস্টেমের সাথে ইন্টিগ্রেশন এটিকে রিয়েল-টাইম ডেটা সলিউশন তৈরির জন্য অত্যন্ত কার্যকরী করে তোলে।

Content added By

Rezwan Siddiki Tamim

Spark Streaming কী এবং কেন গুরুত্বপূর্ণ?

527

Apache Spark একটি ওপেন-সোর্স, ডিস্ট্রিবিউটেড ডেটা প্রসেসিং ফ্রেমওয়ার্ক, যা বৃহৎ পরিমাণ ডেটা দ্রুত এবং স্কেলেবলভাবে প্রক্রিয়া করতে সক্ষম। তবে batch processing ছাড়াও বর্তমানে রিয়েল-টাইম ডেটা প্রসেসিং-এর গুরুত্ব বেড়েছে। এ জন্য Spark Streaming নামক ফিচারটি প্রবর্তিত হয়েছে, যা স্পার্কের সাহায্যে রিয়েল-টাইম ডেটা স্ট্রিমিং প্রক্রিয়া করতে পারে।

এই টিউটোরিয়ালে, আমরা Spark Streaming এর পরিচিতি, এর গুরুত্বপূর্ণ ফিচার এবং রিয়েল-টাইম ডেটা প্রসেসিংয়ে কেন এটি গুরুত্বপূর্ণ তা বিস্তারিতভাবে আলোচনা করব।

Spark Streaming কী?

Spark Streaming হল Apache Spark এর একটি কম্পোনেন্ট যা রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। এটি ডেটা স্ট্রিমিং প্রক্রিয়ার জন্য ডিজাইন করা হয়েছে এবং ইনপুট ডেটাকে ছোট ছোট micro-batches তে প্রসেস করে। Spark Streaming একটি অত্যন্ত স্কেলেবল, ফাল্ট-টলারেন্ট, এবং উচ্চ পারফরম্যান্স ডেটা স্ট্রিমিং প্ল্যাটফর্ম, যা বিভিন্ন সোর্স (যেমন Kafka, Flume, HDFS, Kinesis) থেকে ডেটা গ্রহণ করে এবং তার উপর বিভিন্ন ট্রান্সফরমেশন ও অ্যাকশন প্রয়োগ করে।

Spark Streaming এর মূল বৈশিষ্ট্য:

Micro-batch Processing: Spark Streaming ইনপুট ডেটাকে ছোট ছোট ব্যাচে ভাগ করে প্রসেস করে।
Fault Tolerance: RDDs এবং Spark's DAG এ নথিভুক্ত ডেটার সাহায্যে Spark Streaming ফ্যাল্ট-টলারেন্ট থাকে, যা ডেটা হারানোর সম্ভাবনা কমায়।
Real-time Data Processing: রিয়েল-টাইম ডেটা সোর্স থেকে ডেটা প্রসেস করতে সক্ষম।
Integration with Other Spark Components: Spark Streaming, Spark SQL, MLlib এবং GraphX এর সাথে সহজেই ইন্টিগ্রেট করা যায়।
Stream-to-Batch Processing: স্ট্রিমিং ডেটাকে ব্যাচে রূপান্তর করা যায় এবং ব্যাচ প্রসেসিংয়ের মতো কাজ করা সম্ভব হয়।

Spark Streaming কীভাবে কাজ করে?

Spark Streaming ইনপুট ডেটা স্ট্রিমকে ছোট ছোট micro-batches তে ভাগ করে, এবং প্রতিটি ব্যাচে ডেটার উপর ট্রান্সফরমেশন এবং অ্যাকশন প্রক্রিয়া করা হয়। এরপর স্পার্ক সেই ডেটাকে প্রসেস করে এবং নতুন ফলাফল তৈরি করে।

Spark Streaming Architecture:

DStream (Discretized Stream): DStream হল Spark Streaming এর মূল ডেটা স্ট্রাকচার, যা স্ট্রিমিং ডেটাকে ব্যাচে রূপান্তরিত করে এবং এটিতে ট্রান্সফরমেশন ও অ্যাকশন কার্যকর হয়। DStream আসলে একটি RDD সিরিজ, যার মধ্যে প্রতিটি RDD একটি micro-batch ডেটাকে রিপ্রেজেন্ট করে।
Receivers: Spark Streaming ডেটা গ্রহন করতে Receiver ব্যবহার করে, যা বিভিন্ন সোর্স (Kafka, Flume, HDFS, etc.) থেকে ডেটা সংগ্রহ করে।
Spark Streaming Context: Spark Streaming অ্যাপ্লিকেশন চালানোর জন্য একটি StreamingContext তৈরি করা হয়, যা DStream তৈরি, ট্রান্সফরমেশন এবং অ্যাকশন পরিচালনা করে।

Example of Spark Streaming:

import org.apache.spark.streaming._
import org.apache.spark.streaming.twitter._
import org.apache.spark.SparkConf

// Set up the SparkConf and StreamingContext
val conf = new SparkConf().setAppName("Spark Streaming Example").setMaster("local[2]")
val ssc = new StreamingContext(conf, Seconds(10)) // Create a StreamingContext with batch duration of 10 seconds

// Create a DStream to receive data from a source (e.g., Twitter)
val stream = TwitterUtils.createStream(ssc, None)

// Perform a transformation on the DStream
val hashtags = stream.flatMap(status => status.getText.split(" ").filter(_.startsWith("#")))

// Count the occurrences of each hashtag
val hashtagCounts = hashtags.map((_, 1)).reduceByKey(_ + _)

// Print the result
hashtagCounts.print()

// Start the computation
ssc.start()
ssc.awaitTermination()

এখানে:

StreamingContext: স্পার্ক স্ট্রিমিং অ্যাপ্লিকেশন পরিচালনার জন্য ব্যবহৃত হয়।
DStream: টুইটার স্ট্রিম ডেটা থেকে হ্যাশট্যাগ বের করা হয়।
flatMap এবং reduceByKey: ট্রান্সফরমেশন প্রয়োগ করা হয়, যা স্ট্রিমিং ডেটাতে গণনা এবং ফিল্টারিং করে।

Spark Streaming কেন গুরুত্বপূর্ণ?

Spark Streaming বর্তমানে রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য অত্যন্ত গুরুত্বপূর্ণ একটি টুল। নিচে এর কিছু প্রধান কারণ উল্লেখ করা হলো:

1. Real-time Data Processing:

আজকাল অনেক সিস্টেমে ডেটা দ্রুত পরিবর্তনশীল, যেমন সোশ্যাল মিডিয়া, IoT ডিভাইস, ফিনান্সিয়াল মার্কেট ইত্যাদি। Spark Streaming রিয়েল-টাইম ডেটা প্রসেস করতে সক্ষম, যা বিভিন্ন ক্ষেত্রে যেমন ট্রেডিং, সিকিউরিটি মনিটরিং, বা ডিভাইস মনিটরিংএ গুরুত্বপূর্ণ ভূমিকা পালন করে।

2. Integration with Spark Ecosystem:

Spark Streaming, Apache Spark এর সাথে পুরোপুরি একীভূত, যার ফলে আপনি একই কোডবেসে Spark SQL, MLlib এবং GraphX এর মতো অন্যান্য স্পার্ক কম্পোনেন্ট ব্যবহার করতে পারেন। এটি স্পার্ক অ্যাপ্লিকেশনের মধ্যে ডেটা ম্যানিপুলেশন, মেশিন লার্নিং মডেল প্রশিক্ষণ এবং গ্রাফ অ্যানালিসিসকে আরও কার্যকরী করে তোলে।

3. Scalability and Fault Tolerance:

Spark Streaming বিশাল পরিমাণ ডেটা প্রসেস করতে সক্ষম এবং এটি ডিস্ট্রিবিউটেড পরিবেশে স্কেলেবল। এর fault tolerance বৈশিষ্ট্যটি ডেটার হারানোর সম্ভাবনা কমিয়ে আনে। যদি কোন ডেটা প্রসেসিং ফেইল করে, তবে তা পুনরুদ্ধারের ব্যবস্থা করে।

4. Real-time Analytics:

ব্যবসায়িক প্রতিষ্ঠানগুলো রিয়েল-টাইম ডেটা বিশ্লেষণ করতে চায়। Spark Streaming রিয়েল-টাইম অ্যানালিটিকস সমর্থন করে এবং আপনি ডেটা স্ট্রিমের উপর জটিল বিশ্লেষণ পরিচালনা করতে পারেন।

5. Wide Data Source Support:

Spark Streaming বিভিন্ন ডেটা সোর্স থেকে ডেটা সংগ্রহ করতে সক্ষম, যেমন Kafka, Flume, HDFS, Kinesis, এবং TCP sockets। এটি আপনাকে নানা ধরনের ডেটা সোর্সের সাথে কাজ করতে সহায়তা করে।

6. Cost-efficient:

স্পার্ক স্ট্রিমিং কম খরচে রিয়েল-টাইম ডেটা প্রসেসিং করতে সক্ষম। আপনি ডেটাকে ছোট ছোট ব্যাচে প্রসেস করতে পারেন এবং এটি কম্পিউটেশনাল রিসোর্সকে বেশি কার্যকরভাবে ব্যবহার করে।

Use Cases for Spark Streaming

Real-time Analytics:
- ই-কমার্স সাইটে কাস্টমারের ক্রয়ের ট্র্যাকিং এবং আচ্ছাদিত ডেটা বিশ্লেষণ।
- ওয়েবসাইট ট্রাফিক মনিটরিং এবং গ্রাফিকাল ড্যাশবোর্ড তৈরি।
Fraud Detection:
- ব্যাংকিং বা ক্রেডিট কার্ড সিস্টেমে ফ্রড শনাক্তকরণ।
IoT Data Processing:
- সেন্সর ডেটা, স্মার্ট ডিভাইস ডেটা প্রক্রিয়া এবং বিশ্লেষণ।
Social Media Monitoring:
- সোশ্যাল মিডিয়া ট্রেন্ড বিশ্লেষণ, হ্যাশট্যাগ মনিটরিং, অথবা রিয়েল-টাইম মন্তব্য বিশ্লেষণ।
Log Processing:
- রিয়েল-টাইম লগ মনিটরিং এবং বিশ্লেষণ, যেমন সিস্টেমের অস্বাভাবিক আচরণ বা নিরাপত্তা দুর্বলতা শনাক্তকরণ।

Conclusion

Spark Streaming রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য একটি অত্যন্ত শক্তিশালী এবং স্কেলেবল টুল, যা স্পার্কের অন্যান্য কম্পোনেন্টের সাথে একীভূত হয়ে কাজ করে। এটি ডেটা স্ট্রিমিংয়ের জন্য পারফরম্যান্স, স্কেলেবিলিটি, এবং রিলায়েবিলিটি প্রদান করে, যা বিভিন্ন অ্যাপ্লিকেশন যেমন রিয়েল-টাইম অ্যানালিটিকস, ফ্রড ডিটেকশন, এবং সোশ্যাল মিডিয়া মনিটরিং-এর জন্য অপরিহার্য। Spark Streaming এর মাধ্যমে আপনি দ্রুত এবং স্কেলেবল রিয়েল-টাইম ডেটা প্রসেসিং সক্ষম করতে পারেন, যা আধুনিক ডেটা প্রক্রিয়াকরণের ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।

Content added By

Rezwan Siddiki Tamim

DStream (Discretized Stream) এর ধারণা

428

অ্যাপাচি স্পার্ক (Apache Spark) একটি দ্রুত এবং স্কেলেবল ডিস্ট্রিবিউটেড ডেটা প্রসেসিং ফ্রেমওয়ার্ক যা বিভিন্ন ধরনের ডেটা প্রসেসিং কাজ করতে সক্ষম। DStream (Discretized Stream) হল স্পার্ক স্ট্রিমিংয়ের একটি প্রধান ডেটা স্ট্রাকচার, যা স্ট্রিমিং ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়। DStream আসলে একটি ডিস্ট্রিবিউটেড ডেটা স্ট্রিম, যা একটি ধারাবাহিক ডেটা ফ্লোকে ছোট ছোট ডেটা পার্টিশনে বিভক্ত করে, যাতে সেগুলি সমান্তরালভাবে প্রসেস করা যায়।

DStream স্পার্ক স্ট্রিমিং এর মাধ্যমে real-time ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয়, যেখানে ডেটা স্ট্রিম ধারাবাহিকভাবে প্রবাহিত হয় এবং প্রতি কিছু মিলিসেকেন্ডে ডেটা প্রসেস করা হয়।

এই টিউটোরিয়ালে, আমরা DStream এর ধারণা, এর কাজ করার পদ্ধতি এবং DStream এর বৈশিষ্ট্যগুলি বিস্তারিতভাবে আলোচনা করব।

DStream (Discretized Stream) কি?

DStream (Discretized Stream) হল স্পার্ক স্ট্রিমিংয়ের একটি উচ্চ-স্তরের অ্যাবস্ট্রাকশন, যা একটি স্ট্রিমিং ডেটাকে ছোট ছোট ব্যাচে বিভক্ত করে এবং সেগুলির উপর বিভিন্ন ট্রান্সফরমেশন এবং অ্যাকশন প্রয়োগ করার সুযোগ দেয়। DStream ডেটা স্ট্রিমিংয়ের ওপর কাজ করার সময়, RDD (Resilient Distributed Dataset) এর সাথে একই ধরনের অপারেশন ব্যবহার করা হয়, তবে ডেটা প্রতি কিছু সময় অন্তর batch আকারে প্রসেস হয়।

DStream এর প্রধান বৈশিষ্ট্য:

Real-time Data Processing: DStream রিয়েল-টাইম ডেটা প্রাপ্তি এবং প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়।
Discretization: স্ট্রিমিং ডেটাকে small batches এ বিভক্ত করা হয়, যার মাধ্যমে স্ট্রিমিং ডেটাকে RDD এর মতো একে একে প্রক্রিয়া করা যায়।
Fault Tolerance: DStream তে RDD এর সুবিধা রয়েছে, যা স্বয়ংক্রিয়ভাবে ডেটা পুনরুদ্ধার করতে সক্ষম।
Windowing: DStream উইন্ডো ভিত্তিক অপারেশন সমর্থন করে, যেমন নির্দিষ্ট সময়সীমার মধ্যে ডেটা সংগ্রহ করা।

DStream তৈরি করা:

DStream তৈরি করতে, Spark Streaming লাইব্রেরি ব্যবহার করা হয়। DStream একটি ইনপুট সোর্স (যেমন কনফিগার করা ফাইল, ক্যামেরা, কিপ্যাড ইত্যাদি) থেকে ডেটা গ্রহণ করে।

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._

val sparkConf = new SparkConf().setAppName("DStream Example")
val ssc = new StreamingContext(sparkConf, Seconds(5))  // 5 seconds batch interval

val stream = ssc.socketTextStream("localhost", 9999)  // Example for data from socket

stream.print()  // Print the received data in each batch
ssc.start()     // Start the computation
ssc.awaitTermination()  // Wait for the computation to terminate

এখানে:

StreamingContext: স্পার্ক স্ট্রিমিং কনফিগারেশন এবং ইনপুট সোর্স সেট করে।
socketTextStream: এটি একটি ইনপুট সোর্স হিসাবে সকেট থেকে ডেটা নেয়।
Seconds(5): প্রতি ৫ সেকেন্ড পর পর ব্যাচ প্রক্রিয়াকরণ করা হবে।

DStream এর কাজ করার পদ্ধতি

DStream আসলে একটি continuous sequence বা ধারাবাহিক ডেটা ফ্লো, যা RDD এর একটি সিরিজ হিসেবে কাজ করে। প্রতি কিছু নির্দিষ্ট সময় অন্তর (যেমন ৫ সেকেন্ড), DStream ডেটাকে ছোট ছোট ব্যাচে (micro-batches) বিভক্ত করে এবং সেগুলির উপর ট্রান্সফরমেশন এবং অ্যাকশন অপারেশন প্রয়োগ করা হয়।

DStream থেকে RDD তে রূপান্তর:

DStream মূলত RDD এর একটি সিরিজ, তাই ডেটার প্রতি ব্যাচে RDD অপারেশনগুলো প্রয়োগ করা যায়। উদাহরণস্বরূপ:

val rdd = stream.map(_.split(" "))  // Each batch will be processed as an RDD
rdd.print()  // Print the words of each batch

এখানে:

map: split(" ") অপারেশন ব্যবহার করে প্রতি লাইনে স্পেসের ভিত্তিতে শব্দ বিভক্ত করা হচ্ছে।

DStream Transformations:

DStream এ একাধিক ট্রান্সফরমেশন প্রয়োগ করা যায়, যেমন map, flatMap, filter, reduceByKey, window, ইত্যাদি।

Map Transformation Example:

val words = stream.flatMap(_.split(" "))
words.print()  // Print all the words received in each batch

ReduceByKey Transformation Example:

val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey(_ + _)
wordCounts.print()  // Print word counts in each batch

Windowed Operations:

DStream উইন্ডো ভিত্তিক ট্রান্সফরমেশন সমর্থন করে, যেমন একটি নির্দিষ্ট সময়ের মধ্যে ডেটা সংগৃহীত করা। উদাহরণস্বরূপ, 10 সেকেন্ডের উইন্ডোতে শব্দের গননা করা:

val windowedStream = words.window(Seconds(10), Seconds(5))
val wordCounts = windowedStream.map(word => (word, 1)).reduceByKey(_ + _)
wordCounts.print()

এখানে, window(Seconds(10), Seconds(5)) এর মাধ্যমে ১০ সেকেন্ডের সময়সীমার মধ্যে ডেটা সংগ্রহ করা হচ্ছে, যেখানে প্রতি ৫ সেকেন্ড পর পর উইন্ডোটি শিফট হবে।

DStream-এর উপকারিতা এবং ব্যবহার

Real-Time Processing: DStream ব্যবহার করে আপনি রিয়েল-টাইম ডেটা স্ট্রিম প্রসেসিং করতে পারেন, যা IoT ডিভাইস, সোসাল মিডিয়া ফিড, লগ মনিটরিং ইত্যাদি ক্ষেত্রে কার্যকর।
Fault Tolerance: DStream RDD এর উপর ভিত্তি করে কাজ করে, তাই এতে ইনবিল্ট ফোল্ট টলারেন্স রয়েছে। যদি কোনও ডেটা প্রসেসিং প্রক্রিয়ায় সমস্যা হয়, তাহলে তা পুনরুদ্ধার করা যায়।
Scalable: DStream সহজেই স্কেল করা যায়, যার মাধ্যমে বৃহৎ পরিমাণ ডেটা প্রসেসিং করা যায়।
Windowing: DStream উইন্ডো অপারেশন সাপোর্ট করে, যা সময়ের ভিত্তিতে ডেটা বিশ্লেষণ এবং ক্যালকুলেশন করতে সক্ষম।

Conclusion

DStream (Discretized Stream) স্পার্ক স্ট্রিমিংয়ের একটি শক্তিশালী এবং নমনীয় ডেটা স্ট্রাকচার, যা রিয়েল-টাইম ডেটা প্রসেসিংকে সহজ করে তোলে। DStream ডেটাকে ছোট ছোট ব্যাচে বিভক্ত করে এবং প্রতি ব্যাচে সমান্তরালভাবে প্রসেস করে, যা ডেটার দ্রুত বিশ্লেষণ এবং ট্রান্সফরমেশন নিশ্চিত করে। DStream এর সাথে windowing, map, reduce, এবং filter এর মত ট্রান্সফরমেশন ব্যবহার করা সম্ভব, যা ডেটার উপর বিভিন্ন কার্যকরী অপারেশন পরিচালনা করতে সহায়তা করে।

Content added By

Rezwan Siddiki Tamim

Streaming Data Sources (Kafka, Flume, HDFS)

422

Apache Spark Streaming রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত হয় এবং এটি বিভিন্ন data sources থেকে ডেটা স্ট্রিম করতে সক্ষম। Kafka, Flume, এবং HDFS হল তিনটি জনপ্রিয় ডেটা সোর্স যা স্পার্ক স্ট্রিমিংয়ের মাধ্যমে ডেটা গ্রহণ করতে ব্যবহার করা হয়। প্রতিটি সোর্সের নিজস্ব বৈশিষ্ট্য এবং ব্যবহার ক্ষেত্র রয়েছে, যা নির্দিষ্ট ডেটা প্রসেসিং এর চাহিদা অনুযায়ী নির্বাচন করা হয়।

এই টিউটোরিয়ালে, আমরা Kafka, Flume, এবং HDFS থেকে ডেটা স্ট্রিম করার জন্য Spark Streaming ব্যবহার করার পদ্ধতি এবং তাদের বৈশিষ্ট্য নিয়ে আলোচনা করব।

1. Kafka as a Streaming Data Source

Apache Kafka একটি ডিস্ট্রিবিউটেড মেসেজিং সিস্টেম যা রিয়েল-টাইম ডেটা স্ট্রিমিং এবং লগ সংগ্রহের জন্য ব্যবহৃত হয়। Kafka একটি উচ্চ-পারফরম্যান্স এবং স্কেলেবল ডেটা স্ট্রিমিং প্ল্যাটফর্ম, যা স্পার্ক স্ট্রিমিং এর সাথে খুব ভালোভাবে কাজ করে। Kafka-র মাধ্যমে রিয়েল-টাইম ডেটা স্ট্রিম করতে, স্পার্ক স্ট্রিমিং Kafka থেকে মেসেজ কনজিউম করে এবং তা প্রসেস করে।

How to Stream Data from Kafka using Spark Streaming

Add Dependencies: প্রথমে Kafka এবং Spark Streaming এর জন্য প্রয়োজনীয় ডিপেনডেন্সি যোগ করতে হবে।

// Maven dependency for Kafka and Spark Streaming
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-streaming-kafka_2.11</artifactId>
  <version>2.4.7</version>
</dependency>

Create a Spark Streaming Context:

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka010._
import org.apache.kafka.common.serialization.StringDeserializer

val sparkConf = new SparkConf().setAppName("KafkaStreamExample")
val ssc = new StreamingContext(sparkConf, Seconds(10))

// Kafka parameters
val kafkaParams = Map(
  "bootstrap.servers" -> "localhost:9092",
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  "group.id" -> "test-group",
  "auto.offset.reset" -> "earliest"
)

// Create a DStream for Kafka data
val topics = Array("topic1")
val stream = KafkaUtils.createDirectStream[String, String](
  ssc, 
  LocationStrategies.PreferConsistent,
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
)

// Process the stream
stream.map(record => record.value).print()

// Start streaming
ssc.start()
ssc.awaitTermination()

এখানে:

KafkaUtils.createDirectStream(): স্পার্ক স্ট্রিমিং Kafka থেকে ডেটা পড়তে ব্যবহার হয়।
map(): Kafka থেকে পাওয়া ডেটা প্রক্রিয়া করা হচ্ছে।

Kafka Advantages:

High throughput and fault tolerance
Supports message persistence and high availability
Scalable and distributed

2. Flume as a Streaming Data Source

Apache Flume হল একটি ডিস্ট্রিবিউটেড সিস্টেম যা লগ ডেটা সংগ্রহ ও ট্রান্সপোর্ট করতে ব্যবহৃত হয়। Flume সাধারণত লগ ডেটা বা অ্যাপ্লিকেশন থেকে আউটপুট সংগ্রহ করে এবং এটি বিভিন্ন ডেটা স্টোরেজ বা ডেটা প্রসেসিং সিস্টেমে পাঠায়, যেমন স্পার্ক স্ট্রিমিং।

How to Stream Data from Flume using Spark Streaming

Add Flume Dependency:

// Maven dependency for Flume and Spark Streaming
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-streaming-flume_2.11</artifactId>
  <version>2.4.7</version>
</dependency>

Create a Spark Streaming Context:

import org.apache.spark.streaming._
import org.apache.spark.streaming.flume._

val sparkConf = new SparkConf().setAppName("FlumeStreamExample")
val ssc = new StreamingContext(sparkConf, Seconds(10))

// Create a Flume stream
val flumeStream = FlumeUtils.createStream(ssc, "localhost", 9092)

// Process the Flume stream
val events = flumeStream.map(event => new String(event.event.getBody.array()))
events.print()

// Start streaming
ssc.start()
ssc.awaitTermination()

এখানে:

FlumeUtils.createStream(): Flume থেকে ডেটা স্ট্রিম করার জন্য ব্যবহার করা হচ্ছে।
map(): Flume থেকে পাওয়া ডেটা প্রসেস করা হচ্ছে।

Flume Advantages:

Designed specifically for ingesting log data
Can handle large amounts of streaming data efficiently
Integrates easily with Hadoop and Spark

3. HDFS as a Streaming Data Source

HDFS (Hadoop Distributed File System) হল একটি ফাইল সিস্টেম যা বিশাল পরিমাণ ডেটা সংরক্ষণ করতে ব্যবহৃত হয়। Spark Streaming HDFS এর সাথে যুক্ত হয়ে ডেটা স্ট্রিম করতে পারে, যেখানে ডেটা সাধারণত batch files আকারে আসে এবং সেগুলো প্রক্রিয়া করা হয়। HDFS-এ সঞ্চিত ডেটা ফাইল স্ট্রিমিং এবং প্রয়োজনে প্রসেসিং করা যায়।

How to Stream Data from HDFS using Spark Streaming

Create a Spark Streaming Context:

import org.apache.spark.streaming._
import org.apache.spark.streaming.dstream._

val sparkConf = new SparkConf().setAppName("HDFSStreamExample")
val ssc = new StreamingContext(sparkConf, Seconds(10))

// Create a DStream for HDFS input files
val lines = ssc.textFileStream("hdfs://localhost:9000/user/spark/data/")

// Process the DStream
lines.print()

// Start streaming
ssc.start()
ssc.awaitTermination()

এখানে:

textFileStream(): HDFS থেকে স্ট্রিমিং ডেটা গ্রহণ করা হচ্ছে।
print(): ডেটা প্রক্রিয়া করার পর আউটপুট প্রদর্শন করা হচ্ছে।

HDFS Advantages:

Used for storing large amounts of unstructured or semi-structured data
Seamless integration with Spark for batch processing
Fault-tolerant and scalable storage

Conclusion

Spark Streaming ডেটা স্ট্রিমিংয়ের জন্য একটি অত্যন্ত শক্তিশালী এবং স্কেলেবল ফ্রেমওয়ার্ক যা Kafka, Flume, এবং HDFS থেকে ডেটা গ্রহণ করে এবং তার উপর বিভিন্ন ট্রান্সফরমেশন এবং বিশ্লেষণ করতে সহায়তা করে। Kafka হোস্টিং করে মেসেজ সিস্টেম, Flume লগ ডেটা সংগ্রহ করতে ব্যবহৃত হয় এবং HDFS বড় ডেটাসেটের জন্য উপযুক্ত ফাইল সিস্টেম হিসেবে কাজ করে।

Kafka অধিকাংশ রিয়েল-টাইম ডেটা স্ট্রিমিং অ্যাপ্লিকেশনের জন্য ব্যবহৃত হয়, যেখানে বার বার ডেটা প্রক্রিয়া করার প্রয়োজন হয়।
Flume বিশেষত লগ ডেটা সংগ্রহ করতে ব্যবহৃত হয় এবং এটি একটি সিস্টেম থেকে অন্য সিস্টেমে ডেটা পাঠানোর জন্য কার্যকর।
HDFS বড় পরিমাণ ডেটার স্টোরেজ এবং ব্যাচ প্রসেসিংয়ের জন্য আদর্শ।

এই সোর্সগুলির মাধ্যমে Spark Streaming রিয়েল-টাইম ডেটা প্রসেসিং করতে সক্ষম, যা অনেক গুরুত্বপূর্ণ অ্যাপ্লিকেশনের জন্য অপরিহার্য।

Content added By

Rezwan Siddiki Tamim

Spark Streaming এর Transformations এবং Actions

351

Apache Spark Streaming হল Apache Spark এর একটি কম্পোনেন্ট যা রিয়েল-টাইম ডেটা প্রসেসিং এবং স্ট্রিমিং ডেটার উপর কাজ করতে ব্যবহৃত হয়। Spark Streaming স্ট্রিমিং ডেটাকে ব্যাচের আকারে ডিস্ট্রিবিউটেড ডেটা প্রসেসিংয়ের জন্য নিয়ে আসে। স্ট্রিমিং ডেটা কিভাবে প্রসেস করা হবে তা নির্ধারণ করার জন্য Transformations এবং Actions ব্যবহৃত হয়।

এই টিউটোরিয়ালে, আমরা Spark Streaming এর Transformations এবং Actions নিয়ে আলোচনা করব এবং কীভাবে তারা স্ট্রিমিং ডেটার উপর কার্যকরী অপারেশন সম্পাদন করে তা দেখব।

Spark Streaming Overview

Spark Streaming একটি স্ট্রিমিং ডেটা প্রসেসিং সিস্টেম, যা ইনপুট ডেটা স্ট্রিমকে ছোট ছোট ব্যাচে বিভক্ত করে এবং প্রতিটি ব্যাচকে স্পার্ক ক্লাস্টারের মাধ্যমে প্রসেস করে। Spark Streaming সাধারণত DStream (Discretized Stream) ব্যবহার করে, যা একটি RDD এর উপরে নির্মিত একটি ডেটা স্ট্রাকচার। DStream এর মাধ্যমে আপনি স্ট্রিমিং ডেটার উপর ট্রান্সফরমেশন এবং অ্যাকশন অপারেশন করতে পারেন।

Key Features of Spark Streaming:

Real-time Data Processing: রিয়েল-টাইম ডেটা প্রসেসিংয়ের জন্য স্ট্রিমিং ডেটাকে ছোট ছোট ব্যাচে ভাগ করে।
Fault Tolerance: Spark Streaming RDD-এর মতো ফল্ট টলারেন্ট, অর্থাৎ ডেটা লস না হয়ে পুনরুদ্ধার করা সম্ভব।
Integration with Spark Core: Spark Streaming সহজেই Spark Core, Spark SQL, এবং Spark MLlib এর সাথে ইন্টিগ্রেট করা যায়।
Windowing: এটি একটি বিশেষ ফিচার যা স্ট্রিমিং ডেটার নির্দিষ্ট উইন্ডোতে অপারেশন করতে সহায়তা করে।

Spark Streaming Transformations

Transformations হল স্ট্রিমিং ডেটার উপর সঞ্চালিত অপারেশন যা নতুন DStream তৈরি করে। এটি সাধারণত lazy evaluation হয়, অর্থাৎ ট্রান্সফরমেশনটি তখনই কার্যকরী হয় যখন একটি Action (যেমন collect(), count()) চালানো হয়।

Common Spark Streaming Transformations

map()

map() স্ট্রিমিং ডেটার প্রতিটি উপাদানের উপর একটি ফাংশন প্রয়োগ করে এবং একটি নতুন DStream তৈরি করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val mappedLines = lines.map(line => line.toUpperCase)
mappedLines.print()

এখানে, map() ফাংশন প্রতিটি লাইনে একটি পরিবর্তন (uppercase) প্রয়োগ করছে এবং একটি নতুন DStream তৈরি করছে।

filter()

filter() ট্রান্সফরমেশনটি DStream থেকে শুধুমাত্র সেই উপাদানগুলি নির্বাচন করে যা একটি নির্দিষ্ট শর্ত পূর্ণ করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val filteredLines = lines.filter(line => line.contains("Spark"))
filteredLines.print()

এখানে, filter() ফাংশনটি সেই লাইনের উপর ফিল্টার প্রয়োগ করছে যা "Spark" শব্দটি ধারণ করে।

flatMap()

flatMap() ফাংশনটি প্রতিটি উপাদান থেকে একাধিক আউটপুট তৈরি করে, যার ফলে flat আউটপুট পাওয়া যায়। এটি map() এর মতো, তবে এখানে একাধিক উপাদান ফেরত দেওয়া হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(line => line.split(" "))
words.print()

এখানে, flatMap() ফাংশনটি প্রতিটি লাইনের শব্দগুলো আলাদা করে একটি ফ্ল্যাট আউটপুট তৈরি করেছে।

reduceByKey()

reduceByKey() একটি দম্পতি (key, value) ডেটা নিয়ে কাজ করে এবং একটি নির্দিষ্ট অপারেশন প্রয়োগ করে, যেমন একটি key এর জন্য মান যোগ করা। এটি সাধারণত key-value pairs ডেটার জন্য ব্যবহৃত হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val wordCounts = lines.flatMap(line => line.split(" "))
  .map(word => (word, 1))
  .reduceByKey(_ + _)
wordCounts.print()

এখানে, reduceByKey() ফাংশনটি শব্দের সংখ্যা গুণে একটি "word count" তৈরি করছে।

window()

window() ফাংশনটি একটি নির্দিষ্ট সময়ের উইন্ডোতে ডেটা অপারেশন করার জন্য ব্যবহৃত হয়। এটি একটি স্থির সময়ের ইন্টারভ্যাল তৈরি করে এবং তার মধ্যে থাকা ডেটা প্রসেস করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val windowedLines = lines.window(Seconds(30), Seconds(10))
windowedLines.print()

এখানে, window() ফাংশনটি 30 সেকেন্ডের জন্য একটি উইন্ডো তৈরি করেছে এবং প্রতি 10 সেকেন্ডে তা পুনরায় উইন্ডো করবে।

Spark Streaming Actions

Actions হল সেই অপারেশন যা DStream এর উপর কার্যকরী হয় এবং এর মাধ্যমে ফলাফল বা আউটপুট পাওয়া যায়। Spark Streaming এ Actions এর মাধ্যমে আপনি স্ট্রিমিং ডেটার ফলাফল দেখতে এবং ডেটা প্রসেসিং শুরু করতে পারেন।

Common Spark Streaming Actions

print()

print() একটি Action যা DStream এর উপাদানগুলি আউটপুটে প্রিন্ট করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(line => line.split(" "))
words.print()

এখানে, print() ফাংশনটি DStream এর প্রতিটি শব্দ প্রিন্ট করবে।

count()

count() Action ফাংশনটি DStream এর উপাদানগুলির সংখ্যা গণনা করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
val wordCounts = lines.flatMap(line => line.split(" ")).count()
wordCounts.print()

এখানে, count() ফাংশনটি স্ট্রিমের মধ্যে থাকা শব্দের মোট সংখ্যা গণনা করবে।

save()

save() Action ফাংশনটি DStream এর ডেটা ডিস্ক বা ডেটাবেসে সেভ করতে ব্যবহৃত হয়।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
lines.saveAsTextFiles("output_directory")

এখানে, saveAsTextFiles() ফাংশনটি স্ট্রিমিং ডেটা ডিস্কে একটি ফাইল হিসেবে সেভ করবে।

foreachRDD()

foreachRDD() ফাংশনটি প্রতিটি RDD এর উপর কার্যক্রম চালায়, যা প্রতি ব্যাচে প্রসেস করা ডেটা নিয়ে কাজ করে।

Example:

val lines = ssc.socketTextStream("localhost", 9999)
lines.foreachRDD { rdd =>
  println("Number of records in this batch: " + rdd.count())
}

এখানে, foreachRDD() ফাংশনটি প্রতিটি ব্যাচের ডেটা গণনা করে।

Conclusion

Spark Streaming একটি শক্তিশালী টুল যা রিয়েল-টাইম ডেটা প্রসেসিংকে সম্ভব করে তোলে। Transformations এবং Actions হল Spark Streaming এর প্রধান কার্যক্রম যা স্ট্রিমিং ডেটার উপর কার্যকরী অপারেশন এবং ফলাফল প্রদান করে। Transformations (যেমন map(), filter(), reduceByKey()) স্ট্রিমিং ডেটার পরিবর্তন করতে ব্যবহৃত হয়, যখন Actions (যেমন print(), count(), save()) ডেটার আউটপুট বা ফলাফল তৈরি করে।

Spark Streaming এর মাধ্যমে আপনি রিয়েল-টাইম ডেটা প্রসেসিং এবং বিশ্লেষণ করতে পারেন, যা পারফরম্যান্স এবং স্কেলেবিলিটির জন্য অত্যন্ত উপযুক্ত।

Content added By

Rezwan Siddiki Tamim

Apache Spark এর পরিচিতি Apache Spark Architecture এবং Components Spark Installation এবং Setup Spark RDD (Resilient Distributed Dataset) এর মৌলিক ধারণা DataFrames এবং Datasets

Spark Streaming এর মৌলিক ধারণা

Spark Streaming Overview

Key Concepts of Spark Streaming:

How Spark Streaming Works

Working Flow of Spark Streaming:

DStream Example:

Types of Data Sources in Spark Streaming

Example: Reading Data from Kafka:

Operations in Spark Streaming

Transformations:

Actions:

Advantages of Spark Streaming

Conclusion

Spark Streaming কী এবং কেন গুরুত্বপূর্ণ?

Spark Streaming কী?

Spark Streaming এর মূল বৈশিষ্ট্য:

Spark Streaming কীভাবে কাজ করে?

Spark Streaming Architecture:

Example of Spark Streaming:

Spark Streaming কেন গুরুত্বপূর্ণ?

1. Real-time Data Processing:

2. Integration with Spark Ecosystem:

3. Scalability and Fault Tolerance:

4. Real-time Analytics:

5. Wide Data Source Support:

6. Cost-efficient:

Use Cases for Spark Streaming

Conclusion

DStream (Discretized Stream) এর ধারণা

DStream (Discretized Stream) কি?

DStream এর প্রধান বৈশিষ্ট্য:

DStream তৈরি করা:

DStream এর কাজ করার পদ্ধতি

DStream থেকে RDD তে রূপান্তর:

DStream Transformations:

Map Transformation Example:

ReduceByKey Transformation Example:

Windowed Operations:

DStream-এর উপকারিতা এবং ব্যবহার

Conclusion

Streaming Data Sources (Kafka, Flume, HDFS)

1. Kafka as a Streaming Data Source

How to Stream Data from Kafka using Spark Streaming

Kafka Advantages:

2. Flume as a Streaming Data Source

How to Stream Data from Flume using Spark Streaming

Flume Advantages:

3. HDFS as a Streaming Data Source

How to Stream Data from HDFS using Spark Streaming

HDFS Advantages:

Conclusion

Spark Streaming এর Transformations এবং Actions

Spark Streaming Overview

Key Features of Spark Streaming:

Spark Streaming Transformations

Common Spark Streaming Transformations

Example:

Example:

Example:

Example:

Example:

Spark Streaming Actions

Common Spark Streaming Actions

Example:

Example:

Example:

Example:

Conclusion

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!