Stateless এবং Stateful Processing

Kafka Stream Processing - অ্যাপাচি কাফকা (Apache Kafka) - Big Data and Analytics

378

Kafka স্ট্রিমিং প্রক্রিয়ায় Stateless এবং Stateful প্রোসেসিং দুটি গুরুত্বপূর্ণ ধারণা। এগুলি ডেটা প্রসেসিংয়ের বিভিন্ন ধরনের পদ্ধতি যা একটি স্ট্রিমিং ডেটা প্ল্যাটফর্মে ব্যবহৃত হয়। এই প্রোসেসিংয়ের মাধ্যমে ডেটার বিভিন্ন বৈশিষ্ট্য বা অবস্থার উপর ভিত্তি করে বিভিন্ন প্রকারের গণনা এবং সিদ্ধান্ত গ্রহণ করা হয়।

Stateless Processing

Stateless Processing হল এমন একটি প্রোসেসিং মডেল যেখানে কোনো স্টেট (অবস্থা) সংরক্ষণ করা হয় না। এতে প্রতিটি ডেটা রেকর্ডকে একে অপর থেকে স্বাধীনভাবে প্রক্রিয়া করা হয়। এর মানে হল যে, কোনো ইনপুট রেকর্ড প্রসেস করার পর, পূর্ববর্তী বা পরবর্তী রেকর্ডের সাথে কোনো সম্পর্ক রাখা হয় না। Stateless Processing সাধারণত সিঙ্গল রেকর্ড, টপিক বা পার্টিশনে একক ডেটা ইভেন্ট প্রসেস করার জন্য ব্যবহৃত হয়।

Stateless Processing-এর বৈশিষ্ট্য:

পূর্ববর্তী ডেটার উপর নির্ভরশীলতা নেই: প্রতিটি ডেটা রেকর্ড নিজের পক্ষে একক এবং পূর্বের কোন ডেটার প্রভাব তার উপর নেই।
প্রদত্ত ইনপুট এবং আউটপুটের মধ্যে সম্পর্ক নেই: প্রতিটি ডেটা ইভেন্ট একা আলাদাভাবে প্রসেস করা হয় এবং অন্য কোনো ইভেন্টের সাথে মিলিত হওয়ার প্রয়োজন নেই।
প্রসেসিং ফাস্ট: Stateless Processing সাধারণত খুব দ্রুত হয় কারণ এটি কোনো স্টেট সংরক্ষণ বা আপডেট করার প্রক্রিয়া চালায় না।

Stateless Processing-এর উদাহরণ:

ধরা যাক, আপনি একটি Kafka স্ট্রিমিং প্রসেসর ব্যবহার করে শুধুমাত্র একটি টপিক থেকে ডেটা পড়ছেন এবং সেই ডেটাকে কোনো বিশেষভাবে ফিল্টার বা ট্রান্সফর্ম করছেন। উদাহরণস্বরূপ, স্ট্রিমিং ডেটাতে নাম ফিল্টার করা হতে পারে, যেখানে পূর্ববর্তী ডেটার সাথে কোনো সম্পর্ক রাখা হয় না।

KStream<String, String> input = builder.stream("input-topic");
KStream<String, String> filtered = input.filter((key, value) -> value.contains("Kafka"));
filtered.to("output-topic");

এই কোডের মধ্যে, আপনি শুধু প্রতিটি রেকর্ড চেক করছেন, এবং যদি কোনো রেকর্ডে "Kafka" থাকে তবে সেটিকে আউটপুট টপিকে পাঠাচ্ছেন। এখানে কোনো State সংরক্ষিত হচ্ছে না, তাই এটি Stateless Processing।

Stateful Processing

Stateful Processing এমন একটি প্রোসেসিং মডেল যেখানে স্টেট সংরক্ষণ করা হয়। এর মানে হলো, প্রতিটি রেকর্ড প্রসেস করার সময় পূর্ববর্তী রেকর্ডগুলোর তথ্য ব্যবহার করা হয়, এবং এই তথ্য স্টেটে সংরক্ষিত হয়। Stateful Processing এমন কাজগুলোর জন্য উপযোগী যেখানে অতীত ডেটার উপর ভিত্তি করে ভবিষ্যৎ সিদ্ধান্ত গ্রহণ করতে হয়, যেমন অগ্রগতির হিসাব, উইন্ডো-বেসড প্রসেসিং, কিংবা কোনো অ্যাগ্রিগেশন প্রক্রিয়া।

Stateful Processing-এর বৈশিষ্ট্য:

স্টেট সংরক্ষণ: প্রতিটি রেকর্ডের মধ্যে স্টেট সংরক্ষণ করা হয়, যা পূর্ববর্তী ডেটার উপর ভিত্তি করে আপডেট হতে পারে।
অ্যাকুমুলেশন: Stateful Processing-এ বিভিন্ন ডেটার ফলাফল একত্রিত (accumulate) হয়, যেমন উইন্ডো প্রসেসিং, অ্যাগ্রিগেশন ইত্যাদি।
উচ্চ সিস্টেম রিসোর্স প্রয়োজন: স্টেট সংরক্ষণ করার কারণে, Stateful Processing-এর জন্য অতিরিক্ত মেমরি এবং সংরক্ষণশক্তি প্রয়োজন হয়।

Stateful Processing-এর উদাহরণ:

ধরা যাক, আপনি Kafka Streams ব্যবহার করে একটি স্ট্রিমের উপর অ্যাগ্রিগেশন করতে চান, যেমন প্রতি ৫ মিনিটে সর্বোচ্চ বিক্রয় হিসাব করা। এটি Stateful Processing এর একটি উদাহরণ।

KStream<String, Integer> salesStream = builder.stream("sales-topic");
KTable<Windowed<String>, Integer> aggregate = salesStream
  .groupByKey()
  .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
  .aggregate(
    () -> 0, 
    (aggKey, newValue, aggValue) -> aggValue + newValue
  );
aggregate.toStream().to("aggregated-sales");

এই কোডে:

আমরা TimeWindows ব্যবহার করে ৫ মিনিটের একটি উইন্ডো তৈরি করেছি।
বিক্রয়ের ডেটা অ্যাগ্রিগেট করতে স্টেট ব্যবহার করছি, যেখানে প্রতি ৫ মিনিটে সর্বোচ্চ বিক্রয়ের পরিমাণ সংরক্ষিত হচ্ছে।

এখানে State সংরক্ষিত হচ্ছে এবং পূর্ববর্তী ডেটা অনুযায়ী পরবর্তী সিদ্ধান্ত নেয়া হচ্ছে, যা Stateful Processing এর একটি উদাহরণ।