Hadoop হলো একটি ওপেন সোর্স ফ্রেমওয়ার্ক, যা বড় ডেটাসেট সংরক্ষণ এবং প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়। এটি বিভিন্ন কম্পিউটার ক্লাস্টারের মাধ্যমে ডেটা প্রক্রিয়াকরণ এবং বিশ্লেষণ করার ক্ষমতা প্রদান করে। Hadoop মূলত দুটি প্রধান উপাদান নিয়ে গঠিত: Hadoop Distributed File System (HDFS) এবং MapReduce।
Hadoop হলো একটি ওপেন সোর্স ফ্রেমওয়ার্ক, যা বড় আকারের ডেটা সেট ম্যানেজ এবং বিশ্লেষণ করার জন্য ব্যবহৃত হয়। এটি Apache Software Foundation দ্বারা তৈরি করা হয়েছে এবং মূলত Big Data প্রক্রিয়াকরণে ব্যবহৃত হয়। Hadoop ডিস্ট্রিবিউটেড কম্পিউটিংয়ের মাধ্যমে বড় আকারের ডেটা সেট (যেমন পেটাবাইট এবং এক্সাবাইট) ম্যানেজ এবং প্রসেস করতে সক্ষম।
Hadoop-এর মূল বৈশিষ্ট্য হলো এটি বড় ডেটা প্রক্রিয়াকরণকে সহজ, দ্রুত এবং কার্যকর করে তোলে এবং বড় ডেটা সেটকে একাধিক সার্ভারে ভাগ করে প্রক্রিয়া করে। এর মাধ্যমে আপনি ক্লাস্টার ভিত্তিক ডেটা প্রক্রিয়াকরণ করতে পারেন এবং এর HDFS (Hadoop Distributed File System) এবং MapReduce প্রক্রিয়ার মাধ্যমে ডেটাকে সহজেই ম্যানেজ এবং প্রক্রিয়া করতে পারেন।
HDFS (Hadoop Distributed File System): HDFS হলো একটি ডিস্ট্রিবিউটেড ফাইল সিস্টেম, যা বড় আকারের ডেটাকে একাধিক সার্ভারে ভাগ করে সংরক্ষণ এবং প্রক্রিয়াকরণ করতে সাহায্য করে।
MapReduce: এটি একটি প্রোগ্রামিং মডেল, যা বড় ডেটা সেটকে ছোট ছোট অংশে ভাগ করে প্যারালাল প্রসেসিংয়ের মাধ্যমে দ্রুত প্রক্রিয়া করে। এটি দুটি ধাপে কাজ করে:
YARN (Yet Another Resource Negotiator): YARN হলো Hadoop এর জন্য একটি রিসোর্স ম্যানেজমেন্ট সিস্টেম, যা ক্লাস্টারের মধ্যে রিসোর্স (যেমন মেমরি এবং CPU) বরাদ্দ করে এবং প্রক্রিয়াগুলো পরিচালনা করে।
Hadoop Common: এটি Hadoop এর বিভিন্ন উপাদানের জন্য সাধারণ ইউটিলিটি এবং টুলস সরবরাহ করে।
ধাপ ১: Hadoop ইনস্টল করা
Hadoop ইনস্টল করতে, আপনাকে প্রথমে একটি Hadoop ডিস্ট্রিবিউশন ডাউনলোড এবং সেটআপ করতে হবে। আপনি ক্লাউড প্ল্যাটফর্মে (যেমন AWS, Google Cloud) Hadoop সেটআপ করতে পারেন, অথবা আপনার লোকাল মেশিনেও এটি ইনস্টল করতে পারেন। নিচে Hadoop ইনস্টল করার সাধারণ ধাপগুলো উল্লেখ করা হলো:
Java ইনস্টল করা: Hadoop এর জন্য Java প্রয়োজন, তাই আপনার মেশিনে Java ইনস্টল করা থাকতে হবে।
sudo apt update
sudo apt install openjdk-8-jdk
Hadoop ডাউনলোড এবং সেটআপ করা: Hadoop এর অফিসিয়াল ওয়েবসাইট থেকে Hadoop ডাউনলোড করুন এবং এক্সট্র্যাক্ট করুন।
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xvzf hadoop-3.3.1.tar.gz
Hadoop কনফিগারেশন ফাইল সেটআপ: Hadoop এর কনফিগারেশন ফাইলগুলি (যেমন core-site.xml, hdfs-site.xml, mapred-site.xml) সেটআপ করতে হবে।
ধাপ ২: HDFS ব্যবহার করে ডেটা আপলোড করা
একবার Hadoop ইনস্টল হয়ে গেলে, আপনি HDFS ব্যবহার করে ডেটা আপলোড করতে পারেন। উদাহরণস্বরূপ, একটি লোকাল ফাইল সিস্টেম থেকে HDFS এ ডেটা আপলোড করতে নিচের কমান্ডটি ব্যবহার করা যেতে পারে:
hdfs dfs -put localfile.txt /user/hadoop/
ধাপ ৩: MapReduce এ একটি জব চালানো
Hadoop এর MapReduce প্রোগ্রাম ব্যবহার করে আপনি ডেটার উপর গণনা করতে পারেন। উদাহরণস্বরূপ, একটি সহজ MapReduce জব চালাতে নিচের ধাপগুলো অনুসরণ করুন:
MapReduce জব প্রস্তুত: একটি Java প্রোগ্রাম তৈরি করুন যা Map এবং Reduce কাজ সম্পন্ন করবে।
MapReduce জব চালানো: নিচের কমান্ডটি ব্যবহার করে MapReduce জব চালানো হয়।
hadoop jar wordcount.jar input output
ধাপ ৪: YARN ব্যবহার করে রিসোর্স ম্যানেজমেন্ট
YARN এর মাধ্যমে Hadoop ক্লাস্টারের মধ্যে রিসোর্স ম্যানেজমেন্ট করা যায়। আপনি YARN ব্যবহার করে কতগুলো জব চলছে, এবং কতগুলো রিসোর্স বরাদ্দ হয়েছে তা পর্যবেক্ষণ করতে পারবেন।
yarn application -list
| বিষয় | Hadoop | Apache Spark | Apache Flink |
|---|---|---|---|
| প্রসেসিং মডেল | ব্যাচ প্রসেসিং | ব্যাচ + রিয়েলটাইম | রিয়েলটাইম |
| ফল্ট টলারেন্স | ভালো | খুব ভালো | খুব ভালো |
| লেটেন্সি | উচ্চ | কম | খুব কম |
| ইউজার ফ্রেন্ডলি | মাঝারি | সহজ | সহজ |
| স্কেলেবিলিটি | খুব ভালো | খুব ভালো | ভালো |
Hadoop হলো একটি শক্তিশালী এবং স্কেলেবল ফ্রেমওয়ার্ক, যা বড় আকারের ডেটাসেট প্রক্রিয়াকরণের জন্য আদর্শ। এর HDFS এবং MapReduce মডেল ডেটা প্রক্রিয়াকরণকে দ্রুত এবং কার্যকর করে তোলে। বড় প্রতিষ্ঠান এবং গবেষণায়, বিশেষ করে যেখানে Big Data বিশ্লেষণের প্রয়োজন হয়, সেখানে Hadoop একটি জনপ্রিয় টুল। Hadoop এর মাধ্যমে বড় ডেটাসেট ম্যানেজ এবং বিশ্লেষণ করে ব্যবসায়িক সিদ্ধান্ত গ্রহণ সহজ হয়ে যায়।
Hadoop হলো একটি ওপেন সোর্স ফ্রেমওয়ার্ক, যা বড় ডেটাসেট সংরক্ষণ এবং প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়। এটি বিভিন্ন কম্পিউটার ক্লাস্টারের মাধ্যমে ডেটা প্রক্রিয়াকরণ এবং বিশ্লেষণ করার ক্ষমতা প্রদান করে। Hadoop মূলত দুটি প্রধান উপাদান নিয়ে গঠিত: Hadoop Distributed File System (HDFS) এবং MapReduce।
Hadoop হলো একটি ওপেন সোর্স ফ্রেমওয়ার্ক, যা বড় আকারের ডেটা সেট ম্যানেজ এবং বিশ্লেষণ করার জন্য ব্যবহৃত হয়। এটি Apache Software Foundation দ্বারা তৈরি করা হয়েছে এবং মূলত Big Data প্রক্রিয়াকরণে ব্যবহৃত হয়। Hadoop ডিস্ট্রিবিউটেড কম্পিউটিংয়ের মাধ্যমে বড় আকারের ডেটা সেট (যেমন পেটাবাইট এবং এক্সাবাইট) ম্যানেজ এবং প্রসেস করতে সক্ষম।
Hadoop-এর মূল বৈশিষ্ট্য হলো এটি বড় ডেটা প্রক্রিয়াকরণকে সহজ, দ্রুত এবং কার্যকর করে তোলে এবং বড় ডেটা সেটকে একাধিক সার্ভারে ভাগ করে প্রক্রিয়া করে। এর মাধ্যমে আপনি ক্লাস্টার ভিত্তিক ডেটা প্রক্রিয়াকরণ করতে পারেন এবং এর HDFS (Hadoop Distributed File System) এবং MapReduce প্রক্রিয়ার মাধ্যমে ডেটাকে সহজেই ম্যানেজ এবং প্রক্রিয়া করতে পারেন।
HDFS (Hadoop Distributed File System): HDFS হলো একটি ডিস্ট্রিবিউটেড ফাইল সিস্টেম, যা বড় আকারের ডেটাকে একাধিক সার্ভারে ভাগ করে সংরক্ষণ এবং প্রক্রিয়াকরণ করতে সাহায্য করে।
MapReduce: এটি একটি প্রোগ্রামিং মডেল, যা বড় ডেটা সেটকে ছোট ছোট অংশে ভাগ করে প্যারালাল প্রসেসিংয়ের মাধ্যমে দ্রুত প্রক্রিয়া করে। এটি দুটি ধাপে কাজ করে:
YARN (Yet Another Resource Negotiator): YARN হলো Hadoop এর জন্য একটি রিসোর্স ম্যানেজমেন্ট সিস্টেম, যা ক্লাস্টারের মধ্যে রিসোর্স (যেমন মেমরি এবং CPU) বরাদ্দ করে এবং প্রক্রিয়াগুলো পরিচালনা করে।
Hadoop Common: এটি Hadoop এর বিভিন্ন উপাদানের জন্য সাধারণ ইউটিলিটি এবং টুলস সরবরাহ করে।
ধাপ ১: Hadoop ইনস্টল করা
Hadoop ইনস্টল করতে, আপনাকে প্রথমে একটি Hadoop ডিস্ট্রিবিউশন ডাউনলোড এবং সেটআপ করতে হবে। আপনি ক্লাউড প্ল্যাটফর্মে (যেমন AWS, Google Cloud) Hadoop সেটআপ করতে পারেন, অথবা আপনার লোকাল মেশিনেও এটি ইনস্টল করতে পারেন। নিচে Hadoop ইনস্টল করার সাধারণ ধাপগুলো উল্লেখ করা হলো:
Java ইনস্টল করা: Hadoop এর জন্য Java প্রয়োজন, তাই আপনার মেশিনে Java ইনস্টল করা থাকতে হবে।
sudo apt update
sudo apt install openjdk-8-jdk
Hadoop ডাউনলোড এবং সেটআপ করা: Hadoop এর অফিসিয়াল ওয়েবসাইট থেকে Hadoop ডাউনলোড করুন এবং এক্সট্র্যাক্ট করুন।
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xvzf hadoop-3.3.1.tar.gz
Hadoop কনফিগারেশন ফাইল সেটআপ: Hadoop এর কনফিগারেশন ফাইলগুলি (যেমন core-site.xml, hdfs-site.xml, mapred-site.xml) সেটআপ করতে হবে।
ধাপ ২: HDFS ব্যবহার করে ডেটা আপলোড করা
একবার Hadoop ইনস্টল হয়ে গেলে, আপনি HDFS ব্যবহার করে ডেটা আপলোড করতে পারেন। উদাহরণস্বরূপ, একটি লোকাল ফাইল সিস্টেম থেকে HDFS এ ডেটা আপলোড করতে নিচের কমান্ডটি ব্যবহার করা যেতে পারে:
hdfs dfs -put localfile.txt /user/hadoop/
ধাপ ৩: MapReduce এ একটি জব চালানো
Hadoop এর MapReduce প্রোগ্রাম ব্যবহার করে আপনি ডেটার উপর গণনা করতে পারেন। উদাহরণস্বরূপ, একটি সহজ MapReduce জব চালাতে নিচের ধাপগুলো অনুসরণ করুন:
MapReduce জব প্রস্তুত: একটি Java প্রোগ্রাম তৈরি করুন যা Map এবং Reduce কাজ সম্পন্ন করবে।
MapReduce জব চালানো: নিচের কমান্ডটি ব্যবহার করে MapReduce জব চালানো হয়।
hadoop jar wordcount.jar input output
ধাপ ৪: YARN ব্যবহার করে রিসোর্স ম্যানেজমেন্ট
YARN এর মাধ্যমে Hadoop ক্লাস্টারের মধ্যে রিসোর্স ম্যানেজমেন্ট করা যায়। আপনি YARN ব্যবহার করে কতগুলো জব চলছে, এবং কতগুলো রিসোর্স বরাদ্দ হয়েছে তা পর্যবেক্ষণ করতে পারবেন।
yarn application -list
| বিষয় | Hadoop | Apache Spark | Apache Flink |
|---|---|---|---|
| প্রসেসিং মডেল | ব্যাচ প্রসেসিং | ব্যাচ + রিয়েলটাইম | রিয়েলটাইম |
| ফল্ট টলারেন্স | ভালো | খুব ভালো | খুব ভালো |
| লেটেন্সি | উচ্চ | কম | খুব কম |
| ইউজার ফ্রেন্ডলি | মাঝারি | সহজ | সহজ |
| স্কেলেবিলিটি | খুব ভালো | খুব ভালো | ভালো |
Hadoop হলো একটি শক্তিশালী এবং স্কেলেবল ফ্রেমওয়ার্ক, যা বড় আকারের ডেটাসেট প্রক্রিয়াকরণের জন্য আদর্শ। এর HDFS এবং MapReduce মডেল ডেটা প্রক্রিয়াকরণকে দ্রুত এবং কার্যকর করে তোলে। বড় প্রতিষ্ঠান এবং গবেষণায়, বিশেষ করে যেখানে Big Data বিশ্লেষণের প্রয়োজন হয়, সেখানে Hadoop একটি জনপ্রিয় টুল। Hadoop এর মাধ্যমে বড় ডেটাসেট ম্যানেজ এবং বিশ্লেষণ করে ব্যবসায়িক সিদ্ধান্ত গ্রহণ সহজ হয়ে যায়।
আপনি আমাকে যেকোনো প্রশ্ন করতে পারেন, যেমনঃ
Are you sure to start over?