Skill

Hive Installation এবং Setup গাইড ও নোট

Big Data and Analytics - হাইভ (Hive)
479

Apache Hive একটি ওপেন সোর্স ডেটা ওয়্যারহাউজিং সিস্টেম যা Hadoop এর উপর ভিত্তি করে কাজ করে। Hive ইনস্টলেশন এবং সেটআপ প্রক্রিয়া কিছুটা দীর্ঘ হলেও, তা সহজে অনুসরণ করা যায়। এখানে Hive ইনস্টল এবং কনফিগার করার প্রক্রিয়া বিস্তারিতভাবে আলোচনা করা হলো।

Hive ইনস্টলেশন এবং সেটআপ: ধাপে ধাপে গাইড


১. প্রয়োজনীয় সফটওয়্যার ইনস্টলেশন

Hive ইনস্টল করতে হলে প্রথমে কিছু নির্দিষ্ট সফটওয়্যার ইনস্টল করতে হবে। এই সফটওয়্যারগুলো হল:

  • Java: Hive Java দিয়ে লেখা, তাই Java ইনস্টল করা আবশ্যক।
  • Hadoop: Hive Hadoop ইকোসিস্টেমের অংশ, তাই Hadoop ইনস্টল করতে হবে।
  • MySQL: Hive সাধারণত মেটাস্টোর হিসেবে MySQL ব্যবহার করে ডেটা সংরক্ষণ করতে।

২. Java ইনস্টলেশন

Java ইনস্টল করতে হলে, নিম্নলিখিত কমান্ড ব্যবহার করতে পারেন:

sudo apt update
sudo apt install openjdk-8-jdk

Java ইনস্টল হয়ে গেলে, এটি নিশ্চিত করতে নিম্নলিখিত কমান্ড চালান:

java -version

৩. Hadoop ইনস্টলেশন

Hadoop ইনস্টল করার জন্য প্রথমে Hadoop-এর সর্বশেষ সংস্করণ ডাউনলোড করতে হবে। নিচের কমান্ডটি ব্যবহার করতে পারেন:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz

এখন Hadoop কনফিগারেশন ফাইল (যেমন core-site.xml, hdfs-site.xml, mapred-site.xml) এডিট করে সঠিক Hadoop কনফিগারেশন সেট করুন।

৪. MySQL ইনস্টলেশন

Hive-এর মেটাস্টোরের জন্য MySQL ডাটাবেস প্রয়োজন। MySQL ইনস্টল করতে নিচের কমান্ড ব্যবহার করুন:

sudo apt update
sudo apt install mysql-server

MySQL সার্ভার চালু করার জন্য:

sudo systemctl start mysql
sudo systemctl enable mysql

এখন Hive-এর মেটাস্টোরের জন্য একটি ডাটাবেস তৈরি করতে হবে। MySQL এ লগ ইন করে:

mysql -u root -p

এরপর Hive-এর মেটাস্টোর ডাটাবেস তৈরি করুন:

CREATE DATABASE hive;

৫. Hive ডাউনলোড এবং ইনস্টলেশন

Hive-এর সর্বশেষ সংস্করণ ডাউনলোড করতে:

wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -xzvf apache-hive-3.1.2-bin.tar.gz

এখন Hive-এর ইনস্টলেশন ডিরেক্টরিতে যান:

cd apache-hive-3.1.2-bin

৬. Hive কনফিগারেশন

Hive কনফিগারেশন ফাইলগুলো সঠিকভাবে সেটআপ করতে হবে।

  • hive-site.xml: এই ফাইলটি Hive কনফিগারেশনের জন্য প্রধান ফাইল। এটি কনফিগার করার জন্য conf/ ফোল্ডারে একটি নতুন hive-site.xml ফাইল তৈরি করুন এবং নিম্নলিখিত কনফিগারেশন যুক্ত করুন:
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>yourpassword</value>
  </property>
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
  </property>
</configuration>

এখানে ConnectionURL, ConnectionUserName, এবং ConnectionPassword আপনার MySQL ডাটাবেসের তথ্য অনুযায়ী পরিবর্তন করুন।

৭. Hive মেটাস্টোর ডাটাবেস ইনিশিয়ালাইজেশন

Hive-এর মেটাস্টোর ডাটাবেস ইনিশিয়ালাইজ করতে:

bin/schematool -initSchema -dbType mysql

৮. Hive চালু করা

এখন Hive চালু করতে:

bin/hive

এটি Hive এর interactive shell খুলবে, যেখানে আপনি HiveQL কুয়েরি চালাতে পারবেন।


উপসংহার


Hive ইনস্টলেশন এবং সেটআপ প্রক্রিয়া কিছুটা সময়সাপেক্ষ হলেও, এটি খুবই সহজ এবং কার্যকরী। Hive-এর মাধ্যমে আপনি Hadoop প্ল্যাটফর্মের উপরে SQL-অনুরূপ কুয়েরি ব্যবহার করে বিশাল ডেটাসেট বিশ্লেষণ করতে পারবেন। Hive এবং Hadoop একত্রে ব্যবহৃত হলে বড় ডেটাসেটকে দ্রুত প্রক্রিয়া করার জন্য অত্যন্ত উপযোগী হয়।

Content added By

Hive Install করার ধাপ (Local এবং Distributed Mode)

327

Apache Hive ইনস্টলেশন দুটি প্রধান মোডে করা যেতে পারে: Local Mode এবং Distributed Mode। Local Mode তে Hive একটি সাধারণ মেশিনে রান করবে, যেখানে Distributed Mode তে Hive Hadoop ক্লাস্টারের সাথে ইন্টিগ্রেট হয়ে কাজ করবে। নিচে এই দুইটি মোডে Hive ইনস্টল করার ধাপ আলোচনা করা হলো।

Local Mode এ Hive ইনস্টল করার ধাপ


Local Mode এ Hive ইনস্টল করার জন্য Hadoop ক্লাস্টারের কোন প্রয়োজন নেই, এবং এটি একটি সাধারন মেশিনে রান করতে সক্ষম। Hive Local Mode এ রান করার জন্য, নিম্নলিখিত পদক্ষেপ অনুসরণ করুন:

ধাপ ১: Java ইনস্টল করুন

Hive Java তে রান করে, তাই প্রথমেই Java ইনস্টল করা প্রয়োজন।

  1. Java ইনস্টল করতে কমান্ড রান করুন:

    sudo apt update
    sudo apt install openjdk-8-jdk
    
  2. Java ইনস্টলেশন চেক করুন:

    java -version
    

ধাপ ২: Hadoop ইনস্টল করুন

Hadoop ইনস্টল করার জন্য প্রথমে Hadoop এর সর্বশেষ সংস্করণ ডাউনলোড এবং ইনস্টল করুন।

  1. Hadoop এর সফটওয়্যার ডাউনলোড করুন:

    wget http://apache.mirror.cdnetworks.com/hadoop/common/hadoop-x.y.z/hadoop-x.y.z.tar.gz
    
  2. ডাউনলোড করা ফাইল আনজিপ করুন:

    tar -xzvf hadoop-x.y.z.tar.gz
    
  3. Hadoop কনফিগারেশন ফাইলটি সেটআপ করুন:
    • hadoop-env.sh ফাইলটি সম্পাদনা করুন এবং JAVA_HOME সেট করুন।

ধাপ ৩: Hive ডাউনলোড এবং ইনস্টল করুন

Hive ইনস্টল করতে, Apache Hive এর সর্বশেষ সংস্করণ ডাউনলোড করুন।

  1. Hive ডাউনলোড করুন:

    wget https://archive.apache.org/dist/hive/x.y.z/apache-hive-x.y.z-bin.tar.gz
    
  2. Hive ইনস্টল করুন:

    tar -xzvf apache-hive-x.y.z-bin.tar.gz
    
  3. Hive কনফিগারেশন ফাইলটি সম্পাদনা করুন:
    • hive-site.xml ফাইল তৈরি করুন এবং যথাযথ কনফিগারেশন করুন।

ধাপ ৪: Hive কনফিগারেশন

Hive কনফিগারেশন ফাইলের মধ্যে নিম্নলিখিত সেটিংস দিন:

  • HADOOP_HOME এবং HIVE_HOME এর পাথ সঠিকভাবে সেট করুন।
  • hive.metastore.uris সেটিংস করা না থাকলে এটি thrift://localhost:9083 এ ডিফল্ট থাকে।

ধাপ ৫: Hive চালু করা

Hive চালু করতে, টার্মিনালে নিচের কমান্ড দিন:

hive

এটি Hive ক্লাইয়েন্ট চালু করবে এবং আপনি HiveQL কুয়েরি লিখতে শুরু করতে পারবেন।


Distributed Mode এ Hive ইনস্টল করার ধাপ


Distributed Mode এ Hive ইনস্টল করতে Hadoop ক্লাস্টারের প্রয়োজন হবে। Hive Hadoop এর HDFS (Hadoop Distributed File System) ব্যবহার করে ডেটা সঞ্চয় এবং প্রসেসিং করে, এবং এটি আরও বড় ডেটাসেটের জন্য উপযুক্ত। Distributed Mode তে Hive ইনস্টল করার জন্য, নিম্নলিখিত ধাপগুলো অনুসরণ করুন:

ধাপ ১: Hadoop ক্লাস্টার সেটআপ করুন

প্রথমে একটি Hadoop ক্লাস্টার তৈরি করতে হবে। এর জন্য:

  1. Hadoop সফটওয়্যার ডাউনলোড এবং ইনস্টল করুন (ধাপ ১ এর মতো)।
  2. Hadoop ক্লাস্টার কনফিগার করুন এবং NameNode এবং DataNode সার্ভারগুলো ঠিকভাবে কনফিগার করুন।

ধাপ ২: Hive ইনস্টল করুন

  1. Hive সফটওয়্যার ডাউনলোড করুন:

    wget https://archive.apache.org/dist/hive/x.y.z/apache-hive-x.y.z-bin.tar.gz
    
  2. Hive ইনস্টল করুন:

    tar -xzvf apache-hive-x.y.z-bin.tar.gz
    

ধাপ ৩: Hive কনফিগারেশন

Hive কে Hadoop এর HDFS এর সাথে সংযুক্ত করতে হবে। এজন্য, নিচের কাজগুলো করুন:

  1. hive-site.xml ফাইল তৈরি করুন (যদি না থাকে) এবং এটি সঠিকভাবে কনফিগার করুন।
    • HDFS এর জন্য HADOOP_HOME সেট করুন।
    • hive.metastore.uris সেটিংস দিয়ে Hive মেটাস্টোর সার্ভার সংযুক্ত করুন।
  2. Hadoop এবং Hive এর পাথ সঠিকভাবে কনফিগার করুন:
    • HADOOP_HOME এবং HIVE_HOME পরিবর্তনশীলগুলো সঠিকভাবে সেট করুন।

ধাপ ৪: Hive মেটাস্টোর কনফিগারেশন

Hive মেটাস্টোর সঠিকভাবে কনফিগার করতে, একটি ডেটাবেস তৈরি করুন এবং Hive মেটাস্টোরে যুক্ত করুন (যেমন MySQL বা PostgreSQL)। Hive কনফিগারেশন ফাইলে মেটাস্টোর ডেটাবেস সেটিংস যোগ করুন।

ধাপ ৫: Hive চালু করা

Hive চালু করতে, টার্মিনালে নিচের কমান্ড দিন:

hive

এটি Hive ক্লাইয়েন্ট চালু করবে, এবং আপনি HiveQL কুয়েরি চালাতে সক্ষম হবেন।


উপসংহার


Hive ইনস্টলেশন দুটি মোডে করা যেতে পারে: Local Mode এবং Distributed Mode। Local Mode একটি সাধারণ মেশিনে রান করে এবং Hadoop ক্লাস্টারের প্রয়োজন হয় না, যেখানে Distributed Mode Hadoop ক্লাস্টারের সাথে ইন্টিগ্রেট হয়ে বড় ডেটাসেটের ওপর কাজ করে। উভয় ক্ষেত্রে যথাযথ কনফিগারেশন এবং ইনস্টলেশন প্রক্রিয়া অনুসরণ করলে Hive সঠিকভাবে কাজ করবে।

Content added By

Hadoop এবং HDFS এর সাথে Hive এর Integration

334

Apache Hive, Hadoop এর উপর নির্মিত একটি ডেটা ওয়্যারহাউজ সিস্টেম যা বড় আকারের ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ করতে সহায়তা করে। Hive মূলত SQL-অনুরূপ কুয়েরি ভাষা HiveQL ব্যবহার করে কাজ করে, এবং এটি Hadoop এবং HDFS (Hadoop Distributed File System) এর সাথে গভীরভাবে সংযুক্ত থাকে। Hive-এর ইন্টিগ্রেশন Hadoop এবং HDFS এর সাথে ডেটা সঞ্চয়, বিশ্লেষণ এবং প্রক্রিয়াকরণকে সহজ করে তোলে।

Hive এবং Hadoop এর মধ্যে Integration


১. Hadoop এর MapReduce ইঞ্জিন ব্যবহার

Hive-এর কুয়েরি প্রক্রিয়াকরণ মূলত Hadoop এর MapReduce ইঞ্জিন ব্যবহার করে। যখন ব্যবহারকারী HiveQL কুয়েরি চালান, Hive সেই কুয়েরিটিকে MapReduce টাস্কে রূপান্তরিত করে এবং Hadoop এর MapReduce প্রক্রিয়াকে কাজে লাগিয়ে ডেটা প্রসেসিং করে। এটি Hive-কে Hadoop এর স্কেলিং ক্ষমতা এবং বিতরণযোগ্য ডেটা প্রক্রিয়াকরণের সুবিধা প্রদান করে।

২. Hive Query Execution Model

Hive-এ ব্যবহারকারীরা SQL-এর মতো কুয়েরি লেখেন, কিন্তু Hive নিজেই সেই কুয়েরিগুলি MapReduce বা Apache Tez ব্যবহার করে কার্যকরী করতে সহায়তা করে। Hive-এর Query Compiler কুয়েরিগুলিকে কম্পাইল করে এবং তাদেরকে একটি MapReduce job হিসেবে প্রক্রিয়া করে। এইভাবে, Hive Hadoop-এর সমন্বয়ে কাজ করে বিশাল পরিমাণ ডেটার উপর কার্যকরী বিশ্লেষণ করতে সক্ষম হয়।

৩. Hadoop-এর স্কেলিং সুবিধা

Hive হাডুপের HDFS (Hadoop Distributed File System) এবং MapReduce প্রক্রিয়া ব্যবহার করে বিশাল পরিমাণ ডেটা সহজেই প্রক্রিয়া করতে পারে। Hive দিয়ে চলা কুয়েরিগুলির মাধ্যমে, ব্যবহারকারীরা Hadoop এর সাপোর্টেড বিশাল স্কেলড ফাইল সিস্টেমে ডেটা পরিচালনা এবং বিশ্লেষণ করতে সক্ষম হন। এর ফলে Hive Hadoop এর শক্তিশালী স্কেলিং ক্ষমতা ও পারফরম্যান্সে কাজ করতে পারে।


Hive এবং HDFS এর মধ্যে Integration


১. ডেটা সঞ্চয় HDFS তে

Hive ব্যবহারকারীরা যে ডেটা সংরক্ষণ করতে চান, তা সাধারণত HDFS এ রাখা হয়। HDFS একটি ডিস্ট্রিবিউটেড ফাইল সিস্টেম যা Hadoop এর স্টোরেজ স্তর হিসেবে কাজ করে। Hive HDFS এর উপর ডেটা সঞ্চয় করে, যেখানে ডেটা পার্টিশন এবং ব্লক হিসেবে বিতরণ করা হয়। এর ফলে Hive-এ বিশাল পরিমাণ ডেটা স্টোর করা যায় এবং প্রসেস করা যায়।

২. পার্টিশনিং এবং ফাইল ফরম্যাট

Hive ব্যবহারকারীরা HDFS তে ডেটা স্টোর করার সময় পার্টিশনিং এবং বিভিন্ন ধরনের ফাইল ফরম্যাট যেমন Parquet, Avro, ORC, এবং CSV ব্যবহার করতে পারেন। Hive সেগুলোর সাথে ইন্টিগ্রেট হয়ে ডেটাকে পার্টিশনভিত্তিক অথবা ফাইল ফরম্যাট অনুসারে প্রক্রিয়া করে।

৩. HDFS তে ডেটা স্টোরেজের সুবিধা

HDFS তে ডেটা সঞ্চয় করার মাধ্যমে Hive ডেটাকে ডিস্ট্রিবিউটেড ফ্যাশনে স্টোর করতে পারে, অর্থাৎ একাধিক নোডে ডেটা ভাগ করা হয়। HDFS-এর এই ক্ষমতা Hive-কে scalable এবং fault-tolerant ডেটা স্টোরেজ সিস্টেম প্রদান করে। HDFS তে স্টোর করা ডেটা উচ্চ ক্ষমতা সম্পন্ন এবং নানান replication ফিচারের মাধ্যমে নিরাপদ থাকে।

৪. দ্রুত কুয়েরি প্রক্রিয়াকরণ

Hive HDFS এর উপর ডেটা প্রসেস করতে যখন MapReduce বা Tez ব্যবহার করে, তখন ডেটা ডিস্ট্রিবিউটেড ফ্যাশনে প্রসেস হয়। এর ফলে ডেটা সমান্তরালভাবে প্রসেস হতে পারে এবং ফলস্বরূপ কুয়েরি প্রক্রিয়াকরণ অনেক দ্রুত হয়ে ওঠে।


Hive এর Hadoop এবং HDFS এর সাথে ইন্টিগ্রেশন এর উপকারিতা


১. বৃহৎ ডেটাসেট প্রসেসিং

Hive Hadoop এবং HDFS এর সমন্বয়ে বিশাল পরিমাণ ডেটা দ্রুত এবং কার্যকরভাবে প্রক্রিয়া করতে সক্ষম হয়। HDFS-এর ডিস্ট্রিবিউটেড স্টোরেজ এবং Hadoop-এর MapReduce বা Tez এর দক্ষতা Hive-কে বড় ডেটাসেটের সাথে কাজ করার জন্য উপযুক্ত করে তোলে।

২. উচ্চ স্কেলেবিলিটি

Hadoop এবং HDFS এর স্কেলিং ক্ষমতা Hive-কে অত্যন্ত স্কেলেবল করে তোলে, যেহেতু ডেটা সঞ্চয় ও প্রক্রিয়াকরণ উভয়ই ডিস্ট্রিবিউটেড প্ল্যাটফর্মে পরিচালিত হয়। Hive-এর মাধ্যমে ডেটাকে হালকা, দ্রুত এবং স্কেলযোগ্যভাবে প্রক্রিয়া করা যায়।

৩. পারফরম্যান্স উন্নতি

HDFS এবং Hadoop এর ক্ষমতা ব্যবহার করে Hive কুয়েরি প্রক্রিয়াকরণে পারফরম্যান্স অপ্টিমাইজেশন নিশ্চিত করতে পারে। HDFS-এর পার্টিশনিং এবং কুয়েরি অপ্টিমাইজেশন সিস্টেম Hive-এর কর্মক্ষমতা বাড়াতে সহায়তা করে।

৪. ডেটার নিরাপত্তা এবং রিলায়েবিলিটি

HDFS ডেটার replication ফিচার ব্যবহার করে, Hive তে রাখা ডেটা নিরাপদ এবং দৃঢ় থাকে। এর ফলে ডেটা হারানোর ঝুঁকি কমে যায় এবং ডেটা ফাইলগুলো একাধিক নোডে রিপ্লিকেটেড থাকে।


উপসংহার


Hive Hadoop এবং HDFS এর সাথে গভীরভাবে ইন্টিগ্রেটেড। Hive এর কুয়েরি প্রক্রিয়াকরণ Hadoop এর MapReduce বা Tez ব্যবহার করে ডেটা বিশ্লেষণ সম্পাদন করে এবং HDFS এর ওপর ডেটা সঞ্চয় করা হয়। Hive এই শক্তিশালী প্ল্যাটফর্মগুলো ব্যবহার করে বিশাল ডেটাসেট দ্রুত এবং কার্যকরভাবে প্রক্রিয়া করে, যা এটিকে বড় ডেটা বিশ্লেষণের জন্য একটি অত্যন্ত কার্যকরী টুলে পরিণত করেছে।

Content added By

Hive Configuration ফাইল (hive-site.xml)

390

Hive-এর কনফিগারেশন ফাইল, hive-site.xml, Hive-এর কার্যকারিতা কাস্টমাইজ করতে ব্যবহৃত হয়। এই ফাইলটি Hive এর বিভিন্ন সেটিংস এবং অপশন কনফিগার করতে সাহায্য করে, যেমন ডেটাবেস কনফিগারেশন, কুয়েরি অপ্টিমাইজেশন, এবং অন্যান্য কার্যকরী সেটিংস।

hive-site.xml ফাইলের ভূমিকা


hive-site.xml হল Hive কনফিগারেশনের প্রধান ফাইল, যেখানে বিভিন্ন প্রপার্টি এবং সেটিংস সংরক্ষিত থাকে। এটি Hive-এর হোস্টিং পরিবেশ এবং ডেটাবেস সংযোগের জন্য গুরুত্বপূর্ণ কনফিগারেশন প্রদান করে, যা Hive-এর কুয়েরি প্রসেসিং এবং ডেটা ম্যানেজমেন্টকে প্রভাবিত করে।

এই কনফিগারেশন ফাইলটি Hadoop এবং Hive ইনস্টলেশনের মধ্যে সম্পর্ক স্থাপন করে এবং Hive এর বিভিন্ন কার্যক্ষমতা নিয়ন্ত্রণ করতে সাহায্য করে।

hive-site.xml ফাইলের মূল কনফিগারেশন সেটিংস


১. JDBC URL সেটিংস

Hive-এ বিভিন্ন ডেটাবেসের সাথে সংযোগ স্থাপনের জন্য JDBC URL কনফিগারেশন ব্যবহার করা হয়। এই সেটিংসটি Hive কে ডেটাবেসের সাথে সংযুক্ত করার জন্য প্রয়োজনীয় তথ্য সরবরাহ করে।

<property>
    <name>hive.metastore.jdbc.url</name>
    <value>jdbc:mysql://localhost:3306/hivemetastore</value>
    <description>The JDBC URL for the Hive Metastore database</description>
</property>

২. মেটাস্টোর হোস্ট সেটিংস

মেটাস্টোর হোস্টিং সিস্টেমের জন্য প্রয়োজনীয় কনফিগারেশন। এটি Hive মেটাস্টোর সার্ভারটির ঠিকানা এবং পোর্ট নির্ধারণ করে।

<property>
    <name>hive.metastore.uris</name>
    <value>thrift://localhost:9083</value>
    <description>The URI of the Hive Metastore</description>
</property>

৩. ডেটা প্রসেসিং প্রপার্টি

এটি Hive-এ ডেটা প্রসেসিংয়ের জন্য বিভিন্ন গুরুত্বপূর্ণ কনফিগারেশন ধারণ করে, যেমন MapReduce বা Tez ইঞ্জিনের জন্য কনফিগারেশন।

<property>
    <name>hive.execution.engine</name>
    <value>mr</value>
    <description>The execution engine to be used by Hive (mr for MapReduce, tez for Tez)</description>
</property>

৪. পার্টিশনিং এবং কুয়েরি অপ্টিমাইজেশন

Hive ডেটার পার্টিশনিং এবং কুয়েরি অপ্টিমাইজেশনের জন্য কিছু প্রপার্টি প্রদান করে। এটি কুয়েরি পারফরম্যান্স উন্নত করতে সহায়তা করে।

<property>
    <name>hive.optimize.sort.dynamic.partition</name>
    <value>true</value>
    <description>Enable dynamic partition pruning</description>
</property>

৫. লগিং কনফিগারেশন

Hive লগিংয়ের জন্য Log4j কনফিগারেশন ব্যবহার করে। এটি Hive এর কার্যক্রম এবং ত্রুটির লগ সিস্টেম সেট আপ করতে সহায়তা করে।

<property>
    <name>hive.root.logger</name>
    <value>INFO, console</value>
    <description>Set the logging level and output</description>
</property>

৬. মেমরি কনফিগারেশন

Hive কনফিগারেশন ফাইলের মাধ্যমে ব্যবহারকারী তাদের সিস্টেমের জন্য মেমরি সীমা নির্ধারণ করতে পারেন।

<property>
    <name>hive.tez.container.max.java.heap.fraction</name>
    <value>0.8</value>
    <description>The maximum Java heap size fraction for a Tez container</description>
</property>

hive-site.xml ফাইলের সাধারণ কাঠামো


Hive কনফিগারেশন ফাইলটি XML ফরম্যাটে লেখা হয় এবং এতে এক বা একাধিক প্রপার্টি ট্যাগ থাকে। প্রতিটি প্রপার্টি ট্যাগে একটি name এবং value থাকে যা নির্দিষ্ট সেটিংস বা কনফিগারেশন নির্দেশ করে।

এখানে একটি উদাহরণ দেওয়া হলো:

<?xml version="1.0" encoding="UTF-8"?>
<configuration>

    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://localhost:9083</value>
        <description>URI for Hive Metastore</description>
    </property>

    <property>
        <name>hive.execution.engine</name>
        <value>tez</value>
        <description>Execution engine to be used by Hive</description>
    </property>

    <property>
        <name>hive.metastore.jdbc.url</name>
        <value>jdbc:mysql://localhost:3306/hivemetastore</value>
        <description>JDBC URL for the Hive Metastore</description>
    </property>

    <property>
        <name>hive.optimize.sort.dynamic.partition</name>
        <value>true</value>
        <description>Enable dynamic partitioning optimization</description>
    </property>

</configuration>

উপসংহার


hive-site.xml হল Hive কনফিগারেশনের মূল ফাইল, যেখানে বিভিন্ন ধরনের সেটিংস এবং অপশন সংরক্ষিত থাকে যা Hive এর কার্যকারিতা কাস্টমাইজ করতে সাহায্য করে। এই ফাইলের মাধ্যমে আপনি Hive এর ডেটাবেস কনফিগারেশন, এক্সিকিউশন ইঞ্জিন, পার্টিশনিং অপ্টিমাইজেশন, এবং অন্যান্য সিস্টেম সেটিংস কনফিগার করতে পারেন। Hive কনফিগারেশন ফাইলটি সঠিকভাবে সেট আপ করলে, এটি আপনার ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ কার্যক্রমের গতি এবং কার্যকারিতা বৃদ্ধির জন্য অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Hive CLI এবং Beeline এর ব্যবহার

426

Hive ব্যবহার করার জন্য দুটি প্রধান ইন্টারফেস রয়েছে: Hive CLI এবং Beeline। এই দুটি ইন্টারফেসই Hive এর সঙ্গে যোগাযোগ করতে এবং HiveQL কুয়েরি চালাতে সাহায্য করে, তবে তাদের মধ্যে কিছু পার্থক্য রয়েছে। Hive CLI এবং Beeline-এর ব্যবহার এবং পার্থক্য বোঝা গুরুত্বপূর্ণ।

Hive CLI (Command Line Interface)


Hive CLI একটি কমান্ড লাইন ইন্টারফেস যা Hive ব্যবহারকারীদের HiveQL কুয়েরি চালানোর জন্য সরাসরি ব্যবহৃত হয়। এটি Hadoop ক্লাস্টারে Hive কনফিগারেশনের মধ্যে যোগাযোগ স্থাপন করে এবং ব্যবহারকারীদের SQL-এর মতো কুয়েরি কার্যকর করতে সহায়তা করে।

Hive CLI এর বৈশিষ্ট্য

  • ডিরেক্ট কমান্ড লাইন এক্সিকিউশন: Hive CLI ব্যবহারকারীকে কমান্ড লাইন থেকে HiveQL কুয়েরি চালানোর সুবিধা দেয়।
  • কম্পিউটিং ক্লাস্টারে হোস্টেড: এটি Hadoop ক্লাস্টারের মধ্যে কাজ করে এবং ডেটা প্রসেসিং প্রক্রিয়া সরাসরি চালায়।
  • হাইভ সেটিংস কনফিগারেশন: Hive CLI ব্যবহারকারীদের Hive এর বিভিন্ন কনফিগারেশন সেটিংস অ্যাডজাস্ট করার সুযোগ দেয়।
  • SQL-অনুরূপ কুয়েরি ভাষা: HiveCLI SQL-এর মতো কুয়েরি ভাষা ব্যবহার করে, তবে এটি Hadoop-এর MapReduce ব্যবহার করে ডেটা প্রসেসিং করে।

Hive CLI ব্যবহার:

Hive CLI ব্যবহার করার জন্য, প্রথমে Hive ইনস্টল করতে হয় এবং এরপর hive কমান্ড ব্যবহার করে Hive ক্লায়েন্টে লগইন করতে হয়:

hive

এখানে hive কমান্ডটি Hive CLI চালু করে এবং Hive prompt এ চলে আসে, যেখানে HiveQL কুয়েরি লিখে ডেটা বিশ্লেষণ করা যায়।

Hive CLI এর সীমাবদ্ধতা:

  • ডিপ্রিকেটেড: Hive CLI বর্তমানে আধুনিক Hive ইন্টারফেসের তুলনায় কম ব্যবহৃত হচ্ছে এবং এতে কিছু সীমাবদ্ধতা রয়েছে।
  • মনে রাখা সহজ নয়: এটি বড় এবং জটিল ক্লাস্টার ব্যবস্থায় অনেক বেশি কনফিগারেশন এবং সেটিংস ম্যানেজ করতে হতে পারে।

Beeline


Beeline Hive এর জন্য একটি উন্নত কমান্ড লাইন ইন্টারফেস। এটি HiveServer2 ব্যবহার করে Hive-এ সংযোগ স্থাপন করতে এবং HiveQL কুয়েরি পরিচালনা করতে ব্যবহৃত হয়। Beeline একটি JDBC ক্লায়েন্ট এবং এটি HiveServer2-এর মাধ্যমে ডেটাবেসের সাথে সংযুক্ত হয়।

Beeline এর বৈশিষ্ট্য

  • JDBC ভিত্তিক: Beeline HiveServer2 এর মাধ্যমে Hive ডাটাবেসের সাথে সংযুক্ত হয়ে কুয়েরি চালাতে সাহায্য করে, যা Hive-এর ক্লাস্টার পরিবেশে আরও কার্যকরী হয়।
  • ব্যবহারযোগ্যতা: Beeline ব্যবহারকারীকে সহজেই বিভিন্ন সার্ভারে এবং নেটওয়ার্কের মধ্যে HiveServer2-এর মাধ্যমে Hive ক্লাস্টারের সাথে সংযুক্ত হতে সহায়তা করে।
  • প্রশস্ত ইন্টিগ্রেশন: Beeline অন্যান্য JDBC ক্লায়েন্টের মতো হাইভ কনফিগারেশন সেটিংস ও ডেটা সোর্সগুলোর সাথে ইন্টিগ্রেট হতে পারে।
  • সুরক্ষা সমর্থন: Beeline HiveServer2 এর মাধ্যমে সংযোগ স্থাপন করার ফলে বিভিন্ন সুরক্ষা বৈশিষ্ট্য যেমন SSL, Kerberos Authentication, এবং অন্যান্য সিকিউরিটি প্রোটোকল ব্যবহার করা যায়।

Beeline ব্যবহার:

Beeline ব্যবহার করতে হলে beeline কমান্ড ব্যবহার করতে হয়:

beeline -u jdbc:hive2://<hive-server>:<port>

এখানে, <hive-server> এবং <port> দিয়ে HiveServer2 এর অ্যাড্রেস এবং পোর্ট সুনির্দিষ্ট করতে হয়। এটি Beeline ক্লায়েন্টে লগইন করে এবং HiveQL কুয়েরি চালানো সম্ভব হয়।

Beeline এর সুবিধা:

  • নিরাপত্তা ও স্কেলেবিলিটি: Beeline HiveServer2 ব্যবহার করে সুরক্ষিত সংযোগ তৈরি করতে সক্ষম এবং এটি স্কেলেবল ব্যবহারের জন্য উপযোগী।
  • ডিস্ট্রিবিউটেড পরিবেশে উপযুক্ত: Beeline বড় ডিস্ট্রিবিউটেড ক্লাস্টার এবং বহুসংখ্যক হোস্টের মধ্যে কার্যকরীভাবে কাজ করতে পারে।
  • নতুন ক্লায়েন্ট হিসেবে পরিচিতি: Beeline Hive CLI এর তুলনায় উন্নত এবং সমসাময়িক ক্লায়েন্ট হিসেবে পরিচিতি লাভ করেছে।

Hive CLI এবং Beeline এর মধ্যে পার্থক্য


বৈশিষ্ট্যHive CLIBeeline
সংযোগ পদ্ধতিHiveServer1 ব্যবহার করে।HiveServer2 ব্যবহার করে।
সুরক্ষা সমর্থনসীমিত সুরক্ষা সমর্থন (Kerberos ও SSL নেই)।উন্নত সুরক্ষা সমর্থন (Kerberos, SSL)।
পারফরম্যান্সসাধারণত কম পারফরম্যান্স।উন্নত পারফরম্যান্স এবং স্কেলেবিলিটি।
ইন্টারফেসসরল, তবে কিছুটা পুরানো এবং সীমাবদ্ধ।আধুনিক এবং আরও কার্যকরী।
উপযুক্ততাছোট স্কেল ক্লাস্টারের জন্য।বড় স্কেল ক্লাস্টার এবং ডিস্ট্রিবিউটেড পরিবেশে উপযুক্ত।
ডিপ্রিকেটেডহ্যাঁ, বর্তমানে ডিপ্রিকেটেড।না, এটি আধুনিক এবং সমর্থিত।

উপসংহার


Hive CLI এবং Beeline দুটি আলাদা কমান্ড লাইন ইন্টারফেস, তবে তাদের মধ্যে কিছু মূল পার্থক্য রয়েছে। Hive CLI পুরনো এবং সীমিত কিছু ফিচার সরবরাহ করে, তবে Beeline আধুনিক এবং সুরক্ষিত ক্লাস্টার ব্যবস্থায় আরও কার্যকরী। HiveServer2 এর মাধ্যমে Beeline উন্নত পারফরম্যান্স এবং স্কেলেবিলিটি প্রদান করে, বিশেষত বড় ডিস্ট্রিবিউটেড পরিবেশে। যদিও Hive CLI এখনও কিছু ক্ষেত্রে ব্যবহৃত হয়, তবে Beeline অধিকাংশ ব্যবহারকারীর জন্য উন্নত সমাধান হিসেবে বিবেচিত।

Content added By
Promotion

Are you sure to start over?

Loading...