本教程將向您展示如何在 Apache CentOS 7 上安裝 Hadoop。對於那些不知道的人,Apache Hadoop 是一個用 Java 編寫的開源軟件框架,用於分佈式存儲和分佈式進程,通過將它們分佈在計算機集群中來處理非常大的數據集……這些庫本身旨在檢測和處理應用層的故障,而不是依賴硬件來提供高可用性,因此每個庫都在易受攻擊的計算機集群上提供高可用性服務。

本文假設您至少具有 Linux 的基本知識,知道如何使用 shell,最重要的是,將您的網站託管在您的 VPS 上。安裝非常簡單。 我們將引導您在 Apache CentOS 7 上安裝 Hadoop。

先決條件

  • 運行以下操作系統之一的服務器:CentOS7。
  • 我們建議您使用新的操作系統安裝來防止潛在的問題。
  • SSH 訪問服務器(如果您使用的是桌面,則打開終端)。
  • 一種 non-root sudo user或訪問 root user..建議充當 non-root sudo user但是,如果您在以 root 身份操作時不小心,可能會損壞您的系統。

在 Apache CentOS 7 上安裝 Hadoop

步驟 1. 安裝 Java。

Hadoop 是基於 Java 的,因此請確保您的系統上安裝了 Java JDK。如果您的系統上沒有安裝 Java,請首先使用下面的鏈接進行安裝。

  • 在 CentOS7 上安裝 Java JDK 8
[email protected] ~# java -version
java version "1.8.0_45"
Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

步驟 2. 安裝 Apache Hadoop。

我們建議您創建一個普通用戶來配置 apache Hadoop。使用以下命令創建用戶:

useradd hadoop
passwd hadoop

創建用戶後,您還需要為您的帳戶設置基於密鑰的 ssh。為此,請運行以下命令:

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

下載 Apache Hadoop 的最新穩定版本。在撰寫本文時,這是 2.7.0 版。

wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar xzf hadoop-2.7.0.tar.gz
mv hadoop-2.7.0 hadoop

步驟 3. 配置 Apache Hadoop。

設置 Hadoop 使用的環境變量。 編輯~/.bashrc文件,在文件末尾添加以下值。

 HADOOP_HOME=/home/hadoop/hadoop
 HADOOP_INSTALL=$HADOOP_HOME
 HADOOP_MAPRED_HOME=$HADOOP_HOME
 HADOOP_COMMON_HOME=$HADOOP_HOME
 HADOOP_HDFS_HOME=$HADOOP_HOME
 YARN_HOME=$HADOOP_HOME
 HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
 PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

將環境變量應用於當前正在運行的會話。

source ~/.bashrc

立即編輯 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 創建一個文件並設置 JAVA_HOME 環境變量。

 JAVA_HOME=/usr/jdk1.8.0_45/

Hadoop有很多配置文件,需要根據Hadoop基礎架構的需求進行配置。讓我們從配置一個基本的 Hadoop 單節點集群設置開始。

cd $HADOOP_HOME/etc/hadoop

編輯 core-site.xml

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

編輯 hdfs-site.xml

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

編輯 mapred-site.xml

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

編輯 yarn-site.xml

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

然後使用以下命令格式化名稱節點:不要忘記檢查存儲目錄。

hdfs namenode -format

使用以下命令啟動所有 Hadoop 服務:

cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh

使用’查看是否所有服務啟動成功jps‘ 命令:

jps

步驟 4. 訪問 Apache Hadoop。

默認情況下,Apache Hadoop 在 HTTP 端口 8088 和端口 50070 上可用。打開您喜歡的瀏覽器並轉到 https://your-domain.com:50070https://server-ip:50070..如果您使用防火牆,請打開端口 8088 和 50070 以啟用對控制面板的訪問。

然後訪問端口 8088 以獲取有關集群和所有應用程序的信息。

Apache-Hadoop-集群信息

恭喜! Apache Hadoop 現在已成功安裝。感謝您使用本教程在您的 Apache CentOS 7 系統上安裝 Hadoop。我們鼓勵您查看更多幫助和有用信息。 Apache Hadoop官網..