部署Hadoop集群需要进行一定流程,具体如下!
环境准备集群规划。定集群中的每台机器的角色和网络配置。通常需要三台机器起,分别作为NameNode、DataNode和ResourceManager等。软件要求:用CentOS 7或Ubuntu 20.04,Java JDK需要8或更高版本。
安装Java JDK。所有节点上安装Java JDK:
sudo apt-get update # Ubuntusudo apt-get install openjdk-8-jdk -y# 或者在CentOS上sudo yum install java-1.8.0-openjdk-devel -y
验证Java安装:
java -version
配置SSH免密登录,在master节点上生成SSH密钥对,并复制到所有节点:
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2
测试免密登录是否成功。
下载并安装Hadoop。在所有节点上下载Hadoop安装包,并解压:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gztar -xzvf hadoop-3.3.6.tar.gz --no-check-certificatesudo mv hadoop-3.3.6 /usr/local/hadoop
配置环境变量,在每个节点的 ~/.rc 文件中添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 根据实际路径调整export HADOOP_HOME=/usr/local/hadoopexport HADOOP_INSTALL=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport HADOOP_YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
执行以下命令使配置生效:
source ~/.rc
5. 修改Hadoop配置文件
在master节点上修改配置文件,然后将修改后的配置文件分发到所有节点。
core-site.xml:
xml
<configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value><description>A base for other temporary directories.</description></property></configuration>
hdfs-site.xml:
xml
<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value></property></configuration>
yarn-site.xml:
xml
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value></property></configuration>
mapred-site.xml:
xml
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>
slaves:
master
slave1
slave2
6. 格式化NameNode
在master节点上执行格式化操作:
hdfs namenode -format
启动集群。在master节点上启动Hadoop集群:
start-dfs.sh
start-yarn.sh
或者使用:
start-all.sh
停止集群:
stop-dfs.sh
stop-yarn.sh
stop-all.sh
以上是华纳云总结相关步骤提供了从零开始部署Hadoop集群的详细流程,包含代码示例。根据实际环境和需求,可能需要对配置文件进行适当调整。