批量部署Hadoop集群环境（1）

xiaoxiao2025-10-09 42

批量部署Hadoop集群环境（1）

1. 项目简介：

前言：云火的一塌糊涂，加上自大二就跟随一位教授做大数据项目，所以很早就产生了兴趣，随着知识的积累，虚拟机已经不能满足了，这次在服务器上以生产环境来部署Hadoop。已经搭建完毕，分享出来供大家参考。问题：看到Hadoop部署在一些资料上很是繁琐，一些简单的部署方法只是玩具，无法满足企业的部署条件，如果一台台服务器去部署，显然是不可行。解决：在学习及其他资料后，准备以《Apache Hadoop Yarn: Moving Beyond Mapreduce and Batch Processing with Apache Hadoop 2》为依据，其他资料辅助。注意：《Apache Hadoop Yarn: Moving Beyond Mapreduce and Batch Processing with Apache Hadoop 2》这本书有一处错误。 P53 原版“nm_host” 应改正为“nn_host”这么小的错误，影响是巨大的，我也是在实践本书内容时候，发现的错误，它会导致namenode不存在，而影响服务器节点无法启动。

2. 项目环境

阿里云服务器ESC (4台)Centos 7Hadoop-YARN(2.7.1)java version “1.8.0_72”pdsh version “2.31”（批处理主要工具）Xmanager Enterprise 5（使用xshell来连接服务器）

3. 服务器分配情况

集群节点名字对应字段主机编号主机内网IPhostnameHDFS NameNodenn_host0010.251.20.244iZ28z9sbsgjZYARN ResourceManagerrm_host0010.251.20.244iZ28z9sbsgjZHDFS SecondaryNameNodesnn_host0110.45.202.245iZ28fm2wvrwZMapReducemr_history_host0210.144.27.164iZ28n1kabs3ZYARN网页代理服务器yarn_proxy_host0310.163.97.250iZ28bwz7umxZYARN NodeManagernm_hosts01、02、0310.45.202.245 10.144.27.164 10.163.97.250iZ28fm2wvrwZ iZ28n1kabs3Z iZ28bwz7umxZHDFS DataNodedn_hosts01、02、0310.45.202.245 10.144.27.164 10.163.97.250iZ28fm2wvrwZ iZ28n1kabs3Z iZ28bwz7umxZ

4. 项目目标

实现批量部署Hadoop集群环境

5. 项目目录

批量部署Hadoop集群环境，ESC服务器提前要准备的工作 —— 批量部署Hadoop集群环境（1）批量部署Hadoop集群环境，搭建Hadoop环境 —— 批量部署Hadoop集群环境（2）批量部署Hadoop集群环境，测试用例 —— 批量部署Hadoop集群环境（3）

6. 一键批量部署Hadoop环境，ESC服务器提前要准备的工作

7. 实现多台ESC内网连接

送上官方教程，图文声茂阿里云机房内网情况简介通过安全组实现不同账号下相同地域ECS内网互通

8. 实现无密匙登录

有点小繁琐，但是原理很简单： 8.1每台机器需要生成密匙生成密匙对

ssh-keygen -t rsa

8.2复制密匙到远程机器（固定机器/本机）

ssh-copy-id -i ~/.ssh/id_rsa.pub 10.x.x.x 解析： ssh-keygen -t rsa 中，-t是type，模式是rsa ssh-copy-id -i ~/.ssh/id_rsa.pub 10.x.x.x 中，将本机id_rsa.pub复制到远程机器（如内网IP为10.x.x.x，替换为自己的一台固定服务器，这样，依次弄完后，这台“固定机器上边就有了所有机器的密匙”）

9. 修改host

目的是为了使用hostname可以ping通。写入内网IP和hostname

vim /etc/hosts 10.251.20.244 iZ28z9sbsgjZ 10.45.202.245 iZ28fm2wvrwZ 10.144.27.164 iZ28n1kabs3Z 10.163.97.250 iZ28bwz7umxZ

10. 实现pdsh访问

这次是以“固定机器”依次访问其他服务器（包括自己），如访问自己

ssh iZ28z9sbsgjZ

访问完毕后，此时在~/.ssh生成known_hosts就包含了所有服务器

[root@iZ28z9sbsgjZ ~]# cd ~/.ssh [root@iZ28z9sbsgjZ .ssh]# ls authorized_keys id_rsa id_rsa.pub known_hosts

11. 开始批处理作业，以后的所有步骤很依赖pdsh，只要是批处理！

在opt文件下做如下操作（opt文件夹或者别的，建议默认，整篇教程都是这个路径） 11.1 创建all_hosts

cd /opt vim all_hosts #写入自己服务器hostname如： iZ28bwz7umxZ iZ28fm2wvrwZ iZ28n1kabs3Z iZ28z9sbsgjZ

11.2 批量复制固定机器（本机）的authorized_keys 和 known_hosts，到全部集群

pdcp -w ^all_hosts ~/.ssh/authorized_keys ~/.ssh/ pdcp -w ^all_hosts ~/.ssh/known_hosts ~/.ssh/

12. 准备完毕，进入下一步批量部署Hadoop集群环境（2）

最新回复(0)

批量部署Hadoop集群环境（1）