Windows 10 机器一台 Putty 64-bit(含 SSH、FTP 工具) 云服务器(三个节点)
主机名 与 IP 映射如下
master.novalocal 192.168.72.126 slave1.novalocal 192.168.72.127 slave2.novalocal 192.168.72.128分布式 Hadoop、单节点 Hive
注: 注释中含'(必备)'的为构建环境必须的压缩包,不含必备的可自行选择
# Hadoop 安装包(必备) hadoop-2.7.4.tar.gz # Hive 安装包(必备) apache-hive-2.1.1-bin.tar.gz # mysql 安装包(必备) mysql57-community-release-el7-8.noarch.rpm # mysql JDBC(必备) mysql-connector-java-5.0.4-bin.jar # JDK(必备) jdk-8u151-linux-x64.tar.gz # 阿里云开源镜像 Centos-7.repo # yum 加速 axel-2.4.tar.gz # 配置 yum 加速需要的文件 axelget.conf # 配置 yum 加速需要的文件 axelget.py注:从步骤 5 开始到 6.4 之前只在 master 节点执行
通过 Putty 下的 FTP 工具传输安装包列表中的所有安装包到 master 服务器中 放一张导入所有安装包后的图
参考文章:Linux 软件下载速度优化
将 IP 与 主机名映射配置好
# 主机名 与 IP 映射配置文件 vi /etc/hosts配置结果如下所示
参考文章:Linux 常用软件管理
注:修改密码时注意对应 MySQL 版本对应的密码安全检查插件
参考文章:Tips —— MySQL
Hadoop 配置文件目录:HADOOP_DIR/etc/hadoop/ core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://master.novalocal:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop-2.7.4/tmp</value> </property> </configuration>hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop-2.7.4/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop-2.7.4/tmp/dfs/data</value> </property> </configuration>yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master.novalocal:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master.novalocal:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master.novalocal:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master.novalocal:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master.novalocal:8088</value> </property> </configuration>mapred-ste.xml
# 生成该配置文件 cp mapred-site.xml.template mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master.novalocal:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master.novalocal:19888</value> </property> </configuration>slaves
slave1.novalocal slave2.novalocalhadoop-env.sh
# 在该文件中加入如下内容 export JAVA_HOME=/usr/local/jdk1.8.0_151需要同步的文件共有下列文件:
/etc/hosts/etc/profile/usr/local/jdk1.8.0_151/usr/local/hadoop-2.7.4 # 在 master 节点执行如下命令 # 拷贝 主机名 IP 映射文件 scp /etc/hosts root@slave1.novalocal:/etc/ scp /etc/hosts root@slave2.novalocal:/etc/ # 拷贝环境变量配置文件 scp /etc/profile root@slave1.novalocal:/etc/ scp /etc/profile root@slave2.novalocal:/etc/ # 拷贝 JDK scp -r /usr/local/jdk1.8.0_151/ root@slave1.novalocal:/usr/local/ scp -r /usr/local/jdk1.8.0_151/ root@slave2.novalocal:/usr/local/ # 拷贝 Hadoop scp -r /usr/local/hadoop-2.7.4/ root@slave1.novalocal:/usr/local/ scp -r /usr/local/hadoop-2.7.4/ root@slave2.novalocal:/usr/local/ # 在两个 slave 节点上执行如下命令 source /etc/profilemaster slave1 slave2 打开网页访问 http://192.168.72.126:50070 DataNode 存活数量与实际情况一致, Hadoop 集群构建结束
参考文章:基于 Centos 7 伪分布式大数据环境构建
Hadoop安装教程_单机/伪分布式配置 完全分布式安装