大数据底层生态之Hadoop

xiaoxiao2023-10-29 156

大数据底层生态Hadoop

大数据工具Hadoop服务器下Java环境的配置1.下载JDK82.解压安装jdk3.java配置环境变量4.启动验证服务器下的Hadoop使用1.下载Hadoop2.解压hadoop到root目录下 3.配置hadoop环境变量4.配置hadoop伪分布式,修改以下5个配置文件5.格式化6.启动 hadoop运行自带wordcount启动hadoop创建目录结构创建相关文件将本地文件上传到HDFS运行wordcount结果数据示例如下：

大数据工具Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架，是一个能够让用户轻松架构和使用的分布式计算平台。用户可轻松地在Hadoop上开发和运行处理海量数据的应用程序。

服务器下Java环境的配置

1.下载JDK8

通过下面链接，到oracle官网 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

找到下滑到如下页面

官网上提供了几种Linux下的安装包，在选择之前需要根据Linux的服务版本的不同，选择不同的方式，x86是安装在32位系统上的版本，而x64是安装在64位系统上的版本

2.解压安装jdk

cd /usr mkdir java

将jdk-8u211-linux-x64.tar.gz拷贝到java目录下

cp /root/jdk-8u211-linux-x64.tar.gz /usr/java/

ps: /root/jdk-8u60-linux-x64.tar.gz 路径为你将jdk上传的实际路径

使用如下命令将jdk解压到当前目录

tar -zxvf jdk-8u211-linux-x64.tar.gz

3.java配置环境变量

首先编辑/etc/profile，配置全局环境变量

vim /etc/profile export JAVA_HOME=/usr/java/jdk1.8.0_211 export JRE_HOME=/usr/java/jdk1.8.0_211/jre export CLASSPATH=.:\$JAVA_HOME/lib/tools.jar:\$JAVA_HOME/lib/dt.jar:\$JRE_HOME/lib:\$CLASSPATH

4.启动验证

使用如下命令，查看Java环境配置情况

java -version

出现如下提示，表明java环境配置成功

java version "1.8.0_211-ea" Java(TM) SE Runtime Environment (build 1.8.0_211-ea-b03) Java HotSpot(TM) 64-Bit Server VM (build 25.211-b03, mixed mode)

服务器下的Hadoop使用

1.下载Hadoop

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

得到如下的Hadoop压缩包

2.解压hadoop到root目录下

tar -zxvf hadoop-2.7.7.tar.gz /root

3.配置hadoop环境变量

vi /etc/profile文件末尾添加： export HADOOP_HOME=/root/hadoop-2.7.7 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH Esc :wq!保存并退出。

4.配置hadoop伪分布式,修改以下5个配置文件

在<configuration>与</configuration>之间添加如下property： ①core-site.xml  <property> <name>fs.defaultFS</name> <value>hdfs://izwz97mvztltnke7bj93idz:9000</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop-2.7.7/tmp</value> </property> ②hdfs-site.xml  <property> <name>dfs.replication</name> <value>1</value> </property>  <property> <name>dfs.namenode.secondary.http-address</name> <value>izwz97mvztltnke7bj93idz:50090</value> </property> ③mapred-site.xml(该配置文件不存在，先复制) cp mapred-site.xml.template mapred-site.xml  <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> ④yarn-site.xml  <property> <name>yarn.resourcemanager.hostname</name> <value>izwz97mvztltnke7bj93idz</value> </property>  <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>

5.格式化

hdfs namenode -format （如果不是第一次格式化，格式化之前先删除/root/hadoop-2.7.7/下面的tmp、logs两个目录）

6.启动

start-all.sh （如果启动之前已经启动过，启动之前先停止stop-all.sh）查看伪分布式配置是否成功：

[root@izwz97mvztltnke7bj93idz ~]# jps 907 ResourceManager 1112 NodeManager 4240 Jps 2704 NameNode 725 SecondaryNameNode 552 DataNode

NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager如果全部启动，伪分布式配置成功

hadoop运行自带wordcount

启动hadoop

start-all.sh

创建目录结构

hadoop fs -mkdir -p /data/wordcount hadoop fs -mkdir -p /output/

创建相关文件

vi /root/inputWord

将本地文件上传到HDFS

hadoop fs -put /usr/inputWord /data/wordcount/

运行wordcount

hadoop jar /root/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/wordcount /output/wordcount

结果数据示例如下：

[root@izwz97mvztltnke7bj93idz ~] hadoop fs -text /output/wordcount/part-r-00000 aboutyun 2 first 1 hello 3

注:所有工作均在阿里云Centos下完成，hostname为阿里云本机主机名

最新回复(0)