实验目的: 搭建MapReduce编程模型 配置Eclipse和Maven Hadoop集群与启动顺序 MapReduce的WordCount应用 书上代码练习 学习编写一个MapReduce程序
实验要求: 学会使用Maven创建一个工程项目 配置好运行环境与运行条件 结合上课课件自己输WordCount程序代码 运行并得出结果 在Hadoop集群中提取运行 还原课本案例 完成排序与二次排序的操作
实验环境: 一台独立PC机或虚拟机 已安装JDK 已完成Hadoop平台的搭建 已完成Eclipse安装成功 已完成Maven
一、搭建mapreduce编程模型 1、新建mapreduce工程项目
2、配置pom.xml依赖文件 3、导入hadoop配置文件 4、启动Hadoop集群 5、查看节点状态 6、新建WordCountApp.java 7、新建SortApp.java 8、新建IntPair.java 9、新建SecondrySort.java 10、使用mvn clean package -DskipTests打包成hadoop-1.0-SNAPSHOT.jar 11、查看打包是否成功 12、将jar包上传/home/admin/hadoop-2.7.3/share/hadoop/mapreduce/下 二、MapReduce词频统计编程实例 1、将测试数据上传到HDFS目录中。
2、提交MapReduce作业到集群运行 3、查看作业输出结果。 三、使用MapReduce实现排序 1、将测试测试数据上传到HDFS目录中。 Hadoop fs -mkdir /sort Hadoop fs sort.txt /sort 2、提交MapReduce作业到集群运行。 3、查看作业输出结果。 一、四、使用MapReduce实现二次排序 1、提交作业到集群运行。 将测试数据上传到HDFS目录中。 2、提交MapReduce作业到集群运行。 3、查看作业输出结果。 4、浏览器查看