《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

xiaoxiao2024-08-09 129

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章，第1.9节，作者：【美】Srinath Perera , Thilina Gunarathne 译者：杨卓荦责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.9 在分布式集群环境中运行WordCount程序

Hadoop MapReduce实战手册本节将描述如何在分布式集群中运行作业。

准备工作启动Hadoop集群。

操作步骤现在让我们在分布式的Hadoop环境中运行WordCount示例程序。

把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置，作为我们前一节中编写的WordCountMapReduce示例的输入数据。 >bin/hadoopdfs -mkdir /data/ >bin/hadoopdfs -mkdir /data/input1 >bin/hadoopdfs -put README.txt /data/input1/README.txt >bin/hadoopdfs -ls /data/input1 Found 1 items -rw-r--r-- 1 srinathsupergroup 　　　　　1366 2012-04-09 08:59 / data/input1/README.txt 现在，让我们在HADOOP_HOME目录下运行WordCount示例。 >bin/hadoop jar hadoop-examples-1.0.0.jar wordcount /data/input1/ data/output1 12/04/09 09:04:25 INFO input.FileInputFormat: Total input paths to process : 1 12/04/09 09:04:26 INFO mapred.JobClient: Running job: job_201204090847_0001 12/04/09 09:04:27 INFO mapred.JobClient: map 0% reduce 0% 12/04/09 09:04:42 INFO mapred.JobClient: map 100% reduce 0% 12/04/09 09:04:54 INFO mapred.JobClient: map 100% reduce 100% 12/04/09 09:04:59 INFO mapred.JobClient: Job complete: job_201204090847_0001 ... 运行下面的命令可列出输出目录的内容，并查看运行结果。 >bin/hadoopdfs -ls /data/output1 Found 3 items -rw-r--r-- 1 srinathsupergroup　　 0 2012-04-09 09:04 / data/output1/_SUCCESS drwxr-xr-x - srinathsupergroup　　 0 2012-04-09 09:04 / data/output1/_logs -rw-r--r-- 1 srinathsupergroup 1306 2012-04-09 09:04 / data/output1/part-r-00000 >bin/hadoopdfs -cat /data/output1/* (BIS), 1 (ECCN) 1 (TSU) 1 (see 1 5D002.C.1, 1 740.13) 1

工作原理分布式环境的Hadoop作业提交方式与本地安装的Hadoop作业提交方式相似，如1.3节所描述的那样。然而，有两点主要的不同。

首先，Hadoop将作业的输入数据和作业产生的输出数据都存储在HDFS文件系统中。因此，我们使用第1步将输入文件存储在HDFS文件系统中，使用第3步从HDFS文件系统中读取输出文件。

其次，提交作业时，本地Hadoop安装模式将作业放在本地JVM上执行。然而，分布式集群将作业提交给JobTracker，并且使用分布式Hadoop集群中的节点执行该作业。

更多参考可以通过HDFS监控UI查看WordCount应用程序的结果，如1.6节所描述的那样。同样，也可以像1.10节介绍的那样查看关于WordCount作业的统计信息。