Spark—WordCount实例

xiaoxiao2024-10-27 89

前提：

启动Spark集群和Spark Shell

1.启动Spark集群

cd spark目录 sbin/start-all.sh

2.启动Spark Shell

cd spark目录 bin/spark-shell --master spark://机器名:7077 --executor-memory 1024m --driver-memory 1024m

在WordCount程序中，首先会读取Spark目录下的README.md文件，然后把读取进来的内容进行分词，在这里分词的方法时使用空格进行分割，最后统计单词出现的次数，按照倒序打印显示出现次数最多的10个单词。

执行脚本如下：

sc.textFile("/opt/software/spark-2.4.3/README.md").flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

结果：

res1: Array[(String, Int)] = Array(("",72), (the,24), (to,17), (Spark,16), (for,12), (and,10), (a,9), (##,9), (run,7), (on,7))

最新回复(0)