Spark—WordCount实例

    xiaoxiao2024-10-27  59

    前提:

    启动Spark集群和Spark Shell

    1.启动Spark集群

    cd spark目录 sbin/start-all.sh

    2.启动Spark Shell

    cd spark目录 bin/spark-shell --master spark://机器名:7077 --executor-memory 1024m --driver-memory 1024m

    在WordCount程序中,首先会读取Spark目录下的README.md文件,然后把读取进来的内容进行分词,在这里分词的方法时使用空格进行分割,最后统计单词出现的次数,按照倒序打印显示出现次数最多的10个单词。

    执行脚本如下:

    sc.textFile("/opt/software/spark-2.4.3/README.md").flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

    结果:

    res1: Array[(String, Int)] = Array(("",72), (the,24), (to,17), (Spark,16), (for,12), (and,10), (a,9), (##,9), (run,7), (on,7))

     

     

    最新回复(0)