18.Spark单词计数示例

    xiaoxiao2024-12-04  59

    1.创建用来计算数据的目录

       sudo mkdir -p ~/pythonwork/ipynotebook/data

    2.新增测试文件

       sudo vim text.txt

       内容:

       Apple Apple Orange Banana Grape Grape

    3.读取文件

       textFile=sc.textFile("data.test.txt")

    4.读取每个单词

       stringRDD=textFile.flatMap(lambda line => line.split(" "))

    5.计数

       countsRDD=stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y) 

     

     

    最新回复(0)