Spark的坑

    xiaoxiao2025-06-07  13

    1。创建Maven之后项目名上面显示错误警告。

    1)右键点击maven项目名 进入最后一个Properties中 Java build path 的libraries中更改为如下图

    2。关闭软件之后在打开之前能运行的文件报错。

    是因为在之前配置的东西可能关闭后打开就消失了,再重新配一下。

    3。关于RDD两种算子的理解

    RDD的80多个算子分成两种类型的算子 1.TransForm (转化算子):不能提交作业,只进行数据转换 2.Action(提交算子):只有经过Actoin算子之后,将TransForm 算子代码提交到集群,然后再云星星转换算子代码。

    4。算子介绍

    val rdd1=sc.parallelize(List("2010-10-10 187010675592 45","2010-10-10 187010675592 45","2010-10-10 187010675592 454","2010-10-11 187010675594 452"),1) val rdd2=rdd1.map(x=>(x.split(x.split(" ")(2))(0),x.split(" ")(2).toInt));//构建map使前两个作为key,流量作为value

    groupByKey()只根据key值相同的进行了分组 rddReduceByKey() 根据key相同的自动求和

    最新回复(0)