Spark Core:第五章 共享变量

    xiaoxiao2025-06-12  18

    Spark Core:第五章 共享变量


    文章目录

    Spark Core:第五章 共享变量一、广播变量二、累加器三、知识点补充1. PV&UV2. 面试简答


    —>Spark知识点总结导航<—


    一、广播变量

    1. 当Executor端使用到了Driver的变量

       (1) 不使用广播变量,Executor中有多少task就有多少变量副本

       (2) 使用广播变量,每个Executor只有一份Driver端的变量

    2. 注意

       (1) 不能 将RDD广播出去,可以将RDD的结果广播出去

       (2) 广播变量只能在Driver端定义,在Executor 不能改变


    二、累加器

    1. 相当于集群中的统筹变量

    2. 注意

       (1) 累加器只能在Dirver端定义,初始化,不能在Executor端定义初始化

       (2) 累加器不能在Executor端.value获取值


    三、知识点补充

    1. PV&UV

    PV: page view 页面浏览量

    UV: unique vistor

    2. 面试简答

       (1) Spark 任务调度源码

         Action算子开始

       (2) 二次排序

         自定义类型 实现comparable接口 实现comparTo方法

       (3) 分组取topN

         ① groupByKey+Collections.sort(…)

         ② groupByKey+定长数组


    --->有问题请联系QQ1436281495^_^
    最新回复(0)