Resilient Distributed Dataset 弹性分布式数据集
1、三种基本运算
RDD运算类型说明
Transformation
转换
转换运算的结果会产生另外一个RDD
RDD具有lazy特性,转换运算不会立刻执行,等到执行动作运算才会实际执行
Action
动作
执行动作运算后不会产生另外一个RDD,而是会产生数值、数组或写入文件系统
执行动作运算时会立刻实际执行,并且连同之前的转换运算一起执行
Persistence
持久化
对于重复使用的RDD,可以将RDD持久化在内存中作为后续使用,以提高性能
二、Lineage机制
记录每个RDD与其父代RDD之间的关联(通过什么操作由父代RDD得到该RDD的信息)