大数据处理技术 Spark-期末复习要点 2019年春季学期 来自林子雨主讲《大数据处理技术Spark》
大数据技术概述
大数据计算模式及其代表产品 Hadoop生态系统图,请分别阐述Hadoop生态系统的各个组成部分的主要功能 MapReduce的基本原理 YARN框架的目标和优点 阐述Hadoop的缺陷以及Spark相对于Hadoop的优点
Spark的设计与运行原理
描述Spark生态系统的各个组件及其功能 下图:组件spark改为Spark Core Spark的运行架构 Spark运行基本流程 为什么说Spark采用RDD机制具有天然的容错性? RDD的操作类型 ??宽依赖和窄依赖 是否包含Shuffle操作是区分窄依赖和宽依赖的根据
Spark环境搭建和使用方法
没有考试内容
RDD编程(整个RDD编程课件 108页)
链接
RDD编程基础键值对RDD数据读写综合案例 案例1:求TOP值;案例2:文件排序;案例3:二次排序
Spark SQL
为什么推出Spark SQL? 从RDD转换得到DataFrame page26 链接
Spark Streaming
链接
编写Spark Streaming程序的基本步骤 文件流 page31套接字流 page37RDD队列流 page44
Structured Streaming
不考
Spark MLlib
不考