大数据处理技术 PySpark 复习提纲 图片版

    xiaoxiao2022-07-14  161

    大数据处理技术 Spark-期末复习要点 2019年春季学期 来自林子雨主讲《大数据处理技术Spark》

    大数据技术概述

    大数据计算模式及其代表产品 Hadoop生态系统图,请分别阐述Hadoop生态系统的各个组成部分的主要功能 MapReduce的基本原理 YARN框架的目标和优点 阐述Hadoop的缺陷以及Spark相对于Hadoop的优点

    Spark的设计与运行原理

    描述Spark生态系统的各个组件及其功能 下图:组件spark改为Spark Core Spark的运行架构 Spark运行基本流程 为什么说Spark采用RDD机制具有天然的容错性? RDD的操作类型 ??宽依赖和窄依赖 是否包含Shuffle操作是区分窄依赖和宽依赖的根据

    Spark环境搭建和使用方法

    没有考试内容

    RDD编程(整个RDD编程课件 108页)

    链接

    RDD编程基础键值对RDD数据读写综合案例 案例1:求TOP值;案例2:文件排序;案例3:二次排序

    Spark SQL

    为什么推出Spark SQL? 从RDD转换得到DataFrame page26 链接

    Spark Streaming

    链接

    编写Spark Streaming程序的基本步骤 文件流 page31套接字流 page37RDD队列流 page44

    Structured Streaming

    不考

    Spark MLlib

    不考

    最新回复(0)