《深入理解Spark:核心思想与源码分析》——第2章Spark设计理念与基本架构

xiaoxiao2023-06-22 160

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第2章Spark设计理念与基本架构，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看

第2章Spark设计理念与基本架构若夫乘天地之正，而御六气之辩，以游无穷者，彼且恶乎待哉？—《庄子·逍遥游》本章导读上一章，介绍了Spark环境的搭建，为方便读者学习Spark做好准备。本章首先从Spark产生的背景开始，介绍Spark的主要特点、基本概念、版本变迁。然后简要说明Spark的主要模块和编程模型。最后从Spark的设计理念和基本架构入手，使读者能够对Spark有宏观的认识，为之后的内容做一些准备工作。Spark是一个通用的并行计算框架，由加州伯克利大学（UCBerkeley）的AMP实验室开发于2009年，并于2010年开源，2013年成长为Apache旗下大数据领域最活跃的开源项目之一。Spark也是基于map reduce 算法模式实现的分布式计算框架，拥有Hadoop MapReduce所具有的优点，并且解决了Hadoop MapReduce中的诸多缺陷。