1.8 本章小结本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。由于Hadoop拥有可计量、成本低、高效、可信等突出特点,基于Hadoop的应用已经遍地开花,尤其是在互联网领域。本章接下来介绍了Hadoop项目及其结构,现在Hadoop已经发展成为一个包含多个子项目的集合,被用于分布式计算,虽然Hadoop的核心是Hadoop分布式文件系统和MapReduce,但Hadoop下的Common、Avro、Chukwa、Hive、HBase等子项目提供了互补性服务或在核心层之上提供了更高层的服务。紧接着,简要介绍了以HDFS和MapReduce为核心的Hadoop体系结构。本章之后又从分布式系统的角度介绍了Hadoop是如何做到并行计算和数据管理的。分布式计算平台Hadoop实现了分布式文件系统和分布式数据库。Hadoop中的分布式文件系统HDFS能够实现数据在电脑集群组成的云上高效的存储和管理功能,Hadoop中的并行编程框架MapReduce基于HDFS来保证用户可以编写应用于Hadoop的并行应用程序。本章又介绍了Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。它们都有自己完整的数据定义和体系结构,以及实现数据从宏观到微观的立体管理数据办法,这都为Hadoop平台的数据存储和任务处理打下了基础。本章最后还介绍了关于Hadoop的一些基本的安全策略,包括用户权限管理、HDFS安全策略和MapReduce安全策略,为用户的实际使用提供了参考。本章中的许多内容在本书后面的章节中会详细介绍。
相关资源:Hadoop源码分析 完整版 共55章