Hadoop技术内幕:深入解析YARN架构设计与实现原理

董西成
前言 为什么要写这本书 在互联网巨头的带动下,开源软件Hadoop的应用变得越来越广泛,目前互联网、金融、银行、零售等行业均在使用或者尝试使用Hadoop。IDC对未来几年中国的预测中就专门提到了大数据,其认为未来几年,会有越来越多的企业级用户试水大数据平台和应用,而这之中,Hadoop将成为最耀眼的“明星”。 尽管Hadoop整个生态系统是开源的,但由于它包含的软件种类过多,且版本升级过快,大部分公司,尤其是一些中小型公司,难以在有限的时间内快速掌握Hadoop蕴含的价值。此外,Hadoop自身版本的多样化也给很多研发人员带来了很大的学习负担,尽管当前市面上已有很多参考书籍,但遗憾的是,能够深入剖析Hadoop内部实现细节的书籍少之又少,而本书则尝试弥补这一缺憾。本书是笔者继《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》之后的又一本剖析Hadoop内幕的书籍。 本书介绍的YARN(Yet Another Resource Negotiator)系统是Hadoop 2.0新增加的一个子项目(与Common、MapReduce和HDFS三个分支并列),它的引入使得分布式计算系统进入平台化时代,即各种计算框架可以运行在一个集群中,由资源管理系统进行统一管理和调度,它们共享整个集群中的资源进而提高资源利用率。 本书以Hadoop 2.0为基础,从基本概念、程序设计和内部实现等方面深入剖析了Hadoop YARN。本书重点分析了YARN的核心实现以及运行在YARN上的计算框架,其中,核心实现包括基础库、编程接口、ResourceManager实现、资源调度器实现、NodeManager实现等,而计算框架则包括离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark等。书中不仅详细介绍了YARN各个组件和计算框架的…