Hadoop技术内幕:深入解析YARN架构设计与实现原理

Hadoop技术内幕:深入解析YARN架构设计与实现原理

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
8.057 评价豆瓣读书
免费试读

作品简介

本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。

全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附录部分收录了YARN安装指南、YARN配置参数以及Hadoop Shell命令等非常有用的资料。

董西成:资深Hadoop技术实践者和研究者,对Hadoop技术有非常深刻的认识和理解,有着丰富的实践经验。曾经参与了商用Hadoop原型的研发,以及人民搜索的分布式日志系统、全网图片搜索引擎、Hadoop调度器等多个项目的设计与研发。对Hadoop的源代码有深入的研究,能通过修改Hadoop的源代码来完成二次开发和解决各种复杂的问题。热衷于分享,撰写了大量关于Hadoop的技术文章并分享在自己的博客上,因为文章技术含量高,所以非常受欢迎,这使得他在Hadoop技术圈内颇具知名度和影响力。

作品目录

  1. 前言
  2. 第一部分 准备篇
  3. 第1章 环境准备
  4. 1.1 准备学习环境
  5. 1.2 获取Hadoop源代码
  6. 1.3 搭建Hadoop源代码阅读环境
  7. 1.4 Hadoop源代码组织结构
  8. 1.5 Hadoop初体验
  9. 1.6 编译及调试Hadoop源代码
  10. 1.7 小结
  11. 第2章 YARN设计理念与基本架构
  12. 2.1 YARN 产生背景
  13. 2.2 Hadoop 基础知识
  14. 2.3 YARN 基本设计思想
  15. 2.4 YARN 基本架构
  16. 2.5 YARN 工作流程
  17. 2.6 多角度理解YARN
  18. 2.7 本书涉及内容
  19. 2.8 小结
  20. 第二部分 YARN 核心设计篇
  21. 第3章 YARN基础库
  22. 3.1 概述
  23. 3.2 第三方开源库
  24. 3.3 底层通信库
  25. 3.4 服务库与事件库
  26. 3.5 状态机库
  27. 3.6 源代码阅读引导
  28. 3.7 小结
  29. 3.8 问题讨论
  30. 第4章 YARN应用程序设计方法
  31. 4.1 概述
  32. 4.2 客户端设计
  33. 4.3 ApplicationMaster设计
  34. 4.4 YARN 应用程序实例
  35. 4.5 源代码阅读引导
  36. 4.6 小结
  37. 4.7 问题讨论
  38. 第5章 ResourceManager 剖析
  39. 5.1 概述
  40. 5.2 用户交互模块
  41. 5.3 ApplicationMaster管理
  42. 5.4 NodeManager管理
  43. 5.5 Application管理
  44. 5.6 状态机管理
  45. 5.7 几个常见行为分析
  46. 5.8 安全管理
  47. 5.9 容错机制
  48. 5.10 源代码阅读引导
  49. 5.11 小结
  50. 5.12 问题讨论
  51. 第6章 资源调度器
  52. 6.1 资源调度器背景
  53. 6.2 HOD调度器
  54. 6.3 YARN资源调度器的基本架构
  55. 6.4 YARN层级队列管理机制
  56. 6.5 Capacity Scheduler
  57. 6.6 Fair Scheduler
  58. 6.7 其他资源调度器介绍
  59. 6.8 源代码阅读引导
  60. 6.9 小结
  61. 6.10 问题讨论
  62. 第7章 NodeManager剖析
  63. 7.1 概述
  64. 7.2 节点健康状况检测
  65. 7.3 分布式缓存机制
  66. 7.4 目录结构管理
  67. 7.5 状态机管理
  68. 7.6 Container生命周期剖析
  69. 7.7 资源隔离
  70. 7.8 源代码阅读引导
  71. 7.9 小结
  72. 7.10 问题讨论
  73. 第三部分 计算框架篇
  74. 第8章 离线计算框架MapReduce
  75. 8.1 概述
  76. 8.2 MapReduce客户端
  77. 8.3 MRAppMaster工作流程
  78. 8.4 MR作业生命周期及相关状态机
  79. 8.5 资源申请与再分配
  80. 8.6 Container启动与释放
  81. 8.7 推测执行机制
  82. 8.8 作业恢复
  83. 8.9 数据处理引擎
  84. 8.10 历史作业管理器
  85. 8.11 MRv1与MRv2对比
  86. 8.12 源代码阅读引导
  87. 8.13 小结
  88. 8.14 问题讨论
  89. 第9章 DAG计算框架Tez
  90. 9.1 背景
  91. 9.2 Tez数据处理引擎
  92. 9.3 DAG Master实现
  93. 9.4 优化机制
  94. 9.5 Tez应用场景
  95. 9.6 与其他系统比较
  96. 9.7 小结
  97. 第10章 实时/内存计算框架Storm/Spark
  98. 10.1 Hadoop MapReduce的短板
  99. 10.2 实时计算框架Storm
  100. 10.3 内存计算框架Spark
  101. 10.4 小结
  102. 第四部分 高级篇
  103. 第11章 Facebook Corona剖析
  104. 11.1 概述
  105. 11.2 Corona设计特点
  106. 11.3 工作流程介绍
  107. 11.4 主要模块介绍
  108. 11.5 小结
  109. 第12章 Apache Mesos剖析
  110. 12.1 概述
  111. 12.2 底层网络通信库
  112. 12.3 Mesos服务
  113. 12.4 Mesos工作流程
  114. 12.5 Mesos资源分配策略
  115. 12.6 Mesos容错机制
  116. 12.7 Mesos应用实例
  117. 12.8 Mesos与YARN对比
  118. 12.9 小结
  119. 第13章 YARN总结与发展趋势
  120. 13.1 资源管理系统设计动机
  121. 13.2 资源管理系统架构演化
  122. 13.3 YARN发展趋势
  123. 13.4 小结
  124. 附录A YARN安装指南
  125. 附录B YARN配置参数介绍
  126. 附录C Hadoop Shell命令介绍
  127. 附录D 参考资料
载入中

热门划线

喜欢这本书的人也喜欢