Apache Spark源码剖析

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
6.029 评价豆瓣读书
阅读
  • 导言
  • 目录
  • 作品信息

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。

《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。

许鹏:长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

  1. 前言
  2. 第一部分 Spark概述
  3. 第1章 初识Spark
  4. 1.1 大数据和Spark
  5. 1.2 与Spark的第一次亲密接触
  6. 第二部分 Spark核心概念
  7. 第2章 Spark整体框架
  8. 2.1 编程模型
  9. 2.2 运行框架
  10. 2.3 源码阅读环境准备
  11. 第3章 SparkContext初始化
  12. 3.1 spark-shell
  13. 3.2 SparkContext的初始化综述
  14. 3.3 SparkRepl综述
  15. 第4章 Spark作业提交
  16. 4.1 作业提交
  17. 4.2 作业执行
  18. 4.3 存储机制
  19. 第5章 部署方式分析
  20. 5.1 部署模型
  21. 5.2 单机模式local
  22. 5.3 伪集群部署local-cluster
  23. 5.4 原生集群Standalone Cluster
  24. 5.5 SparkOn YARN
  25. 第三部分 Spark Lib
  26. 第6章 SparkStreaming
  27. 6.1 SparkStreaming整体架构
  28. 6.2 SparkStreaming执行过程
  29. 6.3 窗口操作
  30. 6.4 容错性分析
  31. 6.5 SparkStreaming vs.Storm
  32. 6.6 应用举例
  33. 第7章 SQL
  34. 7.1 SQL语句的通用执行过程分析
  35. 7.2 SQLOn Spark的实现分析
  36. 7.3 Parquet文件和JSON数据集
  37. 7.4 Hive简介
  38. 7.5 HiveQLOn Spark详解
  39. 第8章 GraphX
  40. 8.1 GraphX简介
  41. 8.2 分布式图计算处理技术介绍
  42. 8.3 Pregel计算模型
  43. 8.4 GraphX图计算框架实现分析
  44. 8.5 PageRank
  45. 第9章 MLLib
  46. 9.1 线性回归
  47. 9.2 线性回归的代码实现
  48. 9.3 分类算法
  49. 9.4 拟牛顿法
  50. 9.5 MLLib与其他应用模块间的整合
  51. 第四部分 附录
  52. 附录A Spark源码调试
  53. A.3.1 导入Spark源码
  54. 附录B 源码阅读技巧

作者许鹏

类别 图书 / 非虚构

出版社电子工业出版社

出版日期

ISBN9787121254208

提供方电子工业出版社

标签计算机科学(48)大数据(168)源代码(5)分布式计算(3)Spark(3)

评论

载入中