大数据处理框架Apache Spark设计与实现

大数据处理框架Apache Spark设计与实现

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
9.3110 评价豆瓣读书
¥74.20¥37.99
今日特价截止至:2024-11-01 02:00:00了解详情

作品简介

近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

许利杰

现任中国科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如VLDB、ICDCS、IPDPS、ISSRE、ICAC等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。

曾为Apache Spark和Hadoop修复多个内核代码严重错误,编写的SparkInternals技术文档被社区广泛关注,获得四千多颗星。

博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任中国计算机学会系统软件专委会委员、中国科学院青年创新促进会会员。

方亚芬

现任中国科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。

当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯、中国邮政等企业的合作研发项目。

曾在阿里巴巴等担任客座研究学生,目前是华为openEuler社区树莓派项目负责人。

作品目录

  1. 作者简介
  2. 内容简介
  3. 前言
  4. 读者服务
  5. 第一部分 大数据处理框架的基础知识
  6. 第1章 大数据处理框架概览
  7. 1.1 大数据及其带来的挑战
  8. 1.2 大数据处理框架
  9. 1.3 大数据应用及编程模型
  10. 1.4 大数据处理框架的四层结构
  11. 1.5 错误容忍机制
  12. 1.6 其他大数据处理框架
  13. 1.7 本章小结
  14. 1.8 扩展阅读
  15. 第2章 Spark系统部署与应用运行的基本流程
  16. 2.1 Spark安装部署
  17. 2.2 Spark系统架构
  18. 2.3 Spark应用例子
  19. 2.4 Spark编程模型
  20. 2.5 本章小结
  21. 第二部分 Spark大数据处理框架的核心理论
  22. 第3章 Spark逻辑处理流程
  23. 3.1 Spark逻辑处理流程概览
  24. 3.2 Spark逻辑处理流程生成方法
  25. 3.3 常用transformation()数据操作
  26. 3.4 常用action()数据操作
  27. 3.5 对比MapReduce,Spark的优缺点
  28. 3.6 本章小结
  29. 3.7 扩展阅读
  30. 第4章 Spark物理执行计划
  31. 4.1 Spark物理执行计划概览
  32. 4.2 Spark物理执行计划生成方法
  33. 4.3 常用数据操作生成的物理执行计划
  34. 4.4 本章小结
  35. 4.5 扩展阅读
  36. 第三部分 典型的Spark应用
  37. 第5章 迭代型Spark应用
  38. 5.1 迭代型Spark应用的分类及特点
  39. 5.2 迭代型机器学习应用SparkLR
  40. 5.3 迭代型机器学习应用——广义线性模型
  41. 5.4 迭代型图计算应用——PageRank
  42. 5.5 本章小结
  43. 第四部分 大数据处理框架性能和可靠性保障机制
  44. 第6章 Shuffle机制
  45. 6.1 Shuffle的意义及设计挑战
  46. 6.2 Shuffle的设计思想
  47. 6.3 Spark中Shuffle框架的设计
  48. 6.4 支持高效聚合和排序的数据结构
  49. 6.5 与Hadoop MapReduce的Shuffle机制对比
  50. 6.6 本章小结
  51. 第7章 数据缓存机制
  52. 7.1 数据缓存的意义
  53. 7.2 数据缓存机制的设计原理
  54. 7.3 与Hadoop MapReduce的缓存机制进行对比
  55. 7.4 本章小结
  56. 第8章 错误容忍机制
  57. 8.1 错误容忍机制的意义及挑战
  58. 8.2 错误容忍机制的设计思想
  59. 8.3 重新计算机制
  60. 8.4 checkpoint机制的设计与实现
  61. 8.5 checkpoint与数据缓存的区别
  62. 8.6 本章小结
  63. 第9章 内存管理机制
  64. 9.1 内存管理机制问题及挑战
  65. 9.2 应用内存消耗来源及影响因素
  66. 9.3 Spark框架内存管理模型
  67. 9.4 Spark框架执行内存消耗与管理
  68. 9.5 数据缓存空间管理
  69. 9.6 本章小结
  70. 参考文献
  71. 大数据处理基石参考书
载入中