Spark大数据商业实战三部曲

Spark大数据商业实战三部曲

内核解密|商业案例|性能调优

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
春暖花开季 恰是读书时满500减300、满200减120、满100减60活动详情

作品简介

本书基于Spark2.2.0新版本(2017年7月11日发布),以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark2.2新特性及Spark内核源码;中篇选取Spark开发中具有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。本书适合所有Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员,本书也可以作为Spark高手修炼的参考书籍。同时,本书也特别适合作为高等院校的大数据教材使用。

王家林

中国著名的Spark培训专家,Apache Spark、Android技术中国区布道师,DT大数据梦工厂创始人和首席专家,Android软硬件整合专家。深入研究了Spark从0.5.0到2.2.1中共31个版本的Spark源码,目前致力于开发优化的Spark中国版本。尤其擅长Spark在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark在生产环境下任意类型(例如Shuffle和各种内存问题及数据倾斜问题等)的深度性能优化。

段智华

就职于中国电信股份有限公司上海分公司,系统架构师,CSDN博客专家。专注于Spark大数据技术研发及推广,跟随Spark核心源码技术的发展,深入研究Spark2.1.1版本及Spark2.2.1版本的源码优化,对Spark大数据处理、机器学习等技术领域有丰富的实战经验和浓厚兴趣。

作品目录

  1. 作者简介
  2. 内容简介
  3. 前言
  4. 上篇 内核解密
  5. 第1章 电光石火间体验Spark 2.2开发实战
  6. 第2章 Spark 2.2技术及原理
  7. 第3章 Spark的灵魂:RDD和DataSet
  8. 第4章 Spark Driver启动内幕剖析
  9. 第5章 Spark集群启动原理和源码详解
  10. 第6章 Spark Application提交给集群的原理和源码详解
  11. 第7章 Shuffle原理和源码详解
  12. 第8章 Job工作原理和源码详解
  13. 第9章 Spark中Cache和checkpoint原理和源码详解
  14. 第10章 Spark中Broadcast和Accumulator原理和源码详解
  15. 第11章 Spark与大数据其他经典组件整合原理与实战
  16. 中篇 商业案例
  17. 第12章 Spark商业案例之大数据电影点评系统应用案例
  18. 第13章 Spark 2.2实战之Dataset开发实战企业人员管理系统应用案例
  19. 第14章 Spark商业案例之电商交互式分析系统应用案例
  20. 第15章 Spark商业案例之NBA篮球运动员大数据分析系统应用案例
  21. 第16章 电商广告点击大数据实时流处理系统案例
  22. 第17章 Spark在通信运营商生产环境中的应用案例
  23. 第18章 使用Spark GraphX实现婚恋社交网络多维度分析案例
  24. 下篇 性能调优
  25. 第19章 对运行在YARN上的Spark进行性能调优
  26. 第20章 Spark算子调优最佳实践
  27. 第21章 Spark频繁遇到的性能问题及调优技巧
  28. 第22章 Spark集群资源分配及并行度调优最佳实践
  29. 第23章 Spark集群中Mapper端、Reducer端内存调优
  30. 第24章 使用Broadcast实现Mapper端Shuffle聚合功能的原理和调优实战
  31. 第25章 使用Accumulator高效地实现分布式集群全局计数器的原理和调优案例
  32. 第26章 Spark下JVM性能调优最佳实践
  33. 第27章 Spark五大子框架调优最佳实践
  34. 第28章 Spark 2.2.0新一代钨丝计划优化引擎
  35. 第29章 Spark Shuffle调优原理及实践
  36. 第30章 Spark性能调优之数据倾斜调优一站式解决方案原理与实战
  37. 第31章 Spark大数据性能调优实战专业之路
  38. 后记
载入中

大家都喜欢