大数据处理框架Apache Spark设计与实现

作者许利杰方亚芬

类别出版 / 非虚构

出版社电子工业出版社 / 2020-08

提供方电子工业出版社

字数约 117,000 字

ISBN9787121391712

暂无评价综合评分的显示会考虑用户真实性等多项因素，每部作品出现综合评分的时间不定。

9.3110 评价豆瓣读书

开通会员，可免费在线阅读本书，首月特惠

分享到豆瓣分享到微信分享到微博分享到QQ好友分享到QQ空间

全本定价~~￥74.20~~￥37.99

特价今日特价截止至：2024-11-01 02:00:00了解详情

作品简介

近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理论、典型的Spark应用，以及相关的性能和可靠性问题。本书分9章，主要包含四部分内容。第一部分大数据处理框架的基础知识（第1～2章）：介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作，并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论（第3～4章）：介绍Spark框架将应用程序转化为逻辑处理流程，进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用（第5章）：介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制（第6～9章）：介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

许利杰

现任中国科学院软件研究所副研究员、硕士生导师，于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作，已在国际权威会议如VLDB、ICDCS、IPDPS、ISSRE、ICAC等发表论文10余篇，主持多项国家自然科学基金，以及华为、京东、联想等企业的合作研发项目。

曾为Apache Spark和Hadoop修复多个内核代码严重错误，编写的SparkInternals技术文档被社区广泛关注，获得四千多颗星。

博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任中国计算机学会系统软件专委会委员、中国科学院青年创新促进会会员。

方亚芬

现任中国科学院软件研究所工程师，于南开大学获得学士学位、中科院软件所获得硕士学位。

当前主要从事大数据系统、操作系统方面的研发工作，参与多项国家自然科学基金、国家重点研发计划，以及华为、腾讯、中国邮政等企业的合作研发项目。

曾在阿里巴巴等担任客座研究学生，目前是华为openEuler社区树莓派项目负责人。

作品目录

载入中