作品简介
本书由Spark及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。
作品目录
推荐序
译者序
序
前言
第1章 Spark 数据分析导论
1.1 Spark是什么
1.2 一个大一统的软件栈
1.3 Spark的用户和用途
1.4 Spark简史
1.5 Spark的版本和发布
1.6 Spark的存储层次
第2章 Spark 下载与入门
2.1 下载Spark
2.2 Spark中Python和Scala的shell
2.3 Spark核心概念简介
2.4 独立应用
2.5 总结
第3章 RDD 编程
3.1 RDD基础
3.2 创建RDD
3.3 RDD操作
3.4 向Spark传递函数
3.5 常见的转化操作和行动操作
3.6 持久化(缓存)
3.7 总结
第4章 键值对操作
4.1 动机
4.2 创建Pair RDD
4.3 Pair RDD的转化操作
4.4 Pair RDD的行动操作
4.5 数据分区(进阶)
4.6 总结
第5章 数据读取与保存
5.1 动机
5.2 文件格式
5.3 文件系统
5.4 Spark SQL中的结构化数据
5.5 数据库
5.6 总结
第6章 Spark 编程进阶
6.1 简介
6.2 累加器
6.3 广播变量
6.4 基于分区进行操作
6.5 与外部程序间的管道
6.6 数值RDD的操作
6.7 总结
第7章 在集群上运行 Spark
7.1 简介
7.2 Spark运行时架构
7.3 使用spark-submit部署应用
7.4 打包代码与依赖
7.5 Spark应用内与应用间调度
7.6 集群管理器
7.7 选择合适的集群管理器
7.8 总结
第8章 Spark 调优与调试
8.1 使用SparkConf配置Spark
8.2 Spark执行的组成部分:作业、任务和步骤
8.3 查找信息
8.4 关键性能考量
8.5 总结
第9章 Spark SQL
9.1 连接Spark SQL
9.2 在应用中使用Spark SQL
9.3 读取和存储数据
9.4 JDBC/ODBC服务器
9.5 用户自定义函数
9.6 Spark SQL性能
9.7 总结
第10章 Spark Streaming
10.1 一个简单的例子
10.2 架构与抽象
10.3 转化操作
10.4 输出操作
10.5 输入源
10.6 24/7不间断运行
10.7 Streaming用户界面
10.8 性能考量
10.9 总结
第11章 基于MLlib的机器学习
11.1 概述
11.2 系统要求
11.3 机器学习基础
11.4 数据类型
11.5 算法
11.6 一些提示与性能考量
11.7 流水线API
11.8 总结
载入中