Spark快速大数据分析

Spark快速大数据分析

图灵程序设计丛书

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
7.9445 评价豆瓣读书
¥35.40¥23.99
今日特价截止至:2024-05-30 02:00:00了解详情

作品简介

本书由Spark及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。

Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。

Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。

Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。

作品目录

  1. 推荐序
  2. 译者序
  3. 前言
  4. 第1章 Spark 数据分析导论
  5. 1.1 Spark是什么
  6. 1.2 一个大一统的软件栈
  7. 1.3 Spark的用户和用途
  8. 1.4 Spark简史
  9. 1.5 Spark的版本和发布
  10. 1.6 Spark的存储层次
  11. 第2章 Spark 下载与入门
  12. 2.1 下载Spark
  13. 2.2 Spark中Python和Scala的shell
  14. 2.3 Spark核心概念简介
  15. 2.4 独立应用
  16. 2.5 总结
  17. 第3章 RDD 编程
  18. 3.1 RDD基础
  19. 3.2 创建RDD
  20. 3.3 RDD操作
  21. 3.4 向Spark传递函数
  22. 3.5 常见的转化操作和行动操作
  23. 3.6 持久化(缓存)
  24. 3.7 总结
  25. 第4章 键值对操作
  26. 4.1 动机
  27. 4.2 创建Pair RDD
  28. 4.3 Pair RDD的转化操作
  29. 4.4 Pair RDD的行动操作
  30. 4.5 数据分区(进阶)
  31. 4.6 总结
  32. 第5章 数据读取与保存
  33. 5.1 动机
  34. 5.2 文件格式
  35. 5.3 文件系统
  36. 5.4 Spark SQL中的结构化数据
  37. 5.5 数据库
  38. 5.6 总结
  39. 第6章 Spark 编程进阶
  40. 6.1 简介
  41. 6.2 累加器
  42. 6.3 广播变量
  43. 6.4 基于分区进行操作
  44. 6.5 与外部程序间的管道
  45. 6.6 数值RDD的操作
  46. 6.7 总结
  47. 第7章 在集群上运行 Spark
  48. 7.1 简介
  49. 7.2 Spark运行时架构
  50. 7.3 使用spark-submit部署应用
  51. 7.4 打包代码与依赖
  52. 7.5 Spark应用内与应用间调度
  53. 7.6 集群管理器
  54. 7.7 选择合适的集群管理器
  55. 7.8 总结
  56. 第8章 Spark 调优与调试
  57. 8.1 使用SparkConf配置Spark
  58. 8.2 Spark执行的组成部分:作业、任务和步骤
  59. 8.3 查找信息
  60. 8.4 关键性能考量
  61. 8.5 总结
  62. 第9章 Spark SQL
  63. 9.1 连接Spark SQL
  64. 9.2 在应用中使用Spark SQL
  65. 9.3 读取和存储数据
  66. 9.4 JDBC/ODBC服务器
  67. 9.5 用户自定义函数
  68. 9.6 Spark SQL性能
  69. 9.7 总结
  70. 第10章 Spark Streaming
  71. 10.1 一个简单的例子
  72. 10.2 架构与抽象
  73. 10.3 转化操作
  74. 10.4 输出操作
  75. 10.5 输入源
  76. 10.6 24/7不间断运行
  77. 10.7 Streaming用户界面
  78. 10.8 性能考量
  79. 10.9 总结
  80. 第11章 基于MLlib的机器学习
  81. 11.1 概述
  82. 11.2 系统要求
  83. 11.3 机器学习基础
  84. 11.4 数据类型
  85. 11.5 算法
  86. 11.6 一些提示与性能考量
  87. 11.7 流水线API
  88. 11.8 总结
载入中