深入大型数据集cf

深入大型数据集cf

并行与分布化Python代码

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
0 评价豆瓣读书
¥69.30¥34.65
电子书双11特惠截止至:2024-11-14 00:00:00了解详情

作品简介

《深入大型数据集:并行与分布化Python代码》共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。

《深入大型数据集:并行与分布化Python代码》适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

J.T. Wolohan是Booz Allen Hamilton公司的一名高级人工智能和自然语言处理架构师。他教过各种层次的学生学习编程:从小学、初中学生到研究生、专业人士。除对分布式和并行计算感兴趣之外,J.T.还喜欢跑步、烹饪和与家人共度时光。

译者简介

张若飞,曾任多家互联网金融公司CTO,在宜人贷、雅虎北研、金山云等知名公司担任架构师。十余年互联网研发及技术管理经验,对搭建海量数据、大型分布式系统有丰富经验。著有十余本技术译著,包括《Grails权威指南》《给大忙人看的JavaSE8》《代码不朽:编写可维护软件的十大原则》《面向可伸缩架构》《云原生Java》《云原生模式》等书,总计400余万字。

作品目录

  1. 内容简介
  2. 译者序
  3. 前言
  4. 致谢
  5. 关于本书
  6. 关于作者
  7. 关于封面插图
  8. 第1部分
  9. 1 入门介绍
  10. 1.1 你将从本书中学到什么
  11. 1.2 为什么是大型数据集
  12. 1.3 什么是并行计算
  13. 1.4 map和reduce编程风格
  14. 1.5 可提升速度和可扩展性的分布式计算
  15. 1.6 Hadoop:一个map和reduce的分布式框架
  16. 1.7 提供高性能map、reduce和其他功能的Spark
  17. 1.8 AWS Elastic MapReduce——云上的大型数据集
  18. 总结
  19. 2加速大型数据集处理任务:map函数和并行计算
  20. 2.1 map函数简介
  21. 2.2 并行处理
  22. 2.3 把它们拼在一起:抓取维基百科(Wikipedia)网站
  23. 2.4 练习
  24. 总结
  25. 3用来映射复杂转换的函数管道
  26. 3.1 辅助函数和函数链
  27. 3.2 揭露黑客的通信手段
  28. 3.3 Twitter人口预测
  29. 3.4 练习
  30. 总结
  31. 4用惰性工作流来处理大型数据集
  32. 4.1 什么是惰性计算
  33. 4.2 一些你需要知道的惰性函数
  34. 4.3 理解迭代器:Python惰性能力背后的魔法
  35. 4.4 诗歌谜题:如何惰性处理大型数据集
  36. 4.5 惰性模拟:模拟渔村场景
  37. 4.6 练习
  38. 总结
  39. 5使用reduce进行累加操作
  40. 5.1 使用reduce函数进行N-X的转换
  41. 5.2 reduce函数的三个部分
  42. 5.3 你熟悉的归约函数
  43. 5.4 同时使用map函数和reduce函数
  44. 5.5 使用reduce来分析汽车销售趋势
  45. 5.6 加速map和reduce
  46. 5.7 练习
  47. 总结
  48. 6 使用高级并行化来加速map和reduce
  49. 6.1 充分利用并行map
  50. 6.2 解决并行map和reduce的悖论
  51. 总结
  52. 第2部分
  53. 7使用Hadoop和Spark处理真正的大型数据集
  54. 7.1 分布式计算
  55. 7.2 用于批处理的Hadoop
  56. 7.3 使用Hadoop找到高分单词
  57. 7.4 用于交互式工作流的Spark
  58. 7.5 用Spark来记录单词得分
  59. 7.6 练习
  60. 总结
  61. 8使用Apache Streaming和mrjob处理大数据的最佳实践
  62. 8.1 非结构化数据:日志和文档
  63. 8.2 使用Hadoop对网球球员进行分析
  64. 8.3 通过mrjob工具,以Python的方式来使用HadoopStreaming
  65. 8.4 使用mrjob来分析网球比赛
  66. 8.5 练习
  67. 总结
  68. 9在PySpark中使用map和reduce来实现PageRank算法
  69. 9.1 近距离了解PySpark
  70. 9.2 在PySpark中使用Elo和PageRank算法对网球选手进行评分
  71. 9.3 练习
  72. 总结
  73. 10使用机器学习和PySpark进行更快的决策
  74. 10.1 什么是机器学习
  75. 10.2 机器学习基础与决策树分类器
  76. 10.3 PySpark中的快速随机森林分类
  77. 总结
  78. 第3部分
  79. 11使用Amazon Web Services和S3在云计算环境中处理大型数据集
  80. 11.1 AWS Simple Storage Service——针对大型数据集的解决方案
  81. 11.2 使用S3在云中存储数据
  82. 11.3 练习
  83. 总结
  84. 12使用Amazon的Elastic MapReduce在云上实现MapReduce
  85. 12.1 在EMR上通过mrjob来运行Hadoop
  86. 12.2 在EMR上使用Spark来进行机器学习
  87. 12.3 练习
  88. 总结
载入中