自己动手做大数据系统(第2版)

自己动手做大数据系统(第2版)

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
¥55.30¥39.50
今日特价截止至:2026-04-27 02:00:00了解详情

作品简介

《自己动手做大数据系统(第2版)》在第1版的基础上,介绍大数据的时代背景及应用方案、常用的离线大数据和流式大数据组件,以及基于云平台的容器级数据平台搭建。书中以离线大数据和流式大数据两个具体示例,贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。书中的代码部分基本上使用Python编写,用户可以下载参考。

如果你是一位在校学生、Python编程爱好者或是想转行从事大数据工作的在职IT人员,阅读本书必有所收获!

刘未昕,从事IT研发和项目管理工作十余年。使用多种主流程序设计语言,深耕于大数据应用及人工智能技术,多年从事金融、数据仓库、智慧医疗等领域的研发工作。

张粤磊,平安壹钱包前大数据架构师。业内知名大数据专家,多本大数据畅销书的作者。

张魁,虚拟化工程师,OpenStack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。

吴茂贵,运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。

作品目录

  1. 内容简介
  2. 前言
  3. 序言
  4. 第一部分 大数据概述
  5. 第1章 大数据的时代背景及应用落地
  6. 1.1 大数据与“云大物区智”的关联
  7. 1.2 大数据平台的应用优势
  8. 1.3 大数据平台的技术架构选型和产品对比
  9. 第2章 大数据系统的安装及配置
  10. 2.1 服务器及操作系统的准备
  11. 2.2 JDK、Python和Scala
  12. 2.3 Hadoop
  13. 2.4 Sqoop
  14. 2.5 Hive
  15. 2.6 ZooKeeper和HBase
  16. 2.7 Flume
  17. 2.8 Kafka
  18. 2.9 Spark
  19. 2.10 Flink
  20. 2.11 开源大数据系统各组件的组合
  21. 2.12 CDH
  22. 2.13 FusionInsight
  23. 2.14 小结
  24. 第二部分 离线大数据处理
  25. 第3章 使用Python爬虫获取数据
  26. 3.1 Python爬虫模块的安装
  27. 3.2 抓取并解析JSON数据
  28. 3.3 抓取并解析HTML中的数据
  29. 3.4 使用Python提取文章的关键字
  30. 3.5 小结
  31. 第4章 Hive在大数据中的角色
  32. 4.1 Hive的核心概念及配置使用
  33. 4.2 概要设计和物理模型的创建
  34. 4.3 加载爬虫数据
  35. 4.4 数据的合并、去重和转换
  36. 4.5 使用UDF实现数据的转换
  37. 4.6 使用Python操作Hive
  38. 4.7 ETL数据调度和数据治理
  39. 4.8 小结
  40. 第5章 使用HBase实现大数据存储
  41. 5.1 非关系型数据库及HBase
  42. 5.2 HBase的几个核心概念
  43. 5.3 HBase数据操作命令
  44. 5.4 使用Python操作HBase
  45. 5.5 把Hive数据导入HBase
  46. 5.6 用Hive外部表读取HBase数据
  47. 5.7 小结
  48. 第6章 Spark数据分析引擎
  49. 6.1 Spark简介
  50. 6.2 Spark集群的配置及启动
  51. 6.3 调用Hive数据
  52. 6.4 调用HBase数据
  53. 6.5 使用PySpark进行数据分析
  54. 6.6 小结
  55. 第7章 使用Flask实现数据展示
  56. 7.1 Flask框架简介及站点搭建流程
  57. 7.2 Flask微框架的特性
  58. 7.3 使用MVC模式搭建项目框架
  59. 7.4 检索及加载新闻数据
  60. 7.5 小结
  61. 第二部分技术点总结
  62. 第三部分 流式大数据处理
  63. 第8章 使用Flume获取网站访问日志
  64. 8.1 Flume的安装及数据流模型
  65. 8.2 核心组件的配合使用
  66. 8.3 各种数据组合的流动方式
  67. 8.4 Apache服务器的日志格式
  68. 8.5 合并两个网站的日志
  69. 8.6 小结
  70. 第9章 Kafka的安装、配置及其与Flume的整合
  71. 9.1 Kafka的特性及安装、配置
  72. 9.2 几种术语
  73. 9.3 Broker的使用方法
  74. 9.4 分布式生产者/消费者
  75. 9.5 Kafka Connector
  76. 9.6 Kafka和Flume的整合
  77. 9.7 使用Python连接Kafka
  78. 9.8 小结
  79. 第10章 Redis数据库简介
  80. 10.1 Redis的特点及适用场景
  81. 10.2 Redis的安装及命令行使用方法
  82. 10.3 使用Python操作Redis
  83. 10.4 使用Java操作Redis
  84. 10.5 小结
  85. 第11章 Flink简介及其与Kafka的整合
  86. 11.1 Flink概述及其与Spark的区别
  87. 11.2 Flink的架构、特性及工作流程
  88. 11.3 Flink的安装
  89. 11.4 Flink的作业提交方式
  90. 11.5 Flink-Kafka Connector
  91. 11.6 使用Flink统计PageView
  92. 11.7 小结
  93. 第12章 网站页面访问量的动态展示
  94. 12.1 百度的ECharts图表功能简介
  95. 12.2 页面访问量的动态统计
  96. 12.3 生成词云图和占比饼图
  97. 12.4 访问日志检索
  98. 12.5 小结
  99. 第三部分技术点总结
  100. 第四部分 云平台搭建
  101. 第13章 搭建基于云平台的容器级数据系统
  102. 13.1 云平台
  103. 13.2 基于云平台的容器集群
  104. 13.3 基于容器的大数据系统
  105. 13.4 小结