HAWQ数据仓库与数据挖掘实战

HAWQ数据仓库与数据挖掘实战

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。

作品简介

ApacheHAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。

王雪迎,毕业于中国地质大学计算机专业,高级工程师,从事数据库、数据仓库相关技术工作20年。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop数据仓库实践》。

作品目录

  1. 作者简介
  2. 内容简介
  3. 推荐序
  4. 前言
  5. 第一部分 HAWQ技术解析
  6. 第1章 ◄HAWQ概述►
  7. 1.1 SQL-on-Hadoop
  8. 1.2 HAWQ简介
  9. 1.3 HAWQ系统架构
  10. 1.4 为什么选择HAWQ
  11. 1.5 小结
  12. 第2章 ◄HAWQ安装部署►
  13. 2.1 安装规划
  14. 2.2 安装前准备
  15. 2.3 安装Ambari
  16. 2.4 安装HDP集群
  17. 2.5 安装HAWQ
  18. 2.6 启动与停止HAWQ
  19. 2.7 小结
  20. 第3章 ◄连接管理►
  21. 3.1 配置客户端身份认证
  22. 3.2 管理角色与权限
  23. 3.3 psql连接HAWQ
  24. 3.4 Kettle连接HAWQ
  25. 3.5 连接常见问题
  26. 3.6 小结
  27. 第4章 ◄数据库对象管理►
  28. 4.1 创建和管理数据库
  29. 4.2 创建和管理表空间
  30. 4.3 创建和管理模式
  31. 4.4 创建和管理表
  32. 4.5 创建和管理视图
  33. 4.6 管理其他对象
  34. 4.7 小结
  35. 第5章 ◄分区表►
  36. 5.1 HAWQ中的分区表
  37. 5.2 确定分区策略
  38. 5.3 创建分区表
  39. 5.4 分区消除
  40. 5.5 分区表维护
  41. 5.6 小结
  42. 第6章 ◄存储管理►
  43. 6.1 数据存储选项
  44. 6.2 数据分布策略
  45. 6.3 从已有的表创建新表
  46. 6.4 小结
  47. 第7章 ◄资源管理►
  48. 7.1 HAWQ资源管理概述
  49. 7.2 配置独立资源管理器
  50. 7.3 整合YARN
  51. 7.4 管理资源队列
  52. 7.5 查询资源管理器状态
  53. 7.6 小结
  54. 第8章 ◄数据管理►
  55. 8.1 基本数据操作
  56. 8.2 数据装载与卸载
  57. 8.3 数据库统计
  58. 8.4 PXF
  59. 8.5 小结
  60. 第9章 ◄过程语言►
  61. 9.1 HAWQ内建SQL语言
  62. 9.2 PL/pgSQL函数
  63. 9.3 给HAWQ内部函数起别名
  64. 9.4 表函数
  65. 9.5 参数个数可变的函数
  66. 9.6 多态类型
  67. 9.7 UDF管理
  68. 9.8 UDF实例——递归树形遍历
  69. 9.9 小结
  70. 第10章 ◄查询优化►
  71. 10.1 HAWQ的查询处理流程
  72. 10.2 GPORCA查询优化器
  73. 10.3 性能优化
  74. 10.4 查询剖析
  75. 10.5 小结
  76. 第11章 ◄高可用性►
  77. 11.1 备份与恢复
  78. 11.2 高可用性
  79. 11.3 小结
  80. 第二部分 HAWQ实战演练
  81. 第12章 ◄建立数据仓库示例模型►
  82. 12.1 业务场景
  83. 12.2 数据仓库架构
  84. 12.3 实验环境
  85. 12.4 HAWQ相关配置
  86. 12.5 创建示例数据库
  87. 12.6 小结
  88. 第13章 ◄初始ETL►
  89. 13.1 用Sqoop初始数据抽取
  90. 13.2 向HAWQ初始装载数据
  91. 13.3 建立初始ETL脚本
  92. 13.4 小结
  93. 第14章 ◄定期ETL►
  94. 14.1 变化数据捕获
  95. 14.2 创建维度表版本视图
  96. 14.3 创建时间戳表
  97. 14.4 用Sqoop定期数据抽取
  98. 14.5 建立定期装载HAWQ函数
  99. 14.6 建立定期ETL脚本
  100. 14.7 测试
  101. 14.8 动态分区滚动
  102. 14.9 准实时数据抽取
  103. 14.10 小结
  104. 第15章 ◄自动调度执行ETL作业►
  105. 15.1 Oozie简介
  106. 15.2 建立工作流前的准备
  107. 15.3 用Oozie建立定期ETL工作流
  108. 15.4 Falcon简介
  109. 15.5 用Falcon process调度Oozie工作流
  110. 15.6 小结
  111. 第16章 ◄维度表技术►
  112. 16.1 增加列
  113. 16.2 维度子集
  114. 16.3 角色扮演维度
  115. 16.4 层次维度
  116. 16.5 退化维度
  117. 16.6 杂项维度
  118. 16.7 维度合并
  119. 16.8 分段维度
  120. 16.9 小结
  121. 第17章 ◄事实表技术►
  122. 17.1 周期快照
  123. 17.2 累积快照
  124. 17.3 无事实的事实表
  125. 17.4 迟到的事实
  126. 17.5 累积度量
  127. 17.6 小结
  128. 第18章 ◄联机分析处理►
  129. 18.1 联机分析处理简介
  130. 18.2 联机分析处理实例
  131. 18.3 交互查询与图形化显示
  132. 18.4 小结
  133. 第三部分 HAWQ数据挖掘
  134. 第19章 ◄整合HAWQ与MADlib►
  135. 19.1 MADlib简介
  136. 19.2 安装与卸载MADlib
  137. 19.3 MADlib基础
  138. 19.4 小结
  139. 第20章 ◄奇异值分解►
  140. 20.1 奇异值分解简介
  141. 20.2 MADlib奇异值分解函数
  142. 20.3 奇异值分解实现推荐算法
  143. 20.4 小结
  144. 第21章 ◄主成分分析►
  145. 21.1 主成分分析简介
  146. 21.2 MADlib的PCA相关函数
  147. 21.3 PCA应用示例
  148. 21.4 小结
  149. 第22章 ◄关联规则方法►
  150. 22.1 关联规则简介
  151. 22.2 Apriori算法
  152. 22.3 MADlib的Apriori算法函数
  153. 22.4 Apriori应用示例
  154. 22.5 小结
  155. 第23章 ◄聚类方法►
  156. 23.1 聚类方法简介
  157. 23.2 k-means方法
  158. 23.3 MADlib的k-means相关函数
  159. 23.4 k-means应用示例
  160. 23.5 小结
  161. 第24章 ◄回归方法►
  162. 24.1 回归方法简介
  163. 24.2 Logistic回归
  164. 24.3 MADlib的Logistic回归相关函数
  165. 24.4 Logistic回归示例
  166. 24.5 小结
  167. 第25章 ◄分类方法►
  168. 25.1 分类方法简介
  169. 25.2 决策树
  170. 25.3 MADlib的决策树相关函数
  171. 25.4 决策树示例
  172. 25.5 小结
  173. 第26章 ◄图算法►
  174. 26.1 图算法简介
  175. 26.2 单源最短路径
  176. 26.3 MADlib的单源最短路径相关函数
  177. 26.4 单源最短路径示例
  178. 26.5 小结
  179. 第27章 ◄模型验证►
  180. 27.1 交叉验证简介
  181. 27.2 MADlib的交叉验证相关函数
  182. 27.3 交叉验证示例
  183. 27.4 小结
载入中

大家都喜欢