Hive性能调优实战

前言 Hive作为Hadoop生态的重要组成部分，以其稳定和简单易用成为了当前企业在搭建大数据平台及构建企业级数据仓库时使用较为普遍的大数据组件之一。目前，图书市场上关于Hive的书籍比较少，而专题介绍Hive性能调优的图书就更少了，几乎是个空白。有些书籍中涉及Hive性能调优，但也只是浅尝辄止。笔者认为，Hive是构建在Hadoop生态之上的，其性能调优其实与自身及其关联的大数据组件都有很密切的联系。鉴于市面上还没有从Hadoop的整体和全局介绍Hive性能调优的书籍，笔者编写了这本书。这本书除了总结和完善自己的知识体系外，还希望能将自己多年的大数据开发经验系统地总结出来，供读者借鉴，从而让他们在学习和工作中少走弯路。考虑到很多调优方法的着眼点有一定的相似性，这些方法一般可以适用于多个Hive版本，所以本书在讲解时穿插了Hive 1.x、Hive 2.x和Hive 3.x等多个版本的内容。本书特色 1.内容非常系统、实用本书从语法、表模型设计、执行计划和计算引擎等多个角度系统地介绍了Hive性能调优的相关知识。为了避免纸上谈兵，书中在讲解知识点时列举了大量的实例帮助读者理解。 2.从原理谈优化本书所介绍的实例都是从原理谈优化，让读者知其然也知其所以然。例如，在介绍HiveSQL调优时，我们会转换成计算引擎执行的等价代码，让读者知道HiveSQL的实际运行流程，从而直观地理解其可能引发的性能问题。 3.适用于多个Hive版本本书总结了Hive性能调优的方法论，并总结了Hive性能调优需要关注的技术点。这些方法论和技术点无论是现在还是将来，只要是将Hive构建于Hadoop大数据平台之上，就都可以借鉴和使用。本书内容第1章　举例感受Hive性能调优的多样性本章用代码演示了各种优化技巧，从多个完全不同的角度介绍了Hive性能调优的多样性，例如改写SQL、调整…