Hadoop与大数据挖掘(第2版)
王哲 张良均 李国辉 等
前言
为什么要写这本书
伴随着Web 2.0、云计算、物联网等概念和技术的提出与快速发展,信息时代的“大数据”特征越来越明显。大数据相关的数据仓库、数据挖掘技术在商业、军事、经济、学术等众多领域也开始发挥越来越大的作用。与此同时,庞大的数据规模也给传统的数据挖掘工作带来了巨大的挑战。分布式计算平台具有强劲的数据处理能力,因此,数据挖掘与分布式计算平台相结合的方式正在成为行业的趋势,并不断地显现出强大的优势和潜力。以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统的必要组成部分。结合Hadoop分布式架构进行数据挖掘的方式具备更高的计算效率,且计算能力的扩展性也更好。
如何将大数据技术和数据挖掘技术相结合,解决企业实际遇到的大数据相关问题,并从数据中挖掘出有价值的信息,是企业面临的难题。因此,目前企业对大数据人才依旧有比较大的需求,并且对大数据人才的专业技能、实操能力提出了更高的要求。
在大数据领域中,Hadoop技术的应用无疑很广泛。Hadoop技术除了自身强大的功能之外,也可以与Mahout、Spark MLlib等技术结合使用,这样不仅可以帮助企业对海量数据进行基础分析,还能构建挖掘模型,从大数据中挖掘出有价值的信息。
本书提供了大数据相关技术的介绍、原理、实践、真实业务场景应用等内容,能够有效指导高校教师与学生理解和掌握大数据相关技术原理及技术实践,并为数据挖掘与分布式计算平台的结合使用打下良好的技术基础,同时也能够促进教学实践与行业技术及应用发展的动态融合。
本书特色
本书采用“基础篇+实战篇”的编写结构,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。
本书的基础篇从大数据的概念、特点、应用及大数据平台出发,较为全面地介绍了大数据相关的技术框架,包括Hadoop、HBase、Hive、Spark、Flume、…