大数据技术入门(第2版)
杨正洪
内容简介
目前国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、采集、存储、访问、安全、分析与开发等方面得到指导和帮助。因此编写了这本大数据技术的入门书。
本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析、大数据开发、大数据环境自动化部署(Docker和K8s)等内容。
本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员、IT经理、CTO、CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。 前言
随着本书第1版的出版之后,Hadoop生态圈和大数据领域发生了很大的变化。在本书中,我们包含了最新的信息:
(1)公有云和大数据的关系:我们曾经认为,云软件本身需要消耗资源,增加管理的复杂度,而大数据需要大量的机器,所以,大数据的搭建可以直接在物理机上进行,而不是基于云。在最近3年的工作中,我深刻认识到,大型公有云的弹性分配的能力,是大数据所需要的。我们往往无法估计所需要的资源数量,而大型公有云的弹性能力给了我们这个自动扩展的能力。这无论对创业企业还是大型企业,都是很有必要的。我们有一个企业客户,从3年前每月支付300美元来使用我们的大数据平台到现在每月支付100万美元来使用,这个客户的数据量每年迅猛增长,即使是神仙,也估计不出来资源的这种需求趋势。大型公有云就解决了这个问题。所以,在本书中,我们以AWS为例让读者深刻理解如何在大型公有云上做大数据。对于大数据的开发人员而言,你就不仅仅是一位开发人员那么简单了,而是一个DevOps人员,也就是你既要懂公有云,又要在云端运维你自己搭建和开发的大数据平台与大数据分析产品。
(2)YARN 2.9…