Spark大数据处理与分析
雷擎
内容简介
本书对Spark应用程序开发的基本概念和技术进行了系统的介绍,并通过简单易懂的实例说明了其具体实现过程。通过本书的学习,读者可以掌握Spark编程技术的基本概念、原理和编程方法,通过灵活的实践运用,能够进行应用程序的实际开发。
本书适用于Spark程序设计的初学者,可作为高等学校计算机专业的教材,也可作为Spark程序设计的培训教材。 前言
关于本书
要真正理解大数据,需要一些历史背景的帮助。大约在2001年,Gartner给出了大数据的定义:Big data is data that contains greater variety arriving in increasing volumes and with ever-higher velocity。其意思是大数据是这样的数据,随着其不断增加的容量和更快的速度,数据类型具有更大的多样性,这就是所谓的3V(Variety、Volume和Velocity)。简言之,大数据是更大、更复杂的数据集,尤其是来自更多的新数据源。这些数据集非常庞大,传统的数据处理软件无法管理它们。但是,这些大量的数据可以用来解决以前无法解决的业务问题。
尽管大数据的概念相对较新,但大数据集的起源可追溯到20世纪60年代和70年代,当数据世界刚刚起步时,出现了第一个数据中心和关系数据库。大约在2005年,人们开始意识到通过Facebook、YouTube和其他在线服务产生巨量的用户数量。Hadoop是在同一年开发的,是专门为存储和分析大数据集而创建的开源框架,NoSQL在这段时间也开始流行起来。类似于Hadoop这样的开源框架,Spark的发展对于大数据的发展至关重要,因为它们使得大数据更容易处理,并且更便宜地存储。在之后的几年中,数据量急剧上升,用户仍然在生成大量的数据。随着物联网(IoT)的出现,更多的物体和设备连接到互联网,收集…