Spark大数据分析实战

内容简介本书基于Spark 2.4.x新版本编写，从Spark核心编程语言Scala讲起，涵盖当前整个Spark生态系统主流的大数据开发技术。全书共9章，第1章讲解Scala语言的基础知识，包括IDEA工具的使用等；第2章讲解Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行；第3～9章讲解离线计算框架Spark RDD、Spark SQL和实时计算框架Kafka、Spark Streaming、Structured Streaming以及图计算框架GraphX等的基础知识、架构原理，同时包括常用Shell命令、API操作、内核源码剖析，并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书内容丰富，以实操案例为主，理论为辅，可作为Spark新手的入门书，也可作为大数据开发人员和从业者的学习用书，还可以作为培训机构或大中专院校的教学用书。作者简介张伟洋大数据领域资深专家，拥有多年顶尖互联网公司软件研发经验，曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作，先后多次给各大高校举行大数据专题讲座，对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。高等院校云计算与大数据专业课改教材《云计算与大数据概论》《大数据开发与应用》的主要编写者。前言当今互联网已进入大数据时代，大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据，数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB，甚至是BB、NB、DB。预计未来几年，全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数据技术的人才，大数据相关人才…