Spark大数据编程实用教程
艾叔
前言
在大数据开发中,大数据处理是其中十分关键、必不可少的一环。Spark是主流的通用大数据处理平台,因此,要学习大数据开发,必然要学习Spark。
近年来,作者在大数据教学上,尤其是在Spark技术的应用和推广上进行了一系列有益的尝试。
● 在全国较早地开设了云计算及大数据相关课程。
● 在全国较早地对本科生开展了系统、深入的Spark编程训练。
● 主讲的Spark实战视频课程在51CTO学院长期排名大数据(Spark分类)课程的年销量第一。
● 作者指导3支Spark零基础本科生团队参加了3届全国性Spark编程比赛(第二届、第三届和第四届全国高校云计算应用创新大赛技能赛),在同多支985/211高校的参赛队角逐中,我们的本科生队战胜了多支研究生队,共获得全国总决赛二等奖两次,三等奖一次。
● 此外,编者指导的云计算和大数据作品,参加国家级科技创新竞赛,共获得全国特等奖一次,一等奖两次。
在此期间,编者接触并培养了大量的零基础Spark学习者,总结出Spark初学者的四个共性问题。
● 内容繁杂,理不清头绪:Spark的学习内容太多,哪些是必须学的?先学哪个?后学哪个?漫无目的地学,只会导致事倍功半。
● 基础不够:Spark开发需要大量的前置知识,例如虚拟机、Linux命令、网络基础、分布式系统基础和编程语言等,很多都是理论和实践结合在一起的,有一个问题搞不定,就会卡住进行不下去。
● Scala难以学习:Scala语法晦涩难懂,读Spark的Scala API,明明很简单的函数,却看起来像天书。
● 无法动手:看了大量的Spark编程书籍,明白了Spark的技术原理,但是无法将自己的想法实现成Spark程序,更不用说利用Spark特性进行优化了。
为此,编者编写了这本《Spark大数据编程实用教程》,力图能够帮助Spark初学者快速掌握Spark编程技能,少走弯…