Spark核心技术与高级应用

于俊
前言 上善若水,水善利万物而不争。 数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。 生活离不开水,同样离不开数据,我们被数据包围,在数据中生活,在数据中入梦和清醒。 某夜入梦时分,趴桌而眠,偶遇庄周那只彩色翅膀的蝴蝶飞入梦中,在数据上翩翩起舞;清醒时分,蝴蝶化身数据,继续在眼前飞舞,顿悟大数据之哲学。本书从《道德经》和《庄子》各精选10句名言,并结合大数据相关内容,对名言加以讲解,引导大家以老庄的思考方式来认识大数据的内涵,探求老子道之路和庄子智慧之路。 为什么要写这本书 2014年春天,我所在的知识云团队聚焦大数据,调研过程中,深深感觉到国内资料匮乏,可供参考的资料仅是Spark官方文档。团队人员英文水平参差不齐,Spark官方文档门槛比较高,学习起来困难重重。 当时和几个同事一起,对Spark官方文档进行了翻译,参考了机械工业出版社《Spark快速数据处理》的小册子,编了一本《Spark数据处理》内部文档,解决了一部分问题,并将Spark应用推向具体业务。在实际业务中,相比传统的数据处理,尤其是实时处理和迭代计算,MapReduce在Spark面前显得苍白无力。随着Spark的应用越来越多,深深感觉到《Spark数据处理》内部文档的不足,遗憾的是,一直没有时间进行补充和完善,俨然成了一块心病。 2014年9月,在机械工业出版社华章公司福川兄的指导下,开始重点思索:Spark解决哪些问题、优势在哪里、从业人员遇到哪些困难、如何解决这些困难等问题,并得到了吴爱华、吕劲松、代其锋、马海平、向海、陈明磊等几位同事的支持。怀着一颗“附庸风雅”之心,我决定和大家一起写一本具有一定实战价值的Spark方面的书籍。 当前大数据从业者,有数据科学家、算法专家、来自互联网的程序员、来自传统行业的工程师等,无论来自哪里,作…