Spark机器学习进阶实战

马海平 于俊 吕昕 等
前言 上善若水,水善利万物而不争。 数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。生活离不开水,同样离不开数据,我们被数据包围,在数据中生活,体会着数据量爆炸式增长带来的幸福和挑战。 本书从《道德经》和《庄子》精选名言,并结合大数据机器学习相关内容,对名言加以讲解,引导大家以老庄的思想认识大数据的内涵,使用机器学习进行大数据价值挖掘,探求老子道之路和庄子智慧之路。 为什么要写这本书 2014年春天,曾经和公司大数据团队小伙伴一起聚焦研究大数据,为了解决国内资料匮乏、学习门槛较高的问题,着手编写《Spark核心技术与高级应用》一书,并于2016年1月出版,取得了较好的反响,得到很多朋友的支持。 近年来,随着收集、存储和分析的数据量呈爆炸式增长,大规模的数据分析和数据价值挖掘能力已经成为影响企业生死存亡的关键,越来越多的企业必须面对这残酷而美好的挑战。基于大数据的机器学习有效解决了大数据带来的数据分析和数据挖掘瓶颈。 如何让更多的大数据从业人员更轻松地使用机器学习算法进行大数据价值挖掘,通过简单的学习建立大数据环境下的机器学习工程化思维,在不必深究算法细节的前提下,实现大数据分类、聚类、回归、协同过滤、关联规则、降维等算法,并使用这些算法解决实际业务场景的问题。2016年秋天,在机械工业出版社高婧雅编辑的指导下,怀着一颗附庸风雅之心,我决定和小伙伴们一起朝着新的目标努力。 本书的写作过程中,Spark版本也在不断变化,秉承大道至简的原则,我们一方面尽量按照新的版本进行统筹,另外一方面尽量做到和版本解耦,希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。 本书只是一个开始,如何使用机器学习算法从海量数据中挖掘出更多的价值,还需要无数的大数据从业人员前赴后继,突破漫漫雄关,共同创造美好的大…