机器学习实战

[美] Peter Harrington
献词 致约瑟夫与米洛。 译者序 这是我翻译的第三本书了,前两本分别是《信息检索导论》和《大数据:大规模互联网数据挖掘与分布式处理》。与图灵公司有了这两次合作后,我们一直保持着十分密切的联系。2012年11月,图灵的编辑和我说,这本书的原译者不能继续翻译了,问我能否续译后面的十二章。我翻阅了一下,觉得这本书不错,能帮助不少人,于是很快就接下了这个翻译任务,并在11月底启动了我的第三次图灵翻译之旅。 我翻译的这三本书分别涉及信息检索、数据挖掘和机器学习。虽然这几个领域各不相同,但是它们之间有着十分密切的关联。简单地说,机器学习算法在包含信息检索和数据挖掘在内的多个领域中都有着十分广泛的应用。现代互联网中的搜索引擎、社交网络、推荐引擎、计算广告、电子商务等应用中,都包含大量的机器学习算法。“机器学习”已经成为学术界和工业界炙手可热的术语。了解机器学习算法,是很多研究人员和互联网从业人员的基本要求。 翻译本书期间,业界和研究界也出现了大量热点名词,包括“大数据”(big data)、“深度学习”(deep learning)、“知识图谱”(knowledge graph)等,基于社交网络的研究和应用也层出不穷。可以说,机器学习与这些名词之间都具有十分密切的联系,了解机器学习对于把握业界和研究界的脉搏至关重要。 本书没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果”来介绍每一个算法。学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。这本书的最大好处就是边学边用,非常适合于急需迈进机器学习领域的人员学习。实际上,即使对于那些对机器学习有所了解的人来说,通过代码实现也能进一步加深对机器学习算法的理解。 本书的代码采用Python语言编写。Python代码简单优雅、易于上手,科学计算软件包众多,已经成…