机器学习开发者指南

[阿根廷] 鲁道夫·邦宁(Rodolfo Bonnin)
内容提要 本书将带领读者学习如何实施各种机器学习技术及其日常应用的开发。本书分为9章,从易于掌握的语言基础数据和数学模型开始,向读者介绍机器学习领域中使用的各种库和框架,然后通过有趣的示例实现回归、聚类、分类、神经网络等,从而解决如图像分析、自然语言处理和时间序列数据的异常检测等实际问题。 本书适合机器学习的开发人员、数据分析人员、机器学习领域的从业人员,以及想要学习机器学习的技术爱好者阅读。使用任何脚本语言的编程人员都可以阅读本书,但如果熟悉Python语言的话,将有助于充分理解本书的内容。 序 过去10年中大数据在高速发展的社会中得到了越来越多的关注,同时,大数据也影响着不同领域的产业发展。机器学习在其中起着独特的作用,因为它提供了数据分析、数据挖掘、知识发现等所需的主要功能。这些功能以一种对日常使用的大多数系统来说不可见但普遍存在的方式提供可操作的自主智能性。虽然并不新奇,但机器学习的形式和方法已经得到了迅速发展,这是由电子商务、社交网络、互联网相关服务和产品以及以在线业务为中心的类似企业不断增长的需求所推动的。 Hadoop生态系统中涌现并逐渐成熟的其他技术推动了机器学习的突破,其中包括水平可扩展的计算资源和卓越的仓储功能,这使得对大型数据集的实时分析变得可行。与此同时,围绕Python编程语言的社区支持计划令复杂分析库的使用和发展变得广泛,从而得到了大量的知识和经验,同时能快速、简便地部署和投入到生产中。 目前,在机器学习中,神经网络发挥着独特的作用。七十多年前提出的第一个人工智能范式(神经网络)几次被社区抛弃,直到很多年后才被重新重视。其原因可能是缺乏足够的计算能力来进行复杂的分析,以及需要解决通过反复试验来组装、训练和测试不同拓扑结构这一繁重的任务。近年来,这种情况发生了巨大的变化,主要是由于云计算、GPU和编程库的出现,这些库允许使用简单的脚本建立网络…