Python大数据分析与应用实战

余本国 刘宁 李春报
前言 随着大数据、人工智能技术的发展,从天气预报到垃圾分类,从“12345”市民服务热线工单自动转办、热点问题挖掘到短视频推荐,越来越多的领域在使用大数据和人工智能技术。本书用多个实际案例来帮助读者掌握数据分析和人工智能技术的方法。相关案例遵循先进行数据可视化,在直观地观察数据分布之后,再介绍难度更大的机器学习、深度学习等数据处理方法,实现对数据的预测、分类、聚类、降维等目标。读者不理解相关的数学原理也没有关系,可以先将程序调试通过,再进行更深入的学习。在找问题、看代码的过程中掌握相关算法的原理及Python编程的技巧,这也是一种高效的学习方法。 本书中的各章相互独立,在安装好必要的依赖库之后,程序可以单独运行,读者可以选择自己感兴趣的章节进行学习。但各章节的难度逐步提升,因此,建议读者按照顺序学习。本书尽可能用简单的案例介绍相应的数学原理,将模型简化,方便读者理解。而对更复杂的数学原理,如最小二乘、梯度下降、反向传播等,本书均一笔带过,想要了解算法细节的读者可以自行查阅相关资料。 ● 关于编程环境。本书所有的程序均使用Anaconda下的Spyder和Jupyter Notebook调试,计算机的操作系统为Windows 10,选择的软件版本为Python 3.8.5。大部分依赖库可以通过在Anaconda Prompt中输入“pip install库名”的方式完成安装,但仍有部分依赖库无法直接使用该语句完成安装,如决策树的可视化、深度学习库Keras等。此时需要读者发现问题,并一个一个地解决。相信随着学习的深入,看似困难的问题都能迎刃而解。 ● 关于数据。本书中的源数据大都由笔者整理并保存于本地,涉及数值数据、文本数据、图像数据等多种数据格式。其仅用于案例使用,是为了让读者学到相应的技能和使用方法。如果读者使用其他类似的数据,也不会影响书中案例结果的呈现,本书只是讲解…