数据挖掘算法实践与案例详解

丁兆云 沈大勇 徐伟
图片: 图3-5 花萼长度特征分析 图片: 图3-6 花萼宽度特征分析 图片: 图3-7 花瓣长度特征分析 图片: 图3-8 花瓣宽度特征分析 图片: 图3-9 Fare直方图特征分析 图片: 图3-12 卧室数量不同的房屋价格分布 图片: 图6-2 三维散点图 图片: 图8-3 多元线性回归的函数图像 图片: 图14-7 相关性热力图 图片: 图15-2 不同岗位离职人员分布的饼状图 图片 前言 随着大数据、人工智能技术的快速发展,各行各业积累的数据越来越丰富,数据挖掘的需求越来越大。本书针对实际数据及数据挖掘任务需求,提供数据预处理、特征选择、数据可视化、算法运用等方面的数据挖掘模型的原理与实现代码,为运用数据挖掘提供可参考的方法。 笔者近年来一直从事数据挖掘方向的研究和数据挖掘课程的教学,长期指导学生参加数模竞赛、天池大数据竞赛、DataCastle大数据竞赛、Kaggle竞赛等高水平数据挖掘竞赛,并取得了优异成绩。同时,积极探索以数据挖掘技术为主线构建课堂教学与实践教学相融合的课程体系,总结了一套数据挖掘实践案例及参考代码,适合用于理工科相关专业的本科生与研究生的数据挖掘实验课程,也可供相关领域的科研与工程技术人员实践参考。 本书的组织结构如下: 第1章首先简述了数据挖掘的定义和分类,随后阐述了数据挖掘实践过程中的Python安装及环境配置方法并简单介绍了与本书中数据挖掘实践任务相关的数据集,让读者掌握如何安装实验环境,了解数据挖掘中的常用数据集。 第2章以贝叶斯分类为案例,阐述了分类的概念和实践全流程,包括数据集的划分、模型的运用和模型的评价,让读者能够针对具体数据,运用分类算法来完成数据分类过程。 第3章阐述了特征选择的实践方法,让读者掌握通过直方图与柱状图方法来完成数据的特征选择。 第4章阐述了数据清洗的实践方法,让读者掌握缺失值填充的方法,知道如何…