第十七章 二分类实例
魏贞原
上一章介绍了一个回归的例子,端到端的完成了一个机器学习项目的实践。接下来会通过一个实例来介绍一下分类问题项目的流程。
· 如何端到端的完成一个分类问题的模型。
· 如何通过数据转换提高模型的准确度。
· 如何通过调参提高模型的准确度。
· 如何通过使用集成算法提高模型的准确度。
17.1 问题定义
这个项目中将采用声呐,矿山和岩石数据集(http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28Sonar%2C+Mines+vs.+Rocks%29)。针对声纳返回的信息,来判断是金属还是岩石的问题。这个数据集总共有208条记录,每条数据记录,记录了60种不同的声呐波长探测的数据,并用R标记为岩石,M标记为金属来标记了每条记录。
17.2 导入数据
我们从UCI下载数据并保存在本地,数据的导入和之前的实例一样使用Pandas的read_csv来导入数据。在数据导入之前,首先导入所有的需要的类库。
# 导入类库 import numpy as np from matplotlib import pyplot from pandas import read_csv from pandas.plotting import scatter_matrix from pandas import set_option from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.model_selection import KFold from sklearn.model_selection import cross_val_score …