第四章 理解数据

魏贞原
为了得到更准确的结果,我们必须理解我们的数据,以便我们建立和优化我们的模型。在这里将介绍七种方法来理解我们的数据。 · 简单的查看数据 · 审查数据的维度。 · 审查数据的类型和熟悉。 · 总结查看数据分类的分布情况。 · 通过描述性统计来分析数据。 · 理解数据属性的相关性。 · 审查数据的分布状况。 4.1 数据导入 在审查我们的数据之前,我们需要先将数据导入到Python中。我们的数据通常会存储在CSV文件,或者很方便的转化到CSV的EXCEL中,在这里介绍一种常用的利用Pandas导入CSV文件的方法。 通过Pandas来导入CSV文件使用pandas.read_csv()函数。这个函数的返回值是DataFrame,可以很方便的进行下一步的处理。这个函数的名称非常直观,便于代码的阅读和后续对数据的处理,我推荐大家在导入CSV文件时,使用这个方法。 from pandas import read_csv # 使用Pandas导入CSV数据 filename = 'pima_data.csv' names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = read_csv(filename, names=names) print(data.shape) 这段代码为数据补充了文件头,执行结果如下: (768, 9) 4.2 简单的查看数据 没有任何方法比对数据的简单审视更有效的让我们理解数据。通过对数据的观察,我们可以发现数据的内在关系。这些发现将会有助于对数据的整理工作。我们通过一个简单的例子来查看一下最初的10行数据。 from pandas import read_csv # 显示数据最初10行 filename = 'pima_data.csv'…