第四章 理解数据
魏贞原
为了得到更准确的结果,我们必须理解我们的数据,以便我们建立和优化我们的模型。在这里将介绍七种方法来理解我们的数据。
· 简单的查看数据
· 审查数据的维度。
· 审查数据的类型和熟悉。
· 总结查看数据分类的分布情况。
· 通过描述性统计来分析数据。
· 理解数据属性的相关性。
· 审查数据的分布状况。
4.1 数据导入
在审查我们的数据之前,我们需要先将数据导入到Python中。我们的数据通常会存储在CSV文件,或者很方便的转化到CSV的EXCEL中,在这里介绍一种常用的利用Pandas导入CSV文件的方法。 通过Pandas来导入CSV文件使用pandas.read_csv()函数。这个函数的返回值是DataFrame,可以很方便的进行下一步的处理。这个函数的名称非常直观,便于代码的阅读和后续对数据的处理,我推荐大家在导入CSV文件时,使用这个方法。
from pandas import read_csv
# 使用Pandas导入CSV数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)
这段代码为数据补充了文件头,执行结果如下:
(768, 9)
4.2 简单的查看数据
没有任何方法比对数据的简单审视更有效的让我们理解数据。通过对数据的观察,我们可以发现数据的内在关系。这些发现将会有助于对数据的整理工作。我们通过一个简单的例子来查看一下最初的10行数据。
from pandas import read_csv
# 显示数据最初10行
filename = 'pima_data.csv'…