第四章理解数据

为了得到更准确的结果，我们必须理解我们的数据，以便我们建立和优化我们的模型。在这里将介绍七种方法来理解我们的数据。 · 简单的查看数据 · 审查数据的维度。 · 审查数据的类型和熟悉。 · 总结查看数据分类的分布情况。 · 通过描述性统计来分析数据。 · 理解数据属性的相关性。 · 审查数据的分布状况。 4.1 数据导入在审查我们的数据之前，我们需要先将数据导入到Python中。我们的数据通常会存储在CSV文件，或者很方便的转化到CSV的EXCEL中，在这里介绍一种常用的利用Pandas导入CSV文件的方法。通过Pandas来导入CSV文件使用pandas.read_csv()函数。这个函数的返回值是DataFrame，可以很方便的进行下一步的处理。这个函数的名称非常直观，便于代码的阅读和后续对数据的处理，我推荐大家在导入CSV文件时，使用这个方法。 from pandas import read_csv # 使用Pandas导入CSV数据 filename = 'pima_data.csv' names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data = read_csv(filename, names=names) print(data.shape) 这段代码为数据补充了文件头，执行结果如下： (768, 9) 4.2 简单的查看数据没有任何方法比对数据的简单审视更有效的让我们理解数据。通过对数据的观察，我们可以发现数据的内在关系。这些发现将会有助于对数据的整理工作。我们通过一个简单的例子来查看一下最初的10行数据。 from pandas import read_csv # 显示数据最初10行 filename = 'pima_data.csv'…

第四章 理解数据