pandas数据处理与分析
耿远昊
内容提要
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。
本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。 前 言
“pandas令人头痛!——我在学习pandas库时曾如此抱怨。
pandas库的函数令人眼花缭乱,现实中的复杂问题难免使人手足无措。如果你刚开始使用pandas,遇到报错是很正常的,即使正确地进行了修复,下次遇到类似的问题时你可能已经遗忘了先前的解决方案,这样的情况听上去令人有些沮丧。因此,我经过总结思考并结合实践,梳理了pandas中常用的函数,将本书的前3个部分划分为“1+4+4”的模块结构,即“pandas基础”+“4类pandas操作”+“4类pandas数据”,在每个模块中总结了函数之间的逻辑关系,从而展示出数据处理的宏观体系。除了数据处理,还要对数据进行分析,因此在先前的结构之上,读者还应该掌握3个问题的解决方案,即“怎么分析”“怎么处理”“怎么加速”,这对应“数据观测”“特征工程”和“性能优化”这3个知识模块。
数据处理与分析是实战型任务,读者需要通过一些高质量的练习来巩固所学知识。因此,本书配备了一定数量的习题,这些习题能够帮助读者理解、强化和拓展书中介绍的内容。
在本书写作期间,我也为pandas的1.1…