Python数据科学手册

Python数据科学手册

图灵程序设计丛书

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
9.3208 评价豆瓣读书
免费试读

作品简介

本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。

首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;

第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;

第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;

第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;

第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。

本书适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

Jake VanderPlas:Python科学栈深度用户和开发者,尤其擅长Python科学计算和数据可视化,是altair等可视化程序库的创建人,并为Scikit-Learn、IPython等Python程序库做了大量贡献。现任美国华盛顿大学eScience学院物理科学研究院院长。

作品目录

  1. 版权声明
  2. O'Reilly Media, Inc. 介绍
  3. 业界评论
  4. 译者序
  5. 前言
  6. 什么是数据科学
  7. 目标读者
  8. 为什么用Python
  9. 内容概览
  10. 使用代码示例
  11. 软件安装注意事项
  12. O'Reilly Safari
  13. 联系我们
  14. 第 1 章 IPython:超越Python
  15. 1.1 shell还是Notebook
  16. 1.2 IPython的帮助和文档
  17. 1.3 IPython shell中的快捷键
  18. 1.4 IPython魔法命令
  19. 1.5 输入和输出历史
  20. 1.6 IPython和shell命令
  21. 1.7 与shell相关的魔法命令
  22. 1.8 错误和调试
  23. 1.9 代码的分析和计时
  24. 1.10 IPython参考资料
  25. 第 2 章 NumPy入门
  26. 2.1 理解Python中的数据类型
  27. 2.2 NumPy数组基础
  28. 2.3 NumPy数组的计算:通用函数
  29. 2.4 聚合:最小值、最大值和其他值
  30. 2.5 数组的计算:广播
  31. 2.6 比较、掩码和布尔逻辑
  32. 2.7 花哨的索引
  33. 2.8 数组的排序
  34. 2.9 结构化数据:NumPy的结构化数组
  35. 第 3 章 Pandas数据处理
  36. 3.1 安装并使用Pandas
  37. 3.2 Pandas对象简介
  38. 3.3 数据取值与选择
  39. 3.4 Pandas数值运算方法
  40. 3.5 处理缺失值
  41. 3.6 层级索引
  42. 3.7 合并数据集: Concat 与 Append 操作
  43. 3.8 合并数据集:合并与连接
  44. 3.9 累计与分组
  45. 3.10 数据透视表
  46. 3.11 向量化字符串操作
  47. 3.12 处理时间序列
  48. 3.13 高性能Pandas: eval() 与 query()
  49. 3.14 参考资料
  50. 第 4 章 Matplotlib数据可视化
  51. 4.1 Matplotlib常用技巧
  52. 4.2 两种画图接口
  53. 4.3 简易线形图
  54. 4.4 简易散点图
  55. 4.5 可视化异常处理
  56. 4.6 密度图与等高线图
  57. 4.7 频次直方图、数据区间划分和分布密度
  58. 4.8 配置图例
  59. 4.9 配置颜色条
  60. 4.10 多子图
  61. 4.11 文字与注释
  62. 4.12 自定义坐标轴刻度
  63. 4.13 Matplotlib自定义:配置文件与样式表
  64. 4.14 用Matplotlib画三维图
  65. 4.15 用Basemap可视化地理数据
  66. 4.16 用Seaborn做数据可视化
  67. 4.17 参考资料
  68. 第 5 章 机器学习
  69. 5.1 什么是机器学习
  70. 5.2 Scikit-Learn简介
  71. 5.3 超参数与模型验证
  72. 5.4 特征工程
  73. 5.5 专题:朴素贝叶斯分类
  74. 5.6 专题:线性回归
  75. 5.7 专题:支持向量机
  76. 5.8 专题:决策树与随机森林
  77. 5.9 专题:主成分分析
  78. 5.10 专题:流形学习
  79. 5.11 专题:k-means聚类
  80. 5.12 专题:高斯混合模型
  81. 5.13 专题:核密度估计
  82. 5.14 应用:人脸识别管道
  83. 5.15 机器学习参考资料
  84. 关于作者
  85. 关于封面
  86. 看完了
载入中

热门划线

  1. 最后,不同于 Python 列表,NumPy 数组可以被指定为多维的。以下是用列表的列表初始化多维数组的一种方法:3 人
  2. 这并不是一本介绍 Python 和编程基础知识的书。它假设读者已经熟悉 Python 的基本语法,包括定义函数、分配变量、调用对象方法、实现程序控制流等基本能力。2 人
  3. 这本书将帮助 Python 用户学习如何通过 Python 的数据科学栈——包括 IPython、NumPy、Pandas、Matplotlib、Scikit-Learn,以及其他相关的程序库——高效地存储、处理和分析数据。2 人
  4. 当一个技术型思维的人要帮助他的朋友、家人或同事解决计算机方面的问题时,大多数时候,重要的不是知道答案,而是知道如何快速找到答案。2 人
  5. 要想成为一名高效的数据科学实践者,重要的不是记住针对每个场景应该使用的工具或命令,而是学习如何有效地找到未知信息,无论是通过搜索引擎还是其他方式。2 人
  6. 数组的属性2 人
  7. 数组的索引2 人
  8. 数组的变形2 人
  9. 当你面对大量的数据时,第一个步骤通常都是计算相关数据的概括统计值。最常用的概括统计值可能是均值和标准差,这两个值能让你分别概括出数据集中的“经典”值,但是其他一些形式的聚合也是非常有用的(如求和、乘积、中位数、最小值和最大值、分位数,等等)。2 人
  10. 但是需要注意,sum函数和np.sum函数并不等同,这有时会导致混淆。尤其是它们各自的可选参数都有不同的含义,np.sum函数是知道数组的维度的2 人

喜欢这本书的人也喜欢