数据科学实战

数据科学实战

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
8.2134 评价豆瓣读书
免费试读

作品简介

本书脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。

作者简介:

Rachel Schutt

美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。

Cathy O'Neil

约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics,个人博客:mathbabe.org。

译者简介:

冯凌秉

澳大利亚国立大学统计学博士,本科和研究生分别毕业于中南财经政法大学和中国人民大学。现在,他任职于江西财经大学金融管理国际研究院,任讲师、硕士生导师,研究方向为应用统计与金融计量。

王群锋

毕业于西安电子科技大学,现任职于IBM西安研发中心,从事下一代统计预测软件的开发运维工作。

作品目录

  1. O'Reilly Media, Inc.介绍
  2. 业界评论
  3. 作者介绍
  4. 关于封面图
  5. 前言
  6. 初衷
  7. 课程的起源
  8. 本书的起源
  9. 本书内容
  10. 组织结构
  11. 阅读须知
  12. 书中的代码
  13. 目标读者
  14. 基础知识要求
  15. 补充阅读
  16. 数学
  17. 编程
  18. 数据分析与统计推断
  19. 人工智能和机器学习
  20. 实验设计
  21. 可视化
  22. 关于本书其他贡献者
  23. 使用代码示例
  24. Safari\(^{®}\) Books Online
  25. 联系我们
  26. 致谢
  27. 第 1 章 简介:什么是数据科学
  28. 1.1 大数据和数据科学的喧嚣
  29. 1.2 冲出迷雾
  30. 1.3 为什么是现在
  31. 数据化
  32. 1.4 数据科学的现状和历史
  33. 数据科学的职位
  34. 1.5 数据科学的知识结构
  35. 1.6 思维实验: 元定义
  36. 1.7 什么是数据科学家
  37. 1.7.1 学术界对数据科学家的定义
  38. 1.7.2 工业界对数据科学家的定义
  39. 第 2 章 统计推断、探索性数据分析和数据科学工作流程
  40. 2.1 大数据时代的统计学思考
  41. 2.1.1 统计推断
  42. 2.1.2 总体和样本
  43. 2.1.3 大数据的总体和样本
  44. 2.1.4 大数据意味着大胆的假设
  45. 2.1.5 建模
  46. 2.2 探索性数据分析
  47. 2.2.1 探索性数据分析的哲学
  48. 2.2.2 练习:探索性数据分析
  49. 示例代码
  50. 2.3 数据科学的工作流程
  51. 数据科学家在数据科学工作流程中的角色
  52. 2.4 思维实验:如何模拟混沌
  53. 2.5 案例学习:RealDirect
  54. 2.5.1 RealDirect是如何赚钱的
  55. 2.5.2 练一练:RealDirect公司的数据策略
  56. 示例R代码
  57. 第 3 章 算法
  58. 3.1 机器学习算法
  59. 3.2 三大基本算法
  60. 3.2.1 线性回归模型
  61. 小贴士
  62. 模型拟合
  63. 最小二乘模型的延伸
  64. 增添关于模型误差项的假设
  65. 模型评估标准
  66. 其他类型的模型误差测度
  67. 回顾一下
  68. 练习
  69. 3.2.2 k近邻模型(k-NN)
  70. 信用评分实例
  71. 相似性/距离测度
  72. 训练和测试数据集
  73. 选择一个模型评价标准
  74. 小结
  75. k的选择
  76. 模型有哪些假设
  77. 3.2.3 k均值算法
  78. 二维的问题
  79. 3.3 练习:机器学习算法基础
  80. 答案
  81. 示例R代码:房地产数据的线性回归模型
  82. 示例R代码:房地产数据的k近邻模型
  83. 3.4 总结
  84. 3.5 思维实验:关于统计学家的自动化
  85. 第 4 章 垃圾邮件过滤器、朴素贝叶斯与数据清理
  86. 4.1 思维实验:从实例中学习
  87. 4.1.1 线性回归为何不适用
  88. 4.1.2 k近邻效果如何
  89. 4.2 朴素贝叶斯模型
  90. 4.2.1 贝叶斯法则
  91. 4.2.2 个别单词的过滤器
  92. 4.2.3 直通朴素贝叶斯
  93. 4.3 拉普拉斯平滑法
  94. 4.4 对比朴素贝叶斯和k 近邻
  95. 4.5 Bash代码示例
  96. 4.6 网页抓取:API和其他工具
  97. 4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型
  98. 使用《纽约时报》的API: R代码示例
  99. 第 5 章 逻辑回归
  100. 5.1 思维实验
  101. 5.2 分类器
  102. 5.2.1 运行时间
  103. 5.2.2 你自己
  104. 5.2.3 模型的可解释性
  105. 5.2.4 可扩展性
  106. 5.3 逻辑回归:一个来自M6D的真实案例研究
  107. 5.3.1 点击模型
  108. 5.3.2 模型背后
  109. 5.3.3 
  110. α和β 的参数估计
  111. 5.3.4 牛顿法
  112. 5.3.5 随机梯度下降法
  113. 5.3.6 操练
  114. 5.3.7 模型评价
  115. 5.4 练习题
  116. 示例R代码
  117. 第 6 章 时间戳数据与金融建模
  118. 6.1 Kyle Teague与GetGlue公司
  119. 6.2 时间戳
  120. 6.2.1 探索性数据分析(EDA)
  121. 6.2.2 指标和新变量
  122. 6.2.3 下一步怎么做
  123. 6.3 轮到Cathy O'Neill了
  124. 6.4 思维实验
  125. 6.5 金融建模
  126. 6.5.1 样本期内外以及因果关系
  127. 6.5.2 金融数据处理
  128. 6.5.3 对数收益率
  129. 6.5.4 实例:标准普尔指数
  130. 6.5.5 如何衡量波动率
  131. 6.5.6 指数平滑法
  132. 6.5.7 金融模型的反馈
  133. 6.5.8 聊聊回归模型
  134. 6.5.9 先验信息量
  135. 6.5.10 一个小例子
  136. 6.6 练习:GetGlue提供的时间戳数据
  137. 练习:金融建模
  138. 第 7 章 从数据到结论
  139. 7.1 William Cukierski
  140. 7.1.1 背景介绍:数据科学竞赛
  141. 7.1.2 背景介绍:众包模式
  142. 7.2 Kaggle模式
  143. 7.2.1 Kaggle的参赛者
  144. 7.2.2 Kaggle的客户
  145. 7.3 思维实验:关于作业自动评分系统
  146. 7.4 特征选择
  147. 7.4.1 例子:留住用户
  148. 7.4.2 过滤型
  149. 7.4.3 包装型
  150. 什么算法合适
  151. 什么选择标准合适
  152. 实际操作
  153. 7.4.4 决策树与嵌入型变量选择
  154. 7.4.5 熵
  155. 7.4.6 决策树算法
  156. 7.4.7 如何在决策树模型中处理连续性变量
  157. 7.4.8 随机森林
  158. 7.4.9 用户黏性:模型的预测能力与可解释性
  159. 7.5 David Huffaker:谷歌社会学研究的新方法
  160. 7.5.1 从描述性统计到预测模型
  161. 7.5.2 谷歌的社交研究
  162. 7.5.3 隐私保护
  163. 7.5.4 思维实验:如何消除用户的顾虑
  164. 第 8 章 构建面向大量用户的推荐引擎
  165. 8.1 一个真实的推荐引擎
  166. 8.1.1 最近邻算法回顾
  167. 8.1.2 最近邻模型的已知问题
  168. 8.1.3 超越近邻模型:基于机器学习的分类模型
  169. 8.1.4 高维度问题
  170. 8.1.5 奇异值分解(SVD)
  171. 8.1.6 关于SVD的重要特性
  172. 8.1.7 主成分分析(PCA)
  173. 定理:隐含变量是互不相关的
  174. 8.1.8 交替最小二乘法
  175. 没有证明过程的定理:如果先验信息量足够,那么刚才的迭代算法一定收敛
  176. 8.1.9 固定矩阵V,更新矩阵U
  177. 8.1.10 关于这些算法的一点思考
  178. 8.2 思维实验:如何过滤模型中的泡沫
  179. 8.3 练习:搭建自己的推荐系统
  180. Python示例代码
  181. 第 9 章 数据可视化与欺诈侦测
  182. 9.1 数据可视化的历史
  183. 9.1.1 Gabriel Tarde
  184. 9.1.2 Mark的思维实验
  185. 9.2 到底什么是数据科学
  186. 9.2.1 Processing
  187. 9.2.2 Franco Moretti
  188. 9.3 一个数据可视化的方案实例
  189. 9.4 Mark的数据可视化项目
  190. 9.4.1 《纽约时报》大厅里的可视化:Moveable Type
  191. 9.4.2 屏幕上的生命:Cascade可视化项目
  192. 9.4.3 Cronkite广场项目
  193. 9.4.4 eBay与图书网购
  194. 9.4.5 公共剧场里的“莎士比亚机”
  195. 9.4.6 这些展览的目的是什么
  196. 9.5 数据科学和风险
  197. 9.5.1 关于Square公司
  198. 9.5.2 支付风险
  199. 机器学习在可疑支付行为侦测中的应用
  200. 9.5.3 模型效果的评估问题
  201. 定义误差指标
  202. 定义标签
  203. 特征选择与模型学习过程中的诸多挑战
  204. 9.5.4 建模小贴士
  205. 程序的可用性与可读性
  206. 找到小伙伴
  207. 将机器学习模型产品化
  208. 9.6 数据可视化在Square
  209. 9.7 Ian的思维实验
  210. 9.8 关于数据可视化
  211. 数据可视化练习作业
  212. 第 10 章 社交网络与数据新闻学
  213. 10.1 Morning Analytics与社交网络
  214. 案例-属性数据与社交网络数据
  215. 10.2 社交网络分析
  216. 10.3 关于社交网络分析的相关术语
  217. 10.3.1 如何衡量向心性
  218. 10.3.2 使用哪种向心性测度
  219. 10.4 思维实验
  220. 10.5 Morningside Analytics
  221. 可视化与中观视角
  222. 10.6 从统计学的角度看社交网络分析
  223. 10.6.1 网络的表示方法与特征值向心度
  224. 10.6.2 随机网络的第一个例子:Erdos-Renyi模型
  225. 10.6.3 随机网络的第二个例子:指数随机网络图模型
  226. ERGM的推断问题
  227. 关于随机图模型的其他例子:隐空间模型与小世界模型
  228. 10.7 数据新闻学
  229. 10.7.1 关于数据新闻学的历史回顾
  230. 10.7.2 数据新闻报告的写作:来自专家的建议
  231. 第 11 章 因果关系研究
  232. 11.1 相关性并不代表因果关系
  233. 11.1.1 对因果关系提问
  234. 11.1.2 干扰因子:一个关于在线约会网站的例子
  235. 11.2 OK Cupid的发现
  236. 11.3 黄金准则:随机化临床实验
  237. 11.4 A/B 测试
  238. 11.5 退一步求其次:关于观察性研究
  239. 11.5.1 辛普森悖论
  240. 11.5.2 鲁宾因果关系模型
  241. 11.5.3 因果关系的可视化
  242. 11.5.4 定义:因果关系
  243. 11.6 三个小建议
  244. 第 12 章 流行病学
  245. 12.1 Madigan的学术背景
  246. 12.2 思维实验
  247. 12.3 统计学在现代
  248. 12.4 医学文献与观察性研究
  249. 12.5 分层法不解决干扰因子的问题
  250. 人们在实证中到底如何处理干扰因子的问题
  251. 12.6 就没有更好的办法吗
  252. 12.7 研究性实验(OMOP)
  253. 12.8 最后的思维实验
  254. 第 13 章 从竞赛中学到的:数据泄漏和模型评价
  255. 13.1 Claudia作为数据科学家的知识结构
  256. 13.1.1 首席数据科学家的生活
  257. 13.1.2 作为一名女数据科学家
  258. 13.2 数据挖掘竞赛
  259. 13.3 如何成为出色的建模者
  260. 13.4 数据泄漏
  261. 13.4.1 市场预测
  262. 13.4.2 亚马逊案例学习:出手阔绰的顾客
  263. 13.4.3 珠宝抽样问题
  264. 13.4.4 IBM客户锁定
  265. 13.4.5 乳腺癌检测
  266. 13.4.6 预测肺炎
  267. 13.5 如何避免数据泄漏
  268. 13.6 模型评价
  269. 13.6.1 准确度重要吗
  270. 13.6.2 概率的重要性,不是非0即1
  271. 13.7 如何选择算法
  272. 13.8 最后一个例子
  273. 13.9 临别感言
  274. 第 14 章 数据工程:MapReduce、Pregel、Hadoop
  275. 14.1 关于David Crawshaw
  276. 14.2 思维实验
  277. 14.3 MapReduce
  278. 14.4 单词频率问题
  279. 初涉MapReduce
  280. 14.5 其他MapReduce案例
  281. MapReduce不能做什么
  282. 14.6 Pregel
  283. 14.7 关于Josh Wills
  284. 14.8 思维实验
  285. 14.9 给数据科学家的话
  286. 14.9.1 数据丰富和数据匮乏
  287. 14.9.2 设计模型
  288. 认清分歧
  289. 14.10 算算Hadoop的经济账
  290. 14.10.1 Hadoop简介
  291. 14.10.2 Cloudera
  292. 14.11 Josh的工作流程
  293. 14.12 如何开始使用Hadoop
  294. 第 15 章 听听学生们怎么说
  295. 15.1 重在过程
  296. 15.2 不再简单
  297. 15.3 援助之手
  298. 15.4 殊途同归
  299. 15.5 逢山开路,遇水架桥
  300. 15.6 作品展示
  301. 第 16 章 下一代数据科学家、自大狂和职业道德
  302. 16.1 前面都讲了些什么
  303. 16.2 什么是数据科学(再问一次)
  304. 16.3 谁是下一代的数据科学家
  305. 16.3.1 成为解决问题的人
  306. 16.3.2 培养软技能
  307. 16.3.3 成为提问者
  308. 16.4 做一个有道德感的数据科学家
  309. 16.5 对于职业生涯的建议
  310. 1. 你选择什么样的生活
  311. 2. 你有哪些局限
  312. 看完了
载入中

热门划线

  1. 数据也不会自己说话,它只能够以一种量化的、无力的方式去描述、再现我们身边的社会事件。8 人
  2. 模型不仅预测未来,它还在影响未来。8 人
  3. 如果我们的目标是开发一款数据产品或其产品原型,例如垃圾邮件分类、搜索排名算法、推荐引擎等。数据科学和统计学的不同之处就体现出来了,数据产品最终会融合到日常生活中,用户会和产品产生交互,交互会产生更多的数据,这样形成一个反馈的循环。7 人
  4. 一是如何根据属性定义个体之间的相似性或者紧密程度。7 人
  5. 如果我们可以度量和提取这些对象的某些特征,就称为对总体的一组观察数据,习惯上,使用N表示对总体的观察次数。6 人
  6. 当用一台机器无法处理时,就可以称为“大数据”。不同的人、不同的公司,拥有的计算资源是有差别的,对于数据科学家来说,如果数据大到一台机器处理不了,就可以称其为“大数据”,因为她不得不学习使用一些全新的工具和方法去解决这一问题。6 人
  7. 探索性数据分析是你和数据之间的桥梁,它不向任何人证明什么。5 人
  8. 使用探索性数据分析有很多重要的原因。包括获取对数据的直觉、比较变量的分布、对数据进行检查(确保数据的规模在你预期范围内,数据的格式是你想要的等)、发现数据中的缺失值和异常值、对数据进行总结。5 人
  9. 这一套从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。4 人
  10. 只有当数据的规模大到对现有技术(比如内存、外存、复杂程度、处理速度等)构成挑战时,才配称为“大”。4 人

喜欢这本书的人也喜欢