数据整理实践指南

数据整理实践指南

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。

作品简介

随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。

本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。

本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。

Q.Ethan McCallum,是一位顾问、作家,也是一名科技爱好者。他帮助很多公司在数据和技术方面做出明智的决策,他为The O’Relly Network 和Java.net撰写文章,并且为《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。

作品目录

  1. 作者简介
  2. 封面简介
  3. 版权声明
  4. 内容提要
  5. 前言
  6. 致谢
  7. 第1章 从头说起:什么是噪音数据
  8. 第2章 是我的问题还是数据的问题
  9. 2.1 理解数据结构
  10. 2.2 校验
  11. 2.3 可视化
  12. 2.4 小结
  13. 第3章 数据是给人看的不是给机器看的
  14. 3.1 数据
  15. 3.2 解决方案:编写代码
  16. 3.3 附言
  17. 3.4 其他格式
  18. 3.5 小结
  19. 第4章 纯文本中潜在的噪音数据
  20. 4.1 使用哪种纯文本编码
  21. 4.2 猜测文本编码格式
  22. 4.3 对文本规范化处理
  23. 4.4 问题:在纯文本中掺入了特定应用字符
  24. 4.5 通过Python处理文本
  25. 4.6 实践练习题
  26. 第5章 重组Web数据
  27. 5.1 你能获得数据吗
  28. 5.2 真正的困难
  29. 5.3 不利情况的解决办法
  30. 5.4 小结
  31. 第6章 检测撒谎者以及相互矛盾网上评论的困惑
  32. 6.1 Weotta公司
  33. 6.2 获得评论
  34. 6.3 情感分类
  35. 6.4 极化语言
  36. 6.5 创建语料库
  37. 6.6 训练分类器
  38. 6.7 分类器验证
  39. 6.8 用数据设计
  40. 6.9 经验教训
  41. 6.10 小结
  42. 6.11 信息资源
  43. 第7章 请噪音数据站出来
  44. 7.1 实例1:在制造业中减少缺陷
  45. 7.2 实例2:谁打来的电话
  46. 7.3 实例3:当“典型”不等于“平均”
  47. 7.4 经验总结
  48. 7.5 到工厂参观能成为试验的一部分吗
  49. 第8章 血、汗和尿
  50. 8.1 书呆子戏剧性工作交换
  51. 8.2 化学家如何整理数字
  52. 8.3 数据库都是我们的
  53. 8.4 仔细检查
  54. 8.5 生命短暂的漂亮代码库
  55. 8.6 改变化学家(和其他电子表单滥用者)
  56. 8.7 传递线(tl)和数据记录器(dr)
  57. 第9章 当数据与现实不匹配
  58. 9.1 到底是谁的报价机
  59. 9.2 股票分割、股利和调整
  60. 9.3 糟糕的现实
  61. 9.4 小结
  62. 第10章 偏差和误差的来源
  63. 10.1 估算上的偏差:一般性的问题
  64. 10.2 报告上的误差:一般性的问题
  65. 10.3 其他偏差来源
  66. 10.4 小结
  67. 参考文献
  68. 第11章 不要把完美和正确对立起来:噪音数据真是噪音吗
  69. 11.1 回忆学校生活
  70. 11.2 向着专业领域前进
  71. 11.3 应用实例——服务电话
  72. 11.4 继续前进
  73. 11.5 经验与未来展望
  74. 第12章 数据库攻击:什么时候使用文件
  75. 12.1 历史
  76. 12.2 建立我的工具箱
  77. 12.3 数据存储——我的路障
  78. 12.4 将文件作为数据存储器
  79. 12.5 文件的概念
  80. 12.6 文件支持的网络框架
  81. 12.7 反馈
  82. 第13章 卧库表,隐网络
  83. 13.1 关系成本分配模型
  84. 13.2 组合展开微妙的作用
  85. 13.3 隐藏网络的浮现
  86. 13.4 存储图表
  87. 13.5 利用Gremlin遍历图表
  88. 13.6 在网络属性里寻找价值
  89. 13.7 从多重数据模型角度考虑并使用正确的工具
  90. 13.8 致谢
  91. 第14章 云计算神话
  92. 14.1 关于“云”的介绍
  93. 14.2 何谓“云”
  94. 14.3 云和大数据
  95. 14.4 Fred的故事
  96. 14.5 Fred的荒唐事
  97. 14.6 结论和推荐
  98. 第15章 数据科学的阴暗面
  99. 15.1 避开这些陷阱
  100. 15.2 数据学家在机构中的位置
  101. 15.3 最后的想法
  102. 第16章 如何雇佣机器学习专家
  103. 16.1 确定问题
  104. 16.2 模型测试
  105. 16.3 创建训练集
  106. 16.4 选择特征
  107. 16.5 数据编码
  108. 16.6 训练集、测试集和解决方案集
  109. 16.7 问题描述
  110. 16.8 回答问题
  111. 16.9 整合解决方案
  112. 16.10 小结
  113. 第17章 数据的可追踪性
  114. 17.1 原因
  115. 17.2 个人经验
  116. 17.3 不变性:从函数程序设计借来的理念
  117. 17.4 案例
  118. 17.5 小结
  119. 第18章 社交媒体:是可抹去的印记吗
  120. 18.1 社交媒体:到底是谁的数据
  121. 18.2 管控
  122. 18.3 商业重组
  123. 18.4 对沟通和表达的期望
  124. 18.5 新的最终用户期望的技术含义
  125. 18.6 这个行业是做什么的
  126. 18.7 最终用户怎么做
  127. 18.8 我们怎样一起工作
  128. 第19章 揭秘数据质量分析:了解什么时候数据足够优质
  129. 19.1 框架介绍:数据质量分析的4个C
  130. 19.2 结论
  131. 看完了