大数据架构商业之路

大数据架构商业之路

从业务需求到技术方案

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
免费试读

作品简介

本书通过讲述一个虚拟的(如有雷同纯属巧合)互联网O2O创业故事,逐步展开介绍各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析。让读者身临其境,一起来探寻大数据的奥秘。对于想进一步深入研究技术实现细节的读者,也给出了继续阅读的方向和指导性建议。笔者衷心希望,无论是技术专家、产品经理,还是业务人员,只要阅读了本书便都能愉快地遨游在大数据的海洋中。

作者:黄申。

作品目录

  1. 推荐序一
  2. 推荐序二
  3. 前言
  4. 第1章 抉择
  5. 第2章 数据收集
  6. 2.1 互联网数据收集
  7. 2.1.1 网络爬虫
  8. 2.1.2 Apache Nutch简介
  9. 2.1.3 Heritrix简介
  10. 2.2 内部数据收集
  11. 2.2.1 Apache Flume简介
  12. 2.2.2 Facebook Scribe和Logstash
  13. 2.3 本章心得
  14. 2.4 参考资料
  15. 第3章 数据存储
  16. 3.1 持久化存储
  17. 3.1.1 Hadoop和HDFS
  18. 3.1.2 HBase简介
  19. 3.1.3 MongoDB
  20. 3.2 非持久化存储
  21. 3.2.1 缓存和散列
  22. 3.2.2 Memcached和Berkeley DB简介
  23. 3.2.3 Redis简介
  24. 3.3 本章心得
  25. 3.4 参考资料
  26. 第4章 数据处理
  27. 4.1 离线批量处理
  28. 4.1.1 Hadoop的MapReduce
  29. 4.1.2 Spark简介
  30. 4.1.3 Hive简介
  31. 4.1.4 Pig、Impala和Spark SQL
  32. 4.2 提升及时性:消息机制
  33. 4.2.1 ActiveMQ简介
  34. 4.2.2 Kafka简介
  35. 4.3 在线实时处理
  36. 4.3.1 Storm简介
  37. 4.3.2 Spark Streaming简介
  38. 4.4 本章心得
  39. 4.5 参考资料
  40. 第5章 信息检索
  41. 5.1 基本理念
  42. 5.2 相关性
  43. 5.2.1 布尔模型
  44. 5.2.2 基于排序的布尔模型
  45. 5.2.3 向量空间模型
  46. 5.2.4 语言模型
  47. 5.3 及时性
  48. 5.4 与数据库查询的对比
  49. 5.5 搜索引擎
  50. 5.5.1 Web搜索中的链接分析
  51. 5.5.2 电子商务中的商品排序
  52. 5.5.3 多因素和基于学习的排序
  53. 5.5.4 系统框架
  54. 5.5.5 Lucene简介
  55. 5.5.6 Solr简介
  56. 5.5.7 Elasticsearch简介
  57. 5.6 推荐系统
  58. 5.6.1 推荐的核心要素
  59. 5.6.2 推荐系统的分类
  60. 5.6.3 混合模型
  61. 5.6.4 系统架构
  62. 5.6.5 Mahout
  63. 5.7 在线广告
  64. 5.7.1 在线广告的类型
  65. 5.7.2 广告投放机制
  66. 5.7.3 广告的拍卖机制
  67. 5.7.4 广告系统架构
  68. 5.8 本章心得
  69. 5.9 参考资料
  70. 第6章 数据挖掘
  71. 6.1 基本理念
  72. 6.2 数据的表示和预处理
  73. 6.2.1 数据的表示
  74. 6.2.2 数据的预处理
  75. 6.3 机器学习算法
  76. 6.3.1 监督学习——分类
  77. 6.3.2 监督学习——回归
  78. 6.3.3 非监督学习——聚类
  79. 6.4 挖掘工具
  80. 6.4.1 Mahout简介
  81. 6.4.2 R简介
  82. 6.5 本章心得
  83. 6.6 参考资料
  84. 第7章 效能评估
  85. 7.1 效果评估
  86. 7.1.1 离线评估
  87. 7.1.2 非离线的评估
  88. 7.2 性能评估
  89. 7.2.1 计算复杂度
  90. 7.2.2 应用系统性能
  91. 7.2.3 JMeter工具
  92. 7.3 本章心得
  93. 7.4 参考资料
  94. 第8章 大数据技术全景
  95. 第9章 商品太多啦!需要搜索引擎
  96. 9.1 业务需求
  97. 9.2 产品设计和技术选型
  98. 9.3 实现方案
  99. 9.3.1 数据定义和配置
  100. 9.3.2 集群搭建
  101. 9.3.3 DIH配置
  102. 第10章 能否更主动?还需要推荐引擎
  103. 10.1 业务需求
  104. 10.2 产品设计和技术选型
  105. 10.3 实现方案
  106. 10.3.1 基于内容特征的衡量
  107. 10.3.2 基于行为特征的衡量
  108. 10.3.3 提供在线服务
  109. 第11章 这样做的效果如何
  110. 11.1 业务需求
  111. 11.2 产品设计和技术选型
  112. 11.3 实现方案
  113. 11.3.1 行为数据的定义和记录
  114. 11.3.2 Flume和HDFS的集成
  115. 11.3.3 通过Hive进行分析
  116. 11.3.4 Kafka和Storm的集成
  117. 第12章 这个搜索有点逊
  118. 12.1 业务需求:还要搜得更多
  119. 12.2 “还要搜得更多”:产品设计和技术选型
  120. 12.3 “还要搜得更多”的方案实现
  121. 12.3.1 HBase的部署
  122. 12.3.2 HBase和Solr的集成
  123. 12.4 业务需求:还要搜得更准
  124. 12.5 “还要搜得更准”:产品设计和技术选型
  125. 12.5.1 提升搜索排序的相关性
  126. 12.5.2 提升搜索排序的整体效果
  127. 12.6 “还要搜得更准”的方案实现
  128. 12.7 业务需求:还要更快
  129. 12.8 还要“变”得更快:产品设计和技术选型
  130. 12.9 还要“搜”得更快:产品设计和技术选型
  131. 12.10 业务需求:给点提示吧
  132. 12.11 给点提示吧:产品设计和技术选型
  133. 第13章 支持更高效的运营
  134. 13.1 业务需求:互联网时代的CRM
  135. 13.2 互联网时代的CRM:产品设计和技术选型
  136. 13.3 业务需求:抓住捣蛋鬼
  137. 13.4 抓住捣蛋鬼:产品设计和技术选型
  138. 13.4.1 识别分类错放
  139. 13.4.2 识别SEO作弊
  140. 13.5 业务需求:销售之战
  141. 13.6 销售之战:产品设计和技术选型
  142. 13.6.1 设置合理的价格
  143. 13.6.2 识别黄牛
  144. 后记
载入中

热门划线

喜欢这本书的人也喜欢