企业数据湖

企业数据湖

大数据技术丛书

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
阅读
精品满减专场满500减100、满200减40、满100减20、满50减10活动详情

作品简介

本书分为三个主要部分。第一部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的最新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的最后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。

(印)汤姆斯·约翰(Tomcy John)生活在迪拜(阿联酋),出生于印度的喀拉拉邦,是一名企业级Java技术专家,拥有工学学士学位,并且有超过14年多行业的开发经验。他目前担任Emirates Group IT核心架构部门的首席架构师。在此之前,他曾在甲骨文公司、安永公司任职。擅长构建企业级应用。此外,他还在企业内担任首席导师和布道者,以促进新技术融入企业标准技术栈。工作之外,Tomcy与年轻的开发者和工程师积极互动,并在各种论坛上作为技术布道者就许多话题发表自己的观点,从Web和中间件到各种持久性存储。

(印)潘卡·米斯拉(Pankaj Misra)是一名技术传播者,拥有工程学士学位,并且有超过16年跨多个业务领域的技术经验。自2015年以来,他一直在Emirates Group IT任职,之前曾在多个企业或组织任职。他擅长架构和构建基于多技术栈的解决方案及实现。他在印度的技术论坛上也是一名活跃分子,参与过多个支持海量数据、可水平扩展的近实时数据处理和分析产品的构建。

作品目录

  1. 译者序
  2. 推荐序
  3. 关于作者
  4. 关于技术审核人员
  5. 前言
  6. 第一部分 概述
  7. 第1章 数据导论
  8. 1.1 探索数据
  9. 1.2 什么是企业数据
  10. 1.3 企业数据管理
  11. 1.4 大数据相关概念
  12. 1.5 数据与企业的相关性
  13. 1.6 数据质量
  14. 1.7 企业中数据如何存放
  15. 1.8 企业现状
  16. 1.9 企业数字化转型
  17. 1.10 数据湖用例启示
  18. 1.11 总结
  19. 第2章 数据湖概念概览
  20. 2.1 什么是数据湖
  21. 2.2 数据湖如何帮助企业
  22. 2.3 数据湖是如何工作的
  23. 2.4 数据湖与数据仓库的区别
  24. 2.5 数据湖的构建方法
  25. 2.6 Lambda架构驱动的数据湖
  26. 2.7 总结
  27. 第3章 Lambda架构:一种数据湖实现模式
  28. 3.1 什么是Lambda架构
  29. 3.2 Lambda架构简史
  30. 3.3 Lambda架构的原则
  31. 3.4 Lambda架构的组件
  32. 3.5 Lambda架构的完整工作原理
  33. 3.6 Lambda架构的优势
  34. 3.7 Lambda架构的劣势
  35. 3.8 Lambda架构技术概览
  36. 3.9 应用Lambda
  37. 3.10 Lambda架构运行范例
  38. 3.11 Kappa架构
  39. 3.12 总结
  40. 第4章 数据湖中的Lambda应用
  41. 4.1 Hadoop发行版本介绍
  42. 4.2 影响企业大数据技术栈选择的因素
  43. 4.3 批处理层与数据处理
  44. 4.4 服务层
  45. 4.5 总结
  46. 第二部分 数据湖的技术组件
  47. 第5章 基于Apache Sqoop的批量数据获取
  48. 5.1 数据湖背景中的数据获取
  49. 5.2 为什么使用Apache Sqoop
  50. 5.3 Sqoop的功能
  51. 5.4 Sqoop connector
  52. 5.5 Sqoop对HDFS的支持
  53. 5.6 Sqoop运行范例
  54. 5.7 适合使用Sqoop的场景
  55. 5.8 不适合使用Sqoop的场景
  56. 5.9 实时Sqooping是否可行
  57. 5.10 其他选项
  58. 5.11 总结
  59. 第6章 基于Apache Flume的流式数据获取
  60. 6.1 数据获取
  61. 6.2 为什么使用Flume
  62. 6.3 Flume的架构原则
  63. 6.4 Flume架构
  64. 6.5 Flume事件——流式数据
  65. 6.6 Flume Agent
  66. 6.7 Flume Source
  67. 6.8 Flume Channel
  68. 6.9 Flume Sink
  69. 6.10 Flume配置
  70. 6.11 Flume事务管理
  71. 6.12 Flume的其他组件
  72. 6.13 上下文路由
  73. 6.14 Flume运行范例
  74. 6.15 适合使用Flume的场景
  75. 6.16 不适合使用Flume的场景
  76. 6.17 其他选项
  77. 6.18 总结
  78. 第7章 使用Apache Kafka构建消息层
  79. 7.1 数据湖背景中的消息层
  80. 7.2 为什么使用Apache Kafka
  81. 7.3 Kafka的架构
  82. 7.4 其他Kafka组件
  83. 7.5 Kafka编程接口
  84. 7.6 生产者和消费者的可靠性
  85. 7.7 Kafka的安全性
  86. 7.8 Kafka作为面向消息的中间件
  87. 7.9 Kafka与水平可扩展架构
  88. 7.10 Kafka连接
  89. 7.11 Kafka运行范例
  90. 7.12 适合使用Kafka的场景
  91. 7.13 不合适使用Kafka的场景
  92. 7.14 其他选项
  93. 7.15 总结
  94. 第8章 使用Apache Flink处理数据
  95. 8.1 数据湖背景中的数据摄取层
  96. 8.2 为什么使用Apache Flink
  97. 8.3 Flink的工作原理
  98. 8.4 Flink的API
  99. 8.5 Flink运行范例
  100. 8.6 适合使用Flink的场景
  101. 8.7 不适合使用Flink的场景
  102. 8.8 其他选项
  103. 8.9 总结
  104. 第9章 使用Apache Hadoop存储数据
  105. 9.1 数据湖背景中的数据存储和Lambda批处理层
  106. 9.2 为什么使用Hadoop
  107. 9.3 Hadoop的工作原理
  108. 9.4 Hadoop生态系统
  109. 9.5 Hadoop发行版
  110. 9.6 HDFS和数据格式
  111. 9.7 Hadoop用于近实时应用
  112. 9.8 Hadoop部署模式
  113. 9.9 Hadoop运行范例
  114. 9.10 不适合使用Hadoop的场景
  115. 9.11 其他选项
  116. 9.12 总结
  117. 第10章 使用Elasticsearch存储全文索引
  118. 10.1 数据湖背景中的数据存储层与Lambda快速处理层
  119. 10.2 什么是Elasticsearch
  120. 10.3 为什么使用Elasticsearch
  121. 10.4 Elasticsearch的工作原理
  122. 10.5 Elastic Stack
  123. 10.6 Elastic Cloud
  124. 10.7 Elasticsearch DSL
  125. 10.8 Elasticsearch中的节点
  126. 10.9 Elasticsearch与关系数据库
  127. 10.10 Elasticsearch生态系统
  128. 10.11 Elasticsearch部署选项
  129. 10.12 Elasticsearch Client
  130. 10.13 Elasticsearch用于快速流式处理
  131. 10.14 Elasticsearch作为数据源
  132. 10.15 Elasticsearch用于内容索引
  133. 10.16 Elasticsearch与Hadoop
  134. 10.17 Elasticsearch运行范例
  135. 10.18 适合使用Elasticsearch的场景
  136. 10.19 不适合使用Elasticsearch的场景
  137. 10.20 其他选项
  138. 10.21 总结
  139. 第三部分 将所有技术整合在一起
  140. 第11章 数据湖组件集成
  141. 11.1 数据湖的学习进程
  142. 11.2 数据湖架构的核心原则
  143. 11.3 企业数据湖面临的挑战
  144. 11.4 企业对数据湖的期望
  145. 11.5 数据湖的其他用途
  146. 11.6 了解更多关于数据存储的信息
  147. 11.7 更多关于数据处理的知识
  148. 11.8 数据安全
  149. 11.9 数据加密
  150. 11.10 元数据管理和治理
  151. 11.11 数据审计
  152. 11.12 数据可追溯性
  153. 11.13 了解更多服务层细节
  154. 11.14 总结
  155. 第12章 数据湖用例建议
  156. 12.1 在企业中推行网络安全实践
  157. 12.2 深入了解企业的客户
  158. 12.3 提升仓储管理效率
  159. 12.4 品牌创建与企业营销
  160. 12.5 为客户提供更个性化的服务
  161. 12.6 让物联网数据触手可及
  162. 12.7 更实用的数据归档
  163. 12.8 现有的数据仓库基础设施
  164. 12.9 实现电信安全和法规遵从
  165. 12.10 总结
载入中
载入中