Flink内核原理与实现

Flink内核原理与实现

多位大数据专家联袂推荐,洞悉分布式实时计算引擎的本质

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
8.043 评价豆瓣读书
¥79.90¥71.91
双11满减折上折截止至:2024-11-14 00:00:00了解详情
双11狂欢购 | 电子书4折满减每满 100 减 60活动详情

作品简介

本书既讲解了Flink的入门、安装、流计算开发入门、类型和序列化系统、监控运维、安全管理配置等基础知识,又讲解了Flink的时间概念、Window的实现原理及其代码解析,Flink的容错机制原理,Flink容错的关键设计、代码实现分析,Flink Job从源码到执行整个过程的解析,Flink Job的调度策略、资源管理策略、内存管理、数据交换的关键设计和代码实现分析,Flink的RPC通信框架等深度内容。

本书适合对实时计算感兴趣的大数据开发、运维领域的从业人员阅读,此外对机器学习工程技术人员也有所帮助。

冯飞,有10余年IT研发经验,专注于大数据相关技术领域,持续跟踪研究大数据计算引擎的理论模型及其演进,深入研读Flink、Apache Beam、Spark等的源码,尤其精通Flink。从事批流AI融合的新一代数据仓库设计、研发等工作。

崔鹏云,毕业于北京邮电大学,获硕士学位,曾在MicroSoft和Teradata国外知名企业的研发中心供职9年,有15年的企业级数据仓库和在线分析技术应用实战经验,拥有国内外众多TB及PB级大数据客户实时数据处理和分析落地能力。

陈冠华,毕业于北京大学计算机软件与理论专业,获博士学位。2009~2011年在北京大学从事博士后研究工作,研究领域包括大数据内存及实时计算技术、数据仓库、数据挖掘和机器学习等,有超过15年的数据仓库和在线处理技术的学术研究与实践经验。

作品目录

  1. 前言
  2. 第1章 Flink入门
  3. 1.1 核心特点
  4. 1.2 架构
  5. 1.3 Flink的未来
  6. 1.4 准备工作
  7. 1.5 总结
  8. 第2章 Flink应用
  9. 2.1 Flink应用开发
  10. 2.2 API层次
  11. 2.3 数据流
  12. 2.4 数据流API
  13. 2.5 总结
  14. 第3章 核心抽象
  15. 3.1 环境对象
  16. 3.2 数据流元素
  17. 3.3 数据转换
  18. 3.4 算子
  19. 3.5 函数体系
  20. 3.6 数据分区
  21. 3.7 连接器
  22. 3.8 分布式ID
  23. 3.9 总结
  24. 第4章 时间与窗口
  25. 4.1 时间类型
  26. 4.2 窗口类型
  27. 4.3 窗口原理与机制
  28. 4.4 水印
  29. 4.5 时间服务
  30. 4.6 窗口实现
  31. 4.7 总结
  32. 第5章 类型与序列化
  33. 5.1 DataStream类型系统
  34. 5.2 SQL类型系统
  35. 5.3 数据序列化
  36. 5.4 总结
  37. 第6章 内存管理
  38. 6.1 自主内存管理
  39. 6.2 内存模型
  40. 6.3 内存数据结构
  41. 6.4 内存管理器
  42. 6.5 网络缓冲器
  43. 6.6 总结
  44. 第7章 状态原理
  45. 7.1 状态类型
  46. 7.2 状态描述
  47. 7.3 广播状态
  48. 7.4 状态接口
  49. 7.5 状态存储
  50. 7.6 状态持久化
  51. 7.7 状态重分布
  52. 7.8 状态过期
  53. 7.9 总结
  54. 第8章 作业提交
  55. 8.1 提交流程
  56. 8.2 Graph总览
  57. 8.3 流图
  58. 8.4 作业图
  59. 8.5 执行图
  60. 8.6 总结
  61. 第9章 资源管理
  62. 9.1 资源抽象
  63. 9.2 资源管理器
  64. 9.3 Slot管理器
  65. 9.4 SlotProvider
  66. 9.5 Slot选择策略
  67. 9.6 Slot资源池
  68. 9.7 Slot共享
  69. 9.8 总结
  70. 第10章 作业调度
  71. 10.1 调度
  72. 10.2 执行模式
  73. 10.3 数据交换模式
  74. 10.4 作业生命周期
  75. 10.5 关键组件
  76. 10.6 作业启动
  77. 10.7 作业停止
  78. 10.8 作业失败调度
  79. 10.9 组件容错
  80. 10.10 总结
  81. 第11章 作业执行
  82. 11.1 作业执行图
  83. 11.2 核心对象
  84. 11.3 Task执行
  85. 11.4 总结
  86. 第12章 数据交换
  87. 12.1 数据传递模式
  88. 12.2 关键组件
  89. 12.3 数据传递
  90. 12.4 数据传递过程
  91. 12.5 网络通信
  92. 12.6 总结
  93. 第13章 应用容错
  94. 13.1 容错保证语义
  95. 13.2 检查点与保存点
  96. 13.3 作业恢复
  97. 13.4 关键组件
  98. 13.5 轻量级异步分布式快照
  99. 13.6 检查点执行过程
  100. 13.7 检查点恢复过程
  101. 13.8 端到端严格一次
  102. 13.9 总结
  103. 第14章 Flink SQL
  104. 14.1 Apache Calcite
  105. 14.2 动态表
  106. 14.3 TableEnvironment
  107. 14.4 Table API
  108. 14.5 SQL API
  109. 14.6 元数据
  110. 14.7 数据访问
  111. 14.8 SQL函数
  112. 14.9 Planner关键抽象
  113. 14.10 Blink Planner和Flink Planner对比
  114. 14.11 Blink与Calcite关系
  115. 14.12 Blink SQL执行过程
  116. 14.13 Blink Table API执行过程
  117. 14.14 Flink与Calcite的关系
  118. 14.15 Flink SQL执行过程
  119. 14.16 Flink Table API执行过程
  120. 14.17 SQL优化
  121. 14.18 Blink优化
  122. 14.19 Flink优化
  123. 14.20 代码生成
  124. 14.21 总结
  125. 第15章 运维监控
  126. 15.1 监控指标
  127. 15.2 指标组
  128. 15.3 监控集成
  129. 15.4 指标注册中心
  130. 15.5 指标查询服务
  131. 15.6 延迟跟踪实现原理
  132. 15.7 总结
  133. 第16章 RPC框架
  134. 16.1 Akka简介
  135. 16.2 RPC消息的类型
  136. 16.3 RPC通信组件
  137. 16.4 RPC交互过程
  138. 16.5 总结
  139. 专家寄语
  140. 参考文献
载入中