Flink原理、实战与性能优化

Flink原理、实战与性能优化

大数据技术丛书

暂无评价综合评分的显示会考虑用户真实性等多项因素,每部作品出现综合评分的时间不定。
6.986 评价豆瓣读书
免费试读

作品简介

这是一部以实战为导向,能指导读者零基础掌握Flink并快速完成进阶的著作,从功能、原理、实战和调优等4个维度循序渐进地讲解了如何利用Flink进行分布式流式应用开发。作者是该领域的资深专家,现就职于第四范式,曾就职于明略数据。全书一共10章,逻辑上可以分为三个部分:第一部分(第1~2章)主要介绍了Flink的核心概念、特性、应用场景、基本架构,开发环境的搭建和配置,以及源代码的编译。第二部分(第3~9章)详细讲解了Flink的编程范式,各种编程接口的功能、应用场景和使用方法,以及核心模块和组件的原理和使用。第三部分(第10章)重点讲解了Flink的监控和优化,参数调优,以及对反压、Checkpoint和内存的优化。

张利兵,资深架构师,流式计算领域专家,第四范式华东区AI项目架构师,原明略数据华东区大数据架构师。有多年大数据、流式计算方面的开发经验,对Hadoop、Spark、Flink等大数据计算引擎有着非常深入的理解,积累了丰富的项目实践经验。先后利用相关技术为银行、证券、地铁等领域的头部企业构建了内部大数据平台,参与了基于Flink的实时反欺诈风控、实时地铁故障预警等流式计算平台的设计和研发。

作品目录

  1. 前言
  2. 第1章 Apache Flink介绍
  3. 1.1 Apache Flink是什么
  4. 1.2 数据架构的演变
  5. 1.3 Flink应用场景
  6. 1.4 Flink基本架构
  7. 1.5 本章小结
  8. 第2章 环境准备
  9. 2.1 运行环境介绍
  10. 2.2 Flink项目模板
  11. 2.3 Flink开发环境配置
  12. 2.4 运行Scala REPL
  13. 2.5 Flink源码编译
  14. 2.6 本章小结
  15. 第3章 Flink编程模型
  16. 3.1 数据集类型
  17. 3.2 Flink编程接口
  18. 3.3 Flink程序结构
  19. 3.4 Flink数据类型
  20. 3.5 本章小结
  21. 第4章 DataStream API介绍与使用
  22. 4.1 DataStream编程模型
  23. 4.2 时间概念与Watermark
  24. 4.3 Windows窗口计算
  25. 4.4 作业链和资源组
  26. 4.5 Asynchronous I/O异步操作
  27. 4.6 本章小结
  28. 第5章 Flink状态管理和容错
  29. 5.1 有状态计算
  30. 5.2 Checkpoints和Savepoints
  31. 5.3 状态管理器
  32. 5.4 Querable State
  33. 5.5 本章小结
  34. 第6章 DataSet API介绍与使用
  35. 6.1 DataSet API
  36. 6.2 迭代计算
  37. 6.3 广播变量与分布式缓存
  38. 6.4 语义注解
  39. 6.5 本章小结
  40. 第7章 Table API & SQL介绍与使用
  41. 7.1 TableEnviroment概念
  42. 7.2 Flink Table API
  43. 7.3 Flink SQL使用
  44. 7.4 自定义函数
  45. 7.5 自定义数据源
  46. 7.6 本章小结
  47. 第8章 Flink组件栈介绍与使用
  48. 8.1 Flink复杂事件处理
  49. 8.2 Flink Gelly图计算应用
  50. 8.3 FlinkML机器学习应用
  51. 8.4 本章小结
  52. 第9章 Flink部署与应用
  53. 9.1 Flink集群部署
  54. 9.2 Flink高可用配置
  55. 9.3 Flink安全管理
  56. 9.4 Flink集群升级
  57. 9.5 本章小结
  58. 第10章 Flink监控与性能优化
  59. 10.1 监控指标
  60. 10.2 Backpressure监控与优化
  61. 10.3 Checkpointing监控与优化
  62. 10.4 Flink内存优化
  63. 10.5 本章小结
载入中

热门划线

  1. Flink将窗口划分为基于Time、Count、Session,以及Data-driven等类型的窗口操作6 人
  2. 但目前大多数框架窗口计算采用的都是系统时间(Process Time)3 人
  3. Lambda架构方案2 人
  4. 大数据平台中包含批量计算的Batch Layer和实时计算的Speed Layer2 人
  5. 基于有状态计算的方式最大的优势是不需要将原始数据重新从外部存储中拿出来,从而进行全量计算,因为这种计算方式的代价可能是非常高的。从另一个角度讲,用户无须通过调度和协调各种批量计算工具,从数据仓库中获取数据统计结果,然后再落地存储,这些操作全部都可以基于流式计算完成,可以极大地减轻系统对其他框架的依赖,减少数据计算过程中的时间损耗以及硬件存储。2 人
  6. Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架2 人
  7. Flink的任务运行其实是采用多线程的方式,这和MapReduce多JVM进程的方式有很大的区别Fink能够极大提高CPU使用效率,在多个任务和Task之间通过TaskSlot方式共享系统资源,每个TaskManager中通过管理多个TaskSlot资源池进行对资源进行有效管理。2 人
  8. 有界数据和无界数据其实是可以相互转换的2 人
  9. 如果Kryo序列化工具无法对POJOs类序列化时,可以使用Avro对POJOs类进行序列化2 人
  10. 事件生成时间(Event Time)、事件接入时间(Ingestion Time)和事件处理时间2 人

喜欢这本书的人也喜欢