Apache Kafka实战

胡夕
作者介绍 图片 【☆释文☆】【☆术语标题☆】【☆居左☆】胡夕,北航计算机硕士毕业,目前就职于一家互联网金融公司,开源技术爱好者。曾任职于IBM、搜狗、微博等公司。对Kafka及其他开源流处理技术与框架有深刻认识,同时也是国内活跃的Kafka代码贡献者。对Kafka原理、运行机制以及应用开发都有较深的研究。 前言 2011 年年初,美国领英公司(LinkedIn)开源了一款基础架构软件,以奥地利作家弗兰兹·卡夫卡(Franz Kafka)的名字命名,之后 LinkedIn将其贡献给 Apache基金会,随后该软件于2012年10月成功完成孵化并顺利晋升为Apache顶级项目——这便是大名鼎鼎的Apache Kafka。历经7年发展,2017年11月,Apache Kafka正式演进到1.0时代,本书就是基于1.0.0版本来展开介绍Kafka的设计原理与实战的。 背景 这是一个最好的大数据时代,这是一个最坏的大数据时代! 很抱歉,我使用了这句改编后的狄更斯名言作为开头,我想没有谁会质疑“当今是大数据时代”这个论点。今年(2018 年)两会上李克强总理所做的政府工作报告中多次提及大数据等关键词,这已然是“大数据”第 5次被写入政府工作报告了。具体到大数据行业内,各种各样的大数据产业方兴未艾,其中在实时流式处理领域涌现出大量的技术与框架,令技术人员们应接不暇。实时流式处理系统在克服了传统批处理系统延时方面的固有缺陷的同时,还摆脱了设计上的桎梏,实现了“梦寐以求”的正确性。可以说,对于流式处理从业人员来说,这正是摩拳擦掌、大展宏图的最好时代。 与此同时,我们也清醒地意识到当今大数据领域内的细分越来越精细化。不必说日渐火爆的人工智能和机器学习潮流引诱着我们改弦易辙,也不必说那些纷繁复杂的技术框架令人眼花缭乱,单是静下心来沉淀所学、思考方向的片刻时光于我们这些从业者来说都已显得弥足…