作品简介
大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。
(美)贝特西·拜尔(Betsy Beyer)是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前,Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane获得学历。
作品目录
O'Reilly Media,Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分 概览
第1章 介绍
第2章 Google 生产环境:SRE视角
第Ⅱ部分 指导思想
第3章 拥抱风险
第4章 服务质量目标
第5章 减少琐事
第6章 分布式系统的监控
第7章 Google 的自动化系统的演进
第8章 发布工程
第9章 简单化
第Ⅲ部分 具体实践
第10章 基于时间序列数据进行有效报警
第11章 on-call轮值
第12章 有效的故障排查手段
第13章 紧急事件响应
第14章 紧急事故管理
第15章 事后总结:从失败中学习
第16章 跟踪故障
第17章 测试可靠性
第18章 SRE部门中的软件工程实践
第19章 前端服务器的负载均衡
第20章 数据中心内部的负载均衡系统
第21章 应对过载
第22章 处理连锁故障
第23章 管理关键状态:利用分布式共识来提高可靠性
第24章 分布式周期性任务系统
第25章 数据处理流水线
第26章 数据完整性:读写一致
第27章 可靠地进行产品的大规模发布
第Ⅳ部分 管理
第28章 迅速培养SRE加入on-call
第29章 处理中断性任务
第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章 SRE与其他团队的沟通与协作
第32章 SRE参与模式的演进历程
第Ⅴ部分 结束语
第33章 其他行业的实践经验
第34章 结语
附录A 系统可用性
附录B 生产环境运维过程中的最佳实践
附录C 事故状态文档示范
附录D 事后总结示范
附录E 发布协调检查列表
附录F 生产环境会议记录示范
参考文献
索引
关于编著者
封面介绍
载入中