封面
版权信息
内容简介
O'Reilly Media Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分 概览
第1章 介绍
系统管理员模式
Google的解决之道:SRE
SRE方法论
小结
第2章 Google 生产环境:SRE视角
硬件
管理物理服务器的系统管理软件
其他系统软件
软件基础设施
研发环境
莎士比亚搜索:一个示范服务
第Ⅱ部分 指导思想
第3章 拥抱风险
管理风险
度量服务的风险
服务的风险容忍度
使用错误预算的目的
第4章 服务质量目标
服务质量术语
指标在实践中的应用
目标在实践中的应用
协议在实践中的应用
第5章 减少琐事
琐事的定义
为什么琐事越少越好
什么算作工程工作
琐事繁多是不是一定不好
小结
第6章 分布式系统的监控
术语定义
为什么要监控
对监控系统设置合理预期
现象与原因
黑盒监控与白盒监控
4个黄金指标
关于长尾问题
度量指标时采用合适的精度
简化,直到不能再简化
将上述理念整合起来
监控系统的长期维护
小结
第7章 Google 的自动化系统的演进
自动化的价值
自动化对Google SRE的价值
自动化的应用案例
让自己脱离工作:自动化所有的东西
舒缓疼痛:将自动化应用到集群上线中
Borg:仓库规模计算机的诞生
可靠性是最基本的功能
建议
第8章 发布工程
发布工程师的角色
发布工程哲学
持续构建与部署
配置管理
小结
第9章 简单化
系统的稳定性与灵活性
乏味是一种美德
我绝对不放弃我的代码
“负代码行”作为一个指标
最小 API
模块化
发布的简单化
小结
第Ⅲ部分 具体实践
第10章 基于时间序列数据进行有效报警
- APP免费
Borgmon的起源
- APP免费
应用软件的监控埋点
- APP免费
监控指标的收集
- APP免费
时间序列数据的存储
- APP免费
Borg规则计算
- APP免费
报警
- APP免费
监控系统的分片机制
- APP免费
黑盒监控
- APP免费
配置文件的维护
- APP免费
十年之后
- APP免费
第11章 on-call轮值
- APP免费
介绍
- APP免费
on-call工程师的一天
- APP免费
on-call工作平衡
- APP免费
安全感
- APP免费
避免运维压力过大
- APP免费
小结
- APP免费
第12章 有效的故障排查手段
- APP免费
理论
- APP免费
实践
- APP免费
神奇的负面结果
- APP免费
案例分析
- APP免费
使故障排查更简单
- APP免费
小结
- APP免费
第13章 紧急事件响应
- APP免费
当系统出现问题时怎么办
- APP免费
测试导致的紧急事故
- APP免费
变更部署带来的紧急事故
- APP免费
流程导致的严重事故
- APP免费
所有的问题都有解决方案
- APP免费
向过去学习,而不是重复它
- APP免费
小结
- APP免费
第14章 紧急事故管理
- APP免费
无流程管理的紧急事故
- APP免费
对这次无流程管理的事故的剖析
- APP免费
紧急事故的流程管理要素
- APP免费
一次流程管理良好的事故
- APP免费
什么时候对外宣布事故
- APP免费
小结
- APP免费
第15章 事后总结:从失败中学习
- APP免费
Google的事后总结哲学
- APP免费
协作和知识共享
- APP免费
建立事后总结文化
- APP免费
小结以及不断优化
- APP免费
第16章 跟踪故障
- APP免费
Escalator
- APP免费
Outalator
- APP免费
第17章 测试可靠性
- APP免费
软件测试的类型
- APP免费
创造一个构建和测试环境
- APP免费
大规模测试
- APP免费
小结
- APP免费
第18章 SRE部门中的软件工程实践
- APP免费
为什么软件工程项目对SRE很重要
- APP免费
Auxon 案例分析:项目背景和要解决的问题
- APP免费
基于意图的容量规划
- APP免费
在SRE团队中培养软件工程风气
- APP免费
小结
- APP免费
第19章 前端服务器的负载均衡
- APP免费
有时候硬件并不能解决问题
- APP免费
使用DNS进行负载均衡
- APP免费
负载均衡:虚拟IP
- APP免费
第20章 数据中心内部的负载均衡系统
- APP免费
理想情况
- APP免费
识别异常任务:流速控制和跛脚鸭任务
- APP免费
利用划分子集限制连接池大小
- APP免费
负载均衡策略
- APP免费
第21章 应对过载
- APP免费
QPS陷阱
- APP免费
给每个用户设置限制
- APP免费
客户端侧的节流机制
- APP免费
重要性
- APP免费
资源利用率信号
- APP免费
处理过载错误
- APP免费
连接造成的负载
- APP免费
小结
- APP免费
第22章 处理连锁故障
- APP免费
连锁故障产生的原因和如何从设计上避免
- APP免费
防止软件服务器过载
- APP免费
慢启动和冷缓存
- APP免费
连锁故障的触发条件
- APP免费
连锁故障的测试
- APP免费
解决连锁故障的立即步骤
- APP免费
小结
- APP免费
第23章 管理关键状态:利用分布式共识来提高可靠性
- APP免费
使用共识系统的动力:分布式系统协调失败
- APP免费
分布式共识是如何工作的
- APP免费
分布式共识的系统架构模式
- APP免费
分布式共识系统的性能问题
- APP免费
分布式共识系统的部署
- APP免费
对分布式共识系统的监控
- APP免费
小结
- APP免费
第24章 分布式周期性任务系统
- APP免费
Cron
- APP免费
Cron任务和幂等性
- APP免费
大规模Cron系统
- APP免费
Google Cron系统的构建过程
- APP免费
小结
- APP免费
第25章 数据处理流水线
- APP免费
流水线设计模式的起源
- APP免费
简单流水线设计模式与大数据
- APP免费
周期性流水线模式的挑战
- APP免费
工作分发不均造成的问题
- APP免费
分布式环境中周期性数据流水线的缺点
- APP免费
Google Workflow简介
- APP免费
Workflow中的执行阶段
- APP免费
保障业务的持续性
- APP免费
小结
- APP免费
第26章 数据完整性:读写一致
- APP免费
数据完整性的强需求
- APP免费
保障数据完整性和可用性:Google SRE的目标
- APP免费
Google SRE保障数据完整性的手段
- APP免费
案例分析
- APP免费
SRE的基本理念在数据完整性上的应用
- APP免费
小结
- APP免费
第27章 可靠地进行产品的大规模发布
- APP免费
发布协调工程师
- APP免费
建立发布流程
- APP免费
起草一个发布检查列表
- APP免费
可靠发布所需要的方法论
- APP免费
LCE的发展
- APP免费
小结
- APP免费
第Ⅳ部分 管理
- APP免费
第28章 迅速培养SRE加入on-call
- APP免费
新的SRE已经招聘到了,接下来怎么办
- APP免费
培训初期:重体系,而非混乱
- APP免费
培养反向工程能力和随机应变能力
- APP免费
有抱负的on-call工程师的5个特点
- APP免费
on-call之后:通过培训的仪式感,以及日后的持续教育
- APP免费
小结
- APP免费
第29章 处理中断性任务
- APP免费
管理运维负载
- APP免费
如何决策对中断性任务的处理策略
- APP免费
不完美的机器
- APP免费
第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
- APP免费
第一阶段:了解服务,了解上下文
- APP免费
第二阶段:分享背景知识
- APP免费
第三阶段:主导改变
- APP免费
小结
- APP免费
第31章 SRE与其他团队的沟通与协作
- APP免费
沟通:生产会议
- APP免费
SRE的内部协作
- APP免费
SRE内部的协作案例分析:Viceroy
- APP免费
SRE与其他部门之间的协作
- APP免费
案例分析:将DFP迁移到F1
- APP免费
小结
- APP免费
第32章 SRE参与模式的演进历程
- APP免费
SRE 参与模式:是什么、怎么样以及为什么
- APP免费
PRR 模型
- APP免费
SRE参与模型
- APP免费
PRR:简单PRR模型
- APP免费
简单PRR模型的演进:早期参与模型
- APP免费
不断发展的服务:框架和SRE平台
- APP免费
小结
- APP免费
第Ⅴ部分 结束语
- APP免费
第33章 其他行业的实践经验
- APP免费
有其他行业背景的资深SRE
- APP免费
灾难预案与演习
- APP免费
事后总结的文化
- APP免费
将重复性工作自动化,消除运维负载
- APP免费
结构化和理性的决策
- APP免费
小结
- APP免费
第34章 结语
- APP免费
附录A 系统可用性
- APP免费
附录B 生产环境运维过程中的最佳实践
- APP免费
附录C 事故状态文档示范
- APP免费
附录D 事后总结示范
- APP免费
附录E 发布协调检查列表
- APP免费
附录F 生产环境会议记录示范
- APP免费
参考文献
- APP免费
索引
- APP免费
关于编著者
- APP免费
封面介绍
更新时间:2019-08-29 18:48:02