培训对象: SRE工程师、运维负责人、系统架构师、可靠性平台开发者。
培训目标:
理解SRE的核心原则和与传统运维的区别。
掌握SLI(服务指标)、SLO(服务目标)和错误预算的定义方法。
能够设计可靠性监控体系和告警策略。
具备事后复盘和改进措施制定能力。
培训内容介绍:
二、 SLI指标定义与收集: 确定关键的用户旅程,定义可用性、延迟、吞吐量、错误率等SLI,使用监控系统采集。
三、 SLO目标设定: 根据业务需求设定合理的SLO目标(如99.9%可用性),理解SLO与用户体验的关系。
四、 错误预算与决策机制: 计算错误预算(1 - SLO),使用错误预算指导发布节奏和风险决策。
五、 监控体系建设: 设计监控指标体系(USE方法、RED方法),配置基础监控和业务监控。
六、 告警策略设计: 避免告警风暴,制定合理的告警规则,区分警告和紧急级别,设置抑制和静默。
七、 事件响应流程: 建立事件响应机制,明确响应角色和流程,使用PagerDuty或类似工具轮班。
八、 事后复盘(Postmortem): 进行无指责的事后复盘,记录时间线、根本原因和后续改进措施。
九、 容量规划与负载测试: 根据增长趋势进行容量预测,定期进行压力测试和极限测试。
十、 混沌工程实践: 引入混沌工程主动注入故障,验证系统弹性和监控告警有效性。
十一、 SLO与业务价值对齐: 将技术SLO转化为业务语言,与业务方对齐期望,管理用户期望。
十二、 实战项目:SRE体系落地: 针对现有系统定义SLI/SLO,搭建监控告警体系,设计事件响应流程。