曙海培训-SRE站点可靠性工程：SLI/SLO/错误预算培训课程-曙海培训中心,全国连锁

SRE站点可靠性工程：SLI/SLO/错误预算培训课程

培训对象： SRE工程师、运维负责人、系统架构师、可靠性平台开发者。
培训目标：
- 理解SRE的核心原则和与传统运维的区别。
- 掌握SLI（服务指标）、SLO（服务目标）和错误预算的定义方法。
- 能够设计可靠性监控体系和告警策略。
- 具备事后复盘和改进措施制定能力。
培训内容介绍：
一、 SRE概述与核心原则： 了解Google SRE的起源，掌握SRE的核心价值观（接受风险、消除琐事、监控分布式系统）。

二、 SLI指标定义与收集： 确定关键的用户旅程，定义可用性、延迟、吞吐量、错误率等SLI，使用监控系统采集。

三、 SLO目标设定： 根据业务需求设定合理的SLO目标（如99.9%可用性），理解SLO与用户体验的关系。

四、 错误预算与决策机制： 计算错误预算（1 - SLO），使用错误预算指导发布节奏和风险决策。

五、 监控体系建设： 设计监控指标体系（USE方法、RED方法），配置基础监控和业务监控。

六、 告警策略设计： 避免告警风暴，制定合理的告警规则，区分警告和紧急级别，设置抑制和静默。

七、 事件响应流程： 建立事件响应机制，明确响应角色和流程，使用PagerDuty或类似工具轮班。

八、 事后复盘（Postmortem）： 进行无指责的事后复盘，记录时间线、根本原因和后续改进措施。

九、 容量规划与负载测试： 根据增长趋势进行容量预测，定期进行压力测试和极限测试。

十、 混沌工程实践： 引入混沌工程主动注入故障，验证系统弹性和监控告警有效性。

十一、 SLO与业务价值对齐： 将技术SLO转化为业务语言，与业务方对齐期望，管理用户期望。

十二、 实战项目：SRE体系落地： 针对现有系统定义SLI/SLO，搭建监控告警体系，设计事件响应流程。

SRE站点可靠性工程：SLI/SLO/错误预算培训课程-曙海培训中心

培训班介绍

SRE站点可靠性工程：SLI/SLO/错误预算培训课程