培训对象: 面向高级运维工程师、系统架构师、DevOps负责人及平台工程团队。适合需要构建全栈可观测性、提升系统可用性、推动运维向软件工程模式演进的从业人员。
培训目标: 培养对SRE运维体系及概念有整体认知,具备全栈、端到端的现网可用性守护能力。能够运用系统和软件工程科学解决产品可用性问题,并进行产品设计与上线运维的顶层规划。
培训内容介绍:
SRE核心理念与业界发展:学习SRE的起源、核心价值及业界可用性发展历程,理解SRE与传统运维的本质区别。
现网可用性保障体系:掌握构建高可用系统的设计原则,包括故障隔离、优雅降级、过载保护及容量规划。
运维驱动改进机制:学习通过运维数据驱动产品改进的方法,将事后复盘转化为事前预防和自动化防御。
应急演练与事件管理:掌握应急演练的全流程设计,学习标准化的事件响应流程、故障定级及通报机制。
系统高可用性设计:深入讲解分布式系统的高可用架构,包括多活设计、单元化架构及异地多活方案。
运维软件工程化概述:理解将运维工作软件工程的理念,通过代码和工具解决运维问题,减少人工操作。
日常事务软件工程化:学习将日常巡检、发布变更、故障处理等重复性工作通过自动化平台实现。
服务等级指标管理:掌握SLI定义、SLO制定及错误预算策略,通过数据驱动决策发布与变更节奏。
全链路可观测性建设:学习指标、日志、追踪三位一体的观测体系建设,实现系统状态的实时洞察。
混沌工程与故障注入:通过主动注入故障验证系统韧性,学习混沌实验设计与结果分析。
容量压测与弹性伸缩:掌握全链路压测方法论,基于压测结果实现精准的容量评估与弹性伸缩策略。
华为云SRE体系实践:学习华为云SRE运维主要流程体系及云上运维工具应用,结合业界最佳实践总结SRE落地路径。