专题一:运维管理体系基础与框架
专题二:IT服务管理(ITIL 4)核心流程
专题三:事件管理与服务台运营
专题四:问题管理与根因分析
专题五:变更管理与发布管理
专题六:配置管理与CMDB建设
专题七:服务请求与知识管理
专题八:容量与性能管理
专题九:连续性管理与容灾演练
专题十:服务级别管理与SLA设计
专题十一:运维流程自动化与工具实践
专题十二:运维成熟度评估与持续改进
运维管理定义与范畴:从技术运维到服务管理
运维管理体系的构成要素:流程、人员、技术、合作伙伴
运维管理成熟度模型:从混乱到优化的演进路径
IT服务管理(ITSM)核心理念:以服务为中心、价值导向
ITIL发展历程:从V2、V3到ITIL 4的核心变化
ITIL 4服务价值链:计划、改进、 Engage、设计/转换、获取/构建、交付/支持
四维模型:组织和人员、信息与技术、合作伙伴与供应商、价值流与流程
运维流程框架:事件、问题、变更、发布、配置、服务台
运维管理标准:ISO/IEC 20000、COBIT、ISO 27001
运维组织架构设计:集中式、分散式、联邦式
运维流程与工具的关系:流程驱动工具、工具固化流程
案例解析:某企业运维管理体系搭建实践
ITIL 4核心概念:价值、成果、成本、风险
服务价值链与价值流:从需求到价值的转化
服务管理的核心活动:计划、改进、 Engage、设计、转换、获取、交付
ITIL实践体系:通用管理实践、服务管理实践、技术管理实践
服务台实践:单点联络、用户体验、多渠道支持
事件管理实践:恢复服务、响应分级、升级机制
问题管理实践:根因分析、已知错误、预防措施
变更控制实践:标准化变更、变更评估、变更授权
发布管理实践:部署、回滚、验证、沟通
服务配置管理实践:CMDB、配置项、关系管理
持续改进实践:改进计划、度量、反馈闭环
ITIL 4与敏捷、DevOps、数字化转型的融合
事件定义:任何计划外的服务中断或质量下降
事件管理目标:最小化业务影响、尽快恢复服务
事件分类与优先级:影响度、紧急度、优先级矩阵
事件响应流程:发现、记录、分类、匹配、升级
事件诊断与解决:一线、二线、三线支持协同
事件升级机制:技术升级、管理升级、重大事件处理
事件关闭与确认:用户确认、满意度调查
重大事件管理:独立流程、战时指挥、跨部门协同
服务台职能:服务台类型(本地/集中/虚拟)、人员技能
服务台工具:工单系统、自动化分配、知识库集成
事件度量指标:MTTR、首次解决率、工单量、升级率
综合实战:设计事件响应流程与优先级矩阵
问题定义:一个或多个事件的未知根本原因
问题管理与事件管理的区别与联系
问题发现来源:事件分析、主动巡检、供应商通知
问题分类与优先级:影响范围、发生频率、业务影响
问题分析流程:记录、分类、调查、诊断、解决方案
根因分析方法论:5WHY、鱼骨图、KT法、故障树
已知错误与变通方案:知识库沉淀、临时措施
问题解决方案实施:通过变更流程执行
问题关闭与事后复盘:根因确认、预防措施
主动问题管理:趋势分析、风险识别、预防性维护
问题度量指标:问题数量、解决时间、重复事件率
综合实战:对一起重复事件进行根因分析并制定预防措施
变更定义:对IT环境的任何添加、修改、移除
变更管理目标:控制变更风险、最小化负面影响
变更类型:标准变更、正常变更、紧急变更
变更流程:请求、评估、审批、实施、验证、关闭
变更评估要素:技术影响、业务影响、资源需求、回滚计划
变更审批层级:变更经理、CAB(变更咨询委员会)、紧急CAB
变更实施与回滚:实施计划、测试、回滚验证
发布管理定义:将变更部署到生产环境的过程
发布类型:紧急发布、常规发布、重大发布
发布计划与设计:发布单元、发布窗口、发布顺序
发布部署与验证:蓝绿部署、金丝雀发布、灰度发布
综合实战:设计变更管理流程与CAB运作机制
配置管理定义:识别、记录、维护IT组件及其关系
配置项(CI)定义与分类:硬件、软件、文档、人员
CMDB(配置管理数据库)核心价值:服务影响分析、变更评估
CI属性设计:唯一标识、名称、类型、状态、所有者
CI关系建模:依赖关系、连接关系、组成关系
CI生命周期管理:发现、登记、更新、退役、删除
配置发现技术:自动化扫描、代理采集、API集成
CMDB数据质量保障:审计、清洗、责任到人
CMDB在事件管理中的应用:影响分析、快速定位
CMDB在变更管理中的应用:变更影响评估
CMDB在问题管理中的应用:配置项历史追溯
综合实战:设计某业务的CMDB模型与CI关系图
服务请求定义:用户对信息、咨询、标准变更的申请
服务请求与事件的区别:计划内 vs 计划外
服务目录设计:服务项、服务级别、服务承诺
服务请求流程:提交、分类、审批、执行、关闭
服务请求自动化:自助服务、自动审批、自动执行
常见服务请求类型:账号申请、权限开通、软件安装
知识管理定义:捕获、共享、使用运维知识
知识库结构:分类、标签、全文检索、版本管理
知识来源:事件解决方案、问题根因、运维手册
知识管理流程:创建、审核、发布、更新、归档
知识应用:服务台快速解决、用户自助查询
综合实战:设计服务目录与知识库分类体系
容量管理定义:确保当前和未来的IT容量满足业务需求
容量管理层次:业务容量、服务容量、组件容量
容量规划流程:需求预测、现状分析、规划制定
性能监控指标:CPU、内存、磁盘、网络、响应时间
性能基准与阈值:正常范围、告警阈值、饱和点
容量预测技术:趋势分析、季节性模型、机器学习
容量报告与沟通:日报、周报、月报、趋势图
成本与容量平衡:按需扩容、弹性伸缩、成本优化
云环境容量管理:弹性伸缩策略、资源优化建议
性能优化方法:代码优化、架构优化、参数调优
容量管理工具:监控工具、预测工具、模拟工具
综合实战:基于业务增长预测进行容量规划
业务连续性管理(BCM)定义:应对中断、保障业务
IT服务连续性管理(ITSCM)与BCM的关系
连续性管理流程:策略制定、业务影响分析、风险评估
业务影响分析(BIA):关键业务、RTO/RPO、依赖关系
连续性策略设计:冗余、备份、容灾、备用站点
连续性计划(BCP/DRP)编写:场景、步骤、资源
容灾架构等级:数据级、应用级、业务级
备份策略设计:备份类型、备份周期、保留策略
容灾演练类型:桌面演练、模拟演练、实战演练
演练计划与实施:场景设计、人员组织、过程记录
演练评估与改进:问题发现、计划优化、报告输出
综合实战:设计容灾演练方案并模拟演练过程
服务级别管理(SLM)定义:协商、定义、评估服务水平
SLA(服务级别协议)概念:服务内容、质量标准、责任边界
SLA类型:基于客户、基于服务、基于多层级
SLA核心要素:服务描述、可用性、响应时间、解决时间
SLA指标设计:SMART原则、业务导向、可测量
运营级别协议(OLA)与支撑合同(UC)
SLA协商流程:客户需求、技术能力、成本评估
SLA监控与报告:指标采集、定期报告、偏差分析
SLA评审会议:周期性回顾、问题讨论、改进计划
SLA违约与补救:违约判定、补偿机制、改进承诺
服务目录与SLA的关联:不同服务不同级别
综合实战:为某业务设计SLA指标体系与报告模板
运维流程自动化价值:效率提升、减少人为错误
自动化工具分类:监控、事件、变更、发布、配置
IT服务管理工具(ITSM):ServiceNow、Jira Service Management、Zendesk
工单系统核心功能:流程引擎、表单设计、自动化规则
流程自动化实践:自动分派、自动升级、自动通知
自动化运维工具与流程集成:监控触发事件、自动创建工单
变更自动化:标准变更自动审批、自动执行
发布自动化:CI/CD流程与发布管理集成
配置自动化:自动发现、CMDB自动更新
知识库自动化:知识自动沉淀、智能推荐
工具选型要点:功能匹配、可扩展性、用户体验、成本
综合实战:配置ITSM工具的自动化分派规则
运维成熟度模型:CMMI-SVC、ITIL成熟度模型
成熟度评估维度:流程规范性、工具支持度、人员能力
评估方法:问卷调查、人员访谈、流程审计
运维成熟度等级:初始级、可重复级、已定义级、已管理级、优化级
持续改进模型:PDCA、IDEAL、七步改进法
改进目标设定:基于业务需求、痛点问题、行业对标
改进计划制定:优先级排序、资源投入、时间计划
改进实施与监控:试点先行、效果评估、调整优化
运维度量体系:效率指标、质量指标、成本指标
运维仪表盘设计:实时监控、趋势分析、异常预警
改进文化营造:鼓励创新、容忍失败、持续学习
综合实战:开展运维成熟度评估并制定三年改进路线图