专题一:IT运维基础与服务体系
专题二:操作系统运维(Windows/Linux)
专题三:网络设备运维与管理
专题四:数据库运维与管理
专题五:中间件运维与管理
专题六:监控系统与告警管理
专题七:自动化运维与脚本开发
专题八:容器化与云原生运维
专题九:运维开发(DevOps)实践
专题十:备份容灾与业务连续性
专题十一:IT服务管理(ITIL/ISO20000)
专题十二:综合实战与故障排查
培训对象:
新入职运维工程师
希望系统学习运维知识的IT人员
需要了解运维体系的非运维岗位
培训目标:
掌握IT运维的基本概念、核心职责与工作范围,理解运维体系的构成与运维流程,建立规范化运维思维,为后续深入学习奠定基础。
培训内容:
IT运维定义与范畴:硬件运维、系统运维、应用运维、数据运维
运维工程师职责与能力模型:技术能力、流程意识、沟通协作
运维体系架构:监控、自动化、备份、安全、服务台
运维流程规范:事件管理、问题管理、变更管理、发布管理
运维环境分类:开发环境、测试环境、生产环境、灾备环境
运维制度与规范:机房管理、账号管理、权限管理、操作审计
运维文档管理:拓扑图、配置文档、操作手册、应急预案
运维工具概览:监控工具、自动化工具、备份工具、日志工具
运维指标(SLA/SLO/SLI):可用性、响应时间、故障恢复时间
运维组织模式:传统运维、DevOps、SRE(站点可靠性工程)
信创背景下的运维:国产操作系统、数据库、硬件的运维特点
案例解析:某企业IT运维体系架构与日常运作流程
培训对象:
系统运维工程师
需要管理服务器的开发人员
桌面支持工程师
培训目标:
掌握Windows Server与Linux操作系统的安装、配置、优化与日常运维技能,能够进行用户管理、磁盘管理、软件包管理、系统监控与故障处理。
培训内容:
操作系统安装与初始化:无人值守安装、初始配置、系统激活
用户与权限管理:本地用户/组、域用户、sudo配置、文件权限
磁盘管理:分区、格式化、LVM、磁盘配额、存储空间
软件包管理:Windows更新、YUM/APT、RPM/DPKG、源码编译
服务与进程管理:systemd/service、进程查看、资源控制
系统性能监控:CPU/内存/磁盘/网络监控、性能计数器
日志管理:事件查看器、syslog、日志轮转、日志收集
计划任务:Windows任务计划、Crontab、Anacron
远程管理:RDP、SSH、VNC、远程桌面网关
系统安全加固:补丁管理、防火墙配置、账户策略、服务最小化
故障排查:启动故障、蓝屏分析、系统崩溃、资源耗尽
综合实战:Linux服务器性能调优与故障排查演练
培训对象:
网络运维工程师
系统运维需要了解网络知识的人员
数据中心管理人员
培训目标:
掌握常见网络设备(交换机、路由器、防火墙)的配置与运维方法,理解网络基础协议,能够进行网络监控、故障排查与性能优化。
培训内容:
网络基础回顾:OSI七层模型、TCP/IP协议栈、IP地址规划
交换机基础配置:VLAN划分、Trunk、STP、端口聚合
路由器基础配置:静态路由、动态路由(OSPF/BGP)、策略路由
防火墙配置:安全策略、NAT、VPN、入侵防御
无线网络设备:AP/AC配置、SSID管理、无线安全
负载均衡设备:LVS、F5、Nginx负载均衡配置
网络监控工具:SNMP、Zabbix网络监控、Cacti、流量分析
网络故障排查:ping/traceroute/telnet/nslookup、抓包分析(Wireshark)
网络性能优化:带宽管理、QoS配置、流量整形
网络设备管理:Telnet/SSH、Console管理、配置文件备份
网络设备升级:固件升级、补丁管理、配置迁移
综合实战:企业级网络拓扑规划与故障排查
培训对象:
数据库管理员(DBA)
应用运维需要管理数据库的人员
开发人员需要了解数据库运维
培训目标:
掌握主流数据库(MySQL/Oracle/SQL Server)的安装、配置、备份恢复、性能优化与日常运维技能,保障数据库的高可用与数据安全。
培训内容:
数据库安装与配置:版本选择、参数配置、实例创建
用户与权限管理:账号创建、权限分配、角色管理
数据库备份与恢复:逻辑备份(mysqldump/expdp)、物理备份、RMAN
数据库高可用架构:主从复制、集群、双机热备、读写分离
性能优化:慢查询分析、索引优化、SQL改写、参数调优
监控与告警:数据库状态监控、性能监控、空间监控
日志管理:错误日志、慢查询日志、二进制日志、审计日志
数据迁移与同步:异构数据库迁移、数据同步工具
数据库安全:访问控制、数据加密、脱敏、审计
常见故障处理:连接数爆满、死锁、锁等待、空间满
数据库版本升级与补丁:升级前评估、升级步骤、回滚方案
综合实战:MySQL主从复制搭建与故障切换演练
培训对象:
应用运维工程师
中间件管理员
需要管理应用服务器的开发人员
培训目标:
掌握常用中间件(Tomcat/Nginx/Redis/RabbitMQ)的安装、配置、监控与调优方法,能够保障中间件的高可用与高性能运行。
培训内容:
中间件概述:Web服务器、应用服务器、消息队列、缓存
Tomcat运维:安装配置、JVM参数调优、连接器配置、集群部署
Nginx运维:虚拟主机、反向代理、负载均衡、缓存配置
Redis运维:持久化配置、主从复制、哨兵模式、集群搭建
RabbitMQ运维:集群部署、镜像队列、用户权限、监控
Kafka运维:分区管理、消费组监控、日志清理、集群扩展
ZooKeeper运维:节点管理、集群监控、故障恢复
Elasticsearch运维:索引管理、分片配置、集群监控、数据备份
中间件监控指标:连接数、QPS/TPS、内存使用、GC情况
日志管理:访问日志、错误日志、慢日志、日志切割
常见故障处理:内存溢出、连接泄漏、性能瓶颈
综合实战:Nginx+Tomcat负载均衡集群搭建与优化
培训对象:
运维监控工程师
SRE/运维开发人员
需要建设监控体系的管理者
培训目标:
掌握主流监控工具(Zabbix/Prometheus/Grafana)的部署与配置,能够设计监控指标、配置告警规则、构建可视化仪表盘,实现全方位的系统监控。
培训内容:
监控系统架构:数据采集、数据存储、告警引擎、可视化
Zabbix监控:Server/Proxy/Agent架构、主机监控、模板制作
Prometheus监控:Pull模型、Exporter、PromQL查询语言
Grafana可视化:数据源配置、仪表盘设计、告警配置
监控指标设计:黄金指标(延迟/流量/错误/饱和度)
主机监控:CPU/内存/磁盘/网络/进程监控
应用监控:HTTP接口、数据库、中间件、业务指标
日志监控:ELK/EFK架构、日志采集、日志分析、异常检测
告警规则配置:阈值告警、同比告警、智能告警
告警通知与升级:邮件、短信、钉钉/企微/飞书、电话
告警抑制与聚合:重复告警屏蔽、告警依赖分析
综合实战:基于Prometheus+Grafana构建完整监控体系
培训对象:
运维工程师希望提升自动化能力
DevOps实践者
需要批量处理任务的IT人员
培训目标:
掌握自动化运维的核心技术,能够使用Shell/Python编写自动化脚本,掌握Ansible等自动化工具,实现批量部署、配置管理、任务编排。
培训内容:
自动化运维价值:效率提升、降低人为错误、标准化交付
Shell脚本编程:变量、条件判断、循环、函数、正则表达式
Python运维开发:OS/Sys/Subprocess模块、文件操作、异常处理
批量操作工具:PSSH、Fabric、并行执行
Ansible基础:无代理架构、Inventory、模块、Playbook
Ansible Playbook进阶:变量、条件、循环、角色、模板
自动化部署实践:Web服务部署、应用配置、服务启动
配置管理:配置文件模板、版本控制、配置下发
任务编排:Ansible Tower/AWX、任务调度、执行记录
自动化巡检:脚本编写、结果收集、报告生成
自动化备份:数据库备份、文件备份、备份策略脚本
综合实战:使用Ansible批量部署LNMP环境
培训对象:
容器运维工程师
云原生应用管理者
传统运维向云原生转型人员
培训目标:
掌握Docker容器技术与Kubernetes容器编排平台的运维方法,能够进行容器化部署、集群管理、应用发布、监控日志,构建云原生运维能力。
培训内容:
Docker基础:镜像、容器、仓库、Dockerfile编写
Docker网络与存储:网络模式、数据卷、卷驱动
Docker Compose:多容器编排、服务依赖、环境变量
Kubernetes架构:Master/Node组件、Pod、控制器
应用部署:Deployment、StatefulSet、DaemonSet、Job
服务发现:Service、Ingress、DNS、负载均衡
配置管理:ConfigMap、Secret、环境变量注入
存储管理:PV/PVC、StorageClass、动态供给
监控与日志:Prometheus Operator、EFK/PLG栈
容器安全:镜像扫描、安全上下文、网络策略
集群维护:节点管理、版本升级、备份恢复
综合实战:Kubernetes集群搭建与微服务部署
培训对象:
DevOps工程师
运维开发人员
需要建设CI/CD流程的技术人员
培训目标:
掌握DevOps核心理念与工具链,能够搭建持续集成/持续部署(CI/CD)流水线,实现代码编译、自动化测试、制品管理、自动化部署的全流程。
培训内容:
DevOps理念与文化:打破开发与运维壁垒、自动化一切
版本控制工具:Git进阶、分支策略、GitFlow/GitHub Flow
代码仓库管理:GitLab/GitHub企业版、权限控制、Webhook
持续集成工具:Jenkins架构、Pipeline(声明式/脚本式)
Jenkins实践:参数化构建、多分支流水线、共享库
制品管理:Nexus/Artifactory、制品版本管理、清理策略
自动化测试集成:单元测试、代码扫描、接口测试
持续部署策略:蓝绿部署、金丝雀发布、滚动更新
基础设施即代码(IaC):Terraform、CloudFormation
配置即代码:Ansible、Puppet、Chef
DevOps度量:部署频率、变更前置时间、恢复时间、变更失败率
综合实战:基于Jenkins+K8s构建完整CI/CD流水线
培训对象:
系统运维工程师
灾备管理人员
需要保障业务连续性的IT人员
培训目标:
掌握数据备份与恢复的策略与技术,理解容灾架构的等级与实现方式,能够制定备份计划、开展恢复演练,保障业务连续性。
培训内容:
备份容灾基础概念:RPO(恢复点目标)、RTO(恢复时间目标)
备份策略设计:全量备份、增量备份、差异备份、合成备份
备份介质管理:磁盘备份、磁带备份、云备份、副本管理
数据库备份:逻辑备份、物理备份、归档日志备份
文件系统备份:文件级备份、卷级备份、重复数据删除
虚拟机备份:快照备份、CDP(持续数据保护)
备份恢复演练:恢复验证、灾难模拟、演练报告
容灾架构等级:数据级容灾、应用级容灾、业务级容灾
同城容灾:同步复制、异步复制、双活架构
异地容灾:异步复制、灾备切换、数据一致性
容灾切换流程:故障检测、切换决策、切换执行、回切
综合实战:制定备份策略并完成一次恢复演练
培训对象:
IT服务管理人员、服务台人员
ITIL流程负责人
需要规范IT服务的管理者
培训目标:
掌握ITIL/ISO20000服务管理框架的核心流程,能够建立服务台、事件管理、问题管理、变更管理等流程,提升IT服务质量和用户满意度。
培训内容:
IT服务管理概述:ITIL发展历程、ISO20000标准
服务战略:服务组合管理、财务管理、需求管理
服务设计:服务目录管理、可用性管理、容量管理、连续性管理
服务转换:变更管理、发布管理、配置管理、知识管理
服务运营:事件管理、问题管理、服务台、请求 fulfillment
持续服务改进:CSI流程、度量指标、改进计划
服务台建设:服务台模式(本地/虚拟/跟随太阳)、人员技能
事件管理流程:事件分级、响应、升级、关闭
问题管理流程:问题识别、根因分析、已知错误、预防措施
变更管理流程:变更类型(标准/正常/紧急)、CAB、评审
配置管理数据库(CMDB):配置项、关系、审计
综合实战:设计事件管理与变更管理流程并模拟演练
培训对象:
需要综合运用运维技能的工程师
故障响应人员
希望提升问题解决能力的运维人员
培训目标:
通过综合实战演练,整合运维各领域知识与技能,掌握复杂故障的排查思路与方法,提升快速定位与解决问题的能力。
培训内容:
故障排查方法论:现象分析、影响范围、根因定位、解决方案
网络故障排查:连通性问题、延迟问题、丢包问题、DNS解析
系统故障排查:CPU飙升、内存溢出、磁盘满、负载过高
应用故障排查:服务不可用、响应慢、连接失败、报错日志
数据库故障排查:连接数爆满、锁等待、死锁、慢查询
中间件故障排查:连接泄漏、队列堆积、缓存穿透
全链路排查:从客户端到服务端的完整链路追踪
故障应急响应:故障通告、止血措施、恢复操作
故障复盘:5W1H分析法、根因总结、改进措施
故障模拟演练:混沌工程、故障注入、恢复能力验证
综合故障场景一:Web服务访问慢的全链路排查
综合故障场景二:数据库主从延迟与数据一致性故障