培训对象: 面向IT运维从业人员、开发工程师、高级运维工程师及SRE团队人员。适合需要掌握云原生容器运维核心理论、提升容器化业务保障能力的运维人员。
培训目标: 以容器技术为代表的云原生成为IT基础设施主流选择,本课程旨在帮助学员掌握云原生容器运维的核心理论,从故障的预防、发现、快速恢复等维度阐述容器运维的相关流程及方法论。通过案例实践以及工具实操内容,帮助学员快速掌握容器知识,持续构建智能运维能力和确定性场景恢复能力,保障云上业务稳定,以应对云原生业务快速增长。
培训内容介绍:
云原生容器运维概述:学习以容器技术为代表的云原生运维体系,理解容器运维在企业IT基础设施中的核心地位。
故障预防体系构建:掌握容器环境的故障预防方法论,学习通过规范配置、容量规划、健康检查等手段预防潜在问题。
故障发现机制:学习容器环境下的监控告警体系搭建,掌握快速发现故障的关键指标与检测方法。
故障快速恢复策略:掌握容器故障的快速恢复流程,学习容器重启、弹性伸缩、流量切换等恢复手段。
容器运维流程与方法论:学习从故障预防、发现到快速恢复的完整容器运维流程,建立系统化的运维方法论。
确定性场景恢复能力:掌握在确定性的故障场景下的恢复预案与演练方法,提升运维团队应急处置能力。
容器化业务稳定性保障:学习保障容器化业务稳定运行的最佳实践,包括资源隔离、限流降级、熔断保护等策略。
容器日志管理:掌握容器环境下的日志采集、聚合与分析技术,学习使用EFK/ELK栈实现容器日志集中管理。
容器性能监控:学习使用cAdvisor、Prometheus等工具监控容器性能,掌握容器资源使用率的分析与优化。
容器网络故障排查:掌握容器网络问题的排查技巧,学习网络策略配置、服务发现异常的诊断方法。
容器存储故障处理:学习容器持久化存储的常见故障处理方法,掌握PV/PVC异常状态的分析与恢复。
智能运维能力构建:学习通过自动化工具和AIops技术构建智能运维能力,持续提升容器运维效率与质量。