曙海培训-智能运维与AIOps培训课程大纲-曙海培训中心,全国连锁

智能运维与AIOps培训课程大纲（选修）

培训对象

运维工程师、SRE（站点可靠性工程师）
运维开发（DevOps）人员、平台工程师
数据分析师、算法工程师（希望进入运维领域）
运维架构师、技术负责人
需要了解AIOps的企业IT管理者

培训目标

理解智能运维（AIOps）的核心理念、发展历程与价值
掌握运维数据采集、处理、存储与分析的基础技术
熟悉机器学习在运维场景中的常见算法与应用
能够运用AIOps技术实现异常检测、告警降噪、根因分析、容量预测等
了解AIOps平台架构设计与工具选型
通过行业案例掌握AIOps落地实践与演进路线

培训内容

智能运维（AIOps）概述：AIOps的定义、演进历程、核心价值与Gartner框架；AIOps与可观测性、DevOps、SRE的关系；典型应用场景与成熟度模型。
运维数据采集与处理：多源运维数据（指标、日志、追踪、事件）的采集技术；常用采集工具（Prometheus、Fluentd、OpenTelemetry）的使用；数据清洗、格式化、丰富与标签统一；数据缓冲与传输（Kafka）实践。
运维数据存储与查询：时序数据库（Prometheus、Thanos）、全文检索引擎（Elasticsearch）、列式存储（ClickHouse）的选型与对比；数据生命周期管理（降采样、过期策略）；统一查询语言（PromQL、LogQL、TraceQL）。
机器学习基础与运维场景：监督/无监督/强化学习在运维中的应用；常见算法（回归、分类、聚类、时序预测）与模型评估指标；特征工程与模型解释性（SHAP/LIME）。
异常检测技术：静态阈值与动态阈值方法；统计方法（3σ、移动平均、CUSUM）；时间序列分解（STL）与预测模型（ARIMA、Prophet、LSTM）；无监督异常检测（孤立森林、自编码器）；多维度异常检测与日志异常检测。
告警降噪与智能聚合：告警管理挑战与降噪策略；基于规则与基于机器学习的告警聚类；告警依赖分析与抑制机制；告警事件压缩与生命周期管理；告警有效性度量与自愈响应。
根因分析与定位：基于拓扑的根因分析（服务依赖、调用链传播）；基于指标的根因分析（指标关联、维度下钻）；基于日志的根因分析（异常日志聚类）；多维下钻算法（HotSpot、iDice）；因果推断与根因推荐系统。
容量预测与智能扩缩容：容量规划数据来源与预测方法（时序预测、周期性模型）；深度学习时序预测（LSTM、Transformer）；预测驱动的弹性伸缩策略（HPA、VPA）；容量报告与成本优化。
智能运维平台架构：AIOps平台的整体架构（采集、存储、分析、展示、行动层）；实时与离线计算引擎（Flink、Spark）的应用；算法模型管理与在线推理；统一API与可视化设计（Grafana）；平台可观测性与自身监控。
AIOps算法与模型实践：典型运维算法详解（异常检测、日志聚类、告警聚合、根因分析）；开源算法库（ElastAlert、Kapacitor、Analytics Zoo）的使用；算法性能评估与持续迭代。
AIOps典型应用场景：智能监控告警（动态阈值、告警聚合）；智能故障诊断（根因分析、故障自愈）；智能容量管理（容量预测、弹性伸缩）；智能日志与调用链分析；智能业务分析与成本优化；安全运维（异常行为检测）。
AIOps落地实践与演进趋势：AIOps实施路线图（评估、试点、推广）；数据治理与组织能力建设；行业案例（互联网、金融、制造）；大语言模型在运维中的应用（智能问答、根因推理）；eBPF对AIOps的影响；可观测性与AIOps融合；未来三年技术趋势与企业应对。

智能运维与AIOps培训课程大纲-曙海培训中心

培训班介绍

智能运维与AIOps培训课程大纲（选修）

培训对象

培训目标

培训内容