运维工程师、SRE(站点可靠性工程师)
运维开发(DevOps)人员、平台工程师
数据分析师、算法工程师(希望进入运维领域)
运维架构师、技术负责人
需要了解AIOps的企业IT管理者
理解智能运维(AIOps)的核心理念、发展历程与价值
掌握运维数据采集、处理、存储与分析的基础技术
熟悉机器学习在运维场景中的常见算法与应用
能够运用AIOps技术实现异常检测、告警降噪、根因分析、容量预测等
了解AIOps平台架构设计与工具选型
通过行业案例掌握AIOps落地实践与演进路线
智能运维(AIOps)概述:AIOps的定义、演进历程、核心价值与Gartner框架;AIOps与可观测性、DevOps、SRE的关系;典型应用场景与成熟度模型。
运维数据采集与处理:多源运维数据(指标、日志、追踪、事件)的采集技术;常用采集工具(Prometheus、Fluentd、OpenTelemetry)的使用;数据清洗、格式化、丰富与标签统一;数据缓冲与传输(Kafka)实践。
运维数据存储与查询:时序数据库(Prometheus、Thanos)、全文检索引擎(Elasticsearch)、列式存储(ClickHouse)的选型与对比;数据生命周期管理(降采样、过期策略);统一查询语言(PromQL、LogQL、TraceQL)。
机器学习基础与运维场景:监督/无监督/强化学习在运维中的应用;常见算法(回归、分类、聚类、时序预测)与模型评估指标;特征工程与模型解释性(SHAP/LIME)。
异常检测技术:静态阈值与动态阈值方法;统计方法(3σ、移动平均、CUSUM);时间序列分解(STL)与预测模型(ARIMA、Prophet、LSTM);无监督异常检测(孤立森林、自编码器);多维度异常检测与日志异常检测。
告警降噪与智能聚合:告警管理挑战与降噪策略;基于规则与基于机器学习的告警聚类;告警依赖分析与抑制机制;告警事件压缩与生命周期管理;告警有效性度量与自愈响应。
根因分析与定位:基于拓扑的根因分析(服务依赖、调用链传播);基于指标的根因分析(指标关联、维度下钻);基于日志的根因分析(异常日志聚类);多维下钻算法(HotSpot、iDice);因果推断与根因推荐系统。
容量预测与智能扩缩容:容量规划数据来源与预测方法(时序预测、周期性模型);深度学习时序预测(LSTM、Transformer);预测驱动的弹性伸缩策略(HPA、VPA);容量报告与成本优化。
智能运维平台架构:AIOps平台的整体架构(采集、存储、分析、展示、行动层);实时与离线计算引擎(Flink、Spark)的应用;算法模型管理与在线推理;统一API与可视化设计(Grafana);平台可观测性与自身监控。
AIOps算法与模型实践:典型运维算法详解(异常检测、日志聚类、告警聚合、根因分析);开源算法库(ElastAlert、Kapacitor、Analytics Zoo)的使用;算法性能评估与持续迭代。
AIOps典型应用场景:智能监控告警(动态阈值、告警聚合);智能故障诊断(根因分析、故障自愈);智能容量管理(容量预测、弹性伸缩);智能日志与调用链分析;智能业务分析与成本优化;安全运维(异常行为检测)。
AIOps落地实践与演进趋势:AIOps实施路线图(评估、试点、推广);数据治理与组织能力建设;行业案例(互联网、金融、制造);大语言模型在运维中的应用(智能问答、根因推理);eBPF对AIOps的影响;可观测性与AIOps融合;未来三年技术趋势与企业应对。