Ansys和Matlab培训课程班

可观测性与运维数据分析培训课程大纲（选修）-曙海培训中心

5 （9653人评价）

热精品

最新笔记：(75387)
学员：(217537)
浏览：(277013)
加入课程

培训班介绍

可观测性与运维数据分析培训课程大纲（选修）

专题划分

专题一：可观测性基础与运维数据分析
专题二：指标体系与指标数据分析
专题三：日志管理与日志分析
专题四：分布式追踪与调用链分析
专题五：多源数据融合分析
专题六：SLO与错误预算分析
专题七：异常检测与智能告警
专题八：容量规划与性能分析
专题九：故障诊断与根因分析
专题十：可视化与数据分析平台
专题十一：AIOps与机器学习应用
专题十二：行业实践与演进趋势

专题一：可观测性基础与运维数据分析

可观测性定义与三大支柱（指标、日志、追踪）

运维数据分析的目标：故障定位、性能优化、容量规划、安全分析

可观测性与传统监控的区别：从被动告警到主动洞察

运维数据生命周期：采集、传输、存储、分析、可视化

高基数数据与维度分析：标签、维度、聚合

数据分析基本方法：统计分析、趋势分析、相关性分析

运维数据分析的挑战：数据量、多样性、实时性

OpenTelemetry标准与统一数据采集

运维数据治理：质量、成本、安全

可观测性成熟度模型与数据分析能力演进

组织数据驱动文化的建设

案例解析：基于可观测性数据的典型分析场景

专题二：指标体系与指标数据分析

指标类型：计数器（Counter）、仪表盘（Gauge）、直方图（Histogram）、摘要（Summary）

指标设计原则：黄金指标（延迟、流量、错误、饱和度）

Prometheus核心概念：Pull模型、服务发现、PromQL

PromQL高级分析：rate、irate、histogram_quantile、聚合运算

指标相关性分析：基于标签的关联、时序对齐

趋势分析与预测：线性回归、季节性分解

指标异常检测：统计方法（3σ、移动平均）、机器学习方法

多维下钻分析：按标签分组、过滤、对比

业务指标埋点与自定义Exporter开发

指标存储与降采样：Thanos、Mimir

指标分析仪表盘设计：Grafana变量、模板

综合实战：基于PromQL分析服务延迟波动并定位原因

专题三：日志管理与日志分析

日志类型与结构：系统日志、应用日志、安全日志、结构化日志

日志采集架构：Agent采集、缓冲、传输（Filebeat/Fluentd）

日志解析与字段提取：Grok、正则、JSON解析

日志存储与索引：Elasticsearch原理、分片、索引生命周期

日志查询语言：Kibana Query Language（KQL）、Lucene语法

LogQL（Loki查询语言）：标签过滤、管道操作、聚合分析

日志统计分析：频率统计、Top N、异常模式发现

日志关联分析：与指标、追踪关联（Trace ID）

日志告警：基于日志内容的阈值告警、模式匹配

日志采样与成本控制：动态采样、头/尾采样

日志数据湖：长期存储与离线分析（ClickHouse）

综合实战：基于ELFK/Loki分析Nginx访问日志并发现热点URL

专题四：分布式追踪与调用链分析

分布式追踪原理：Trace、Span、Context传播

追踪标准：OpenTracing、OpenCensus、OpenTelemetry

采样策略：概率采样、速率采样、动态采样

追踪数据模型：Span标签、事件、日志

追踪后端存储：Jaeger、Zipkin、Tempo、SkyWalking

调用链查询与分析：服务拓扑、延迟分布、错误链路

瓶颈分析方法：慢Span识别、关键路径分析

追踪数据与指标/日志关联：Trace ID注入、统一检索

分布式追踪在微服务排障中的应用

基于追踪的容量分析：依赖QPS、延迟贡献

无侵入追踪：eBPF、服务网格（Istio）

综合实战：基于Jaeger分析下单链路性能瓶颈

专题五：多源数据融合分析

数据孤岛问题：指标、日志、追踪分离

统一采集代理：OpenTelemetry Collector

数据关联技术：Trace ID注入日志、指标关联标签

统一存储与查询：Thanos + Loki + Tempo联合查询

Grafana Explore跨数据源关联分析

基于时间轴的关联分析：指标突增对应日志异常

多维下钻：从告警到日志到追踪

业务与技术指标的关联：转化率与系统延迟

基于标签的聚合分析：统一标签规范

数据融合分析平台架构设计

数据治理在融合分析中的重要性

综合实战：通过Grafana关联分析指标、日志、追踪定位故障

专题六：SLO与错误预算分析

SLO概念：SLI、SLO、SLA的定义与关系

SLI设计与数据来源：从指标、日志、追踪定义可用性、延迟

多维度SLO：用户维度、服务维度、地域维度

错误预算计算与可视化

错误预算消耗趋势分析

SLO与发布决策：错误预算门禁

剩余错误预算预测：基于历史数据预测消耗

SLO未达成分析：根因、影响范围、改进措施

基于SLO的容量规划

SLO报告与仪表盘设计

多服务SLO聚合与业务健康度评分

综合实战：基于Prometheus数据定义SLO并分析错误预算消耗

专题七：异常检测与智能告警

异常检测基础：静态阈值 vs 动态阈值

统计方法：移动平均、标准差、指数平滑

时间序列异常检测算法：3σ、CUSUM、Holt-Winters

机器学习方法：孤立森林、LSTM、变分自编码器

告警规则设计原则：简单、可行动、避免重复

告警聚合与抑制：基于规则、时间窗口、依赖关系

告警降噪策略：动态阈值、告警压缩

告警自愈机制：Webhook触发自动化修复

告警事件管理与复盘

告警有效性度量：准确率、召回率、MTTA/MTTR

智能根因分析：基于拓扑、日志、指标关联

综合实战：配置机器学习异常检测并验证告警效果

专题八：容量规划与性能分析

容量规划目标：保证服务SLO下的资源合理配置

容量分析数据来源：指标（资源利用率、QPS）、日志（请求量）、追踪（延迟）

负载预测方法：趋势分析、季节性模型（SARIMA）、机器学习

资源需求模型：线性模型、排队论模型

压测与性能基线分析

性能瓶颈识别：资源瓶颈、锁竞争、IO等待

容量报告与仪表盘：剩余容量、风险预警

弹性伸缩策略与容量联动：HPA、Cluster Autoscaler

云资源成本优化与容量规划结合

业务增长与容量规划：大促容量预估

容量规划复盘与改进

综合实战：基于历史监控数据预测未来容量需求

专题九：故障诊断与根因分析

故障诊断流程：发现、定位、恢复、复盘

基于可观测性数据的故障发现：告警、指标异常、日志错误

故障定位方法：排除法、二分法、对比法

根因分析常用技术：火焰图、时序对比、相关性分析

微服务故障传播链分析：服务拓扑、调用链

日志异常模式识别：错误日志聚类

根因推荐系统：基于知识图谱、机器学习

故障诊断工具：Arthas、btrace、perf

分布式追踪在故障定位中的应用

故障复盘与知识库建设

混沌工程与故障演练

综合实战：模拟故障并利用可观测性数据完成根因分析

专题十：可视化与数据分析平台

可视化在运维数据分析中的作用

Grafana核心功能：数据源、仪表盘、变量、告警

仪表盘设计原则：清晰、层次分明、可下钻

业务仪表盘：核心指标、用户旅程

技术仪表盘：资源、中间件、应用性能

统一可观测性平台架构：Prometheus + Loki + Tempo + Grafana

数据分析平台需求：多维分析、自助查询、报表

数据导出与集成：与BI工具（Tableau、PowerBI）对接

运维数据湖：数据存储、离线分析（Spark、ClickHouse）

自助分析能力：SQL on Logs、PromQL即席查询

平台性能与成本优化

综合实战：设计企业级可观测性数据分析平台架构

专题十一：AIOps与机器学习应用

AIOps定义与价值：智能化运维、辅助决策

机器学习在运维数据分析中的应用场景

异常检测：无监督、监督、时序异常

聚类分析：日志聚类、指标模式聚类

根因分析：基于因果推断、关联规则

趋势预测：时间序列预测模型

告警降噪与事件压缩：智能聚合

智能变更风险评估

运维知识图谱构建与应用

AIOps落地挑战：数据质量、模型解释性、工程化

开源AIOps工具：Analytics Zoo、ElastAlert、Kapacitor

综合实战：基于机器学习实现指标异常检测并集成告警

专题十二：行业实践与演进趋势

互联网行业可观测性与数据分析实践

金融行业运维数据分析特点：合规、实时、精准

制造行业IoT数据与可观测性融合

电商大促期间的运维数据分析实战

游戏行业实时数据分析与用户体验优化

eBPF技术对可观测性的革新

持续分析（Profiling）与性能分析结合

可观测性标准化的未来：OpenTelemetry成为主流

数据编织（Data Fabric）与主动可观测性

可观测性与FinOps融合：成本数据分析

企业可观测性成熟度提升路径

综合大作业：制定企业可观测性与运维数据分析三年规划

联系曙海客服

友情链接: 集成电路学院 | 企业高新技术学院 | Matlab建模仿真培训 | ASPEN培训课程

版权所有上海曙海信息科技有限公司 ©2004-2088 Ansys Workbench模拟培训

APP
请扫一扫关注曙海微信
问题反馈
返回顶端