培训对象: 运维监控工程师、DevOps人员、SRE工程师、系统管理员。
培训目标:
掌握Prometheus的数据模型和PromQL查询语言。
能够使用Exporter采集各类系统和服务指标。
熟练配置Grafana进行可视化仪表盘设计。
具备AlertManager告警规则配置和路由管理能力。
培训内容介绍:
二、 Prometheus部署与配置: 安装Prometheus Server,配置抓取目标(scrape_configs),使用服务发现动态发现目标。
三、 PromQL查询语言: 编写PromQL查询即时向量和范围向量,使用聚合操作符和函数进行计算。
四、 Node Exporter主机监控: 部署Node Exporter采集CPU、内存、磁盘、网络指标,配置Prometheus抓取。
五、 容器监控(cAdvisor): 部署cAdvisor采集容器指标,监控Docker和K8s容器资源使用情况。
六、 服务发现集成: 在Kubernetes中使用服务发现自动发现Pod和服务,动态更新监控目标。
七、 Grafana基础与数据源配置: 安装Grafana,添加Prometheus数据源,导入预置仪表盘。
八、 Grafana仪表盘设计: 创建自定义仪表盘,使用变量实现动态过滤,配置图表类型和告警。
九、 AlertManager部署与配置: 安装AlertManager,配置告警规则(Alert Rules),定义路由和接收器。
十、 告警接收与通知: 配置邮件、企业微信、钉钉、Slack接收告警,设置告警分组和抑制规则。
十一、 PushGateway批处理监控: 使用PushGateway采集短任务和批处理作业的指标,处理无法拉取的场景。
十二、 实战项目:全栈监控体系搭建: 从零开始搭建Prometheus+Grafana+AlertManager监控平台,监控服务器、容器和应用。