培训对象:数据工程师、物联网平台运维人员、业务分析师、需要从物联网海量数据中提取价值的专业技术人员。
培训目标:
掌握物联网数据的特点(时序、海量、异构)与处理流程,构建从采集到分析的全链路。
熟练使用时序数据库(InfluxDB、TDengine)进行物联网数据的高效存储与查询。
掌握物联网数据的流处理与批处理方法,实现实时监控、异常检测与统计分析。
培训内容介绍:
物联网数据特征:分析物联网数据的时序性、海量性、多源异构性特点,理解对数据系统的特殊要求。
数据采集架构:设计设备数据采集方案,使用MQTT/HTTP接收数据,理解数据接入的高并发处理。
时序数据库选型:对比InfluxDB、TDengine、Prometheus的特点,根据场景选择合适的时序数据库。
InfluxDB实战:安装配置InfluxDB,创建数据库与保留策略,使用InfluxQL或Flux进行数据写入与查询。
TDengine实战:部署TDengine集群,创建超级表与子表,使用SQL进行时序数据的高效聚合。
数据清洗与转换:使用Python或流处理框架对原始数据进行清洗(去重、补值、格式统一)。
实时流处理:使用Kafka + Flink/Spark Streaming进行实时数据处理,计算滑动窗口平均值、检测阈值超限。
批处理分析:使用Spark或Pandas进行历史数据的批量分析,计算日周月统计指标。
异常检测算法:实现基于统计(3σ)、基于机器学习(孤立森林)的异常检测算法,识别设备故障。
预测性维护:基于历史数据训练预测模型,预测设备剩余寿命或故障概率。
数据API服务:使用RESTful API或GraphQL将处理后的数据提供给上层应用,设计数据服务的鉴权与限流。
综合实战:从设备模拟数据开始,完成数据接入、时序存储、实时告警、批量分析的全流程。