数据质量工程师、数据治理人员、数据平台运维、数据管家、需要建立数据质量监控体系的技术人员。
掌握数据质量管理的核心理念和落地方法,能够设计数据质量监控指标和监控规则,运用数据质量监控工具实现自动化巡检和预警,理解数据血缘分析在质量问题溯源中的应用,建立持续改进的数据质量治理闭环。
一、数据质量概述:数据质量的定义与维度(完整性、准确性、一致性、及时性、唯一性、有效性),低质量数据的业务影响(决策错误、成本浪费、信任丧失)。
二、数据质量指标体系:各维度对应的量化指标设计(如完整性率、准确率、重复率),指标阈值设定方法,SLA(服务等级协议)定义。
三、数据质量监控规则设计:完整性监控规则(空值检测、缺失率统计),准确性监控规则(格式校验、逻辑校验、波动检测)。
四、数据质量监控规则设计(续):一致性监控规则(跨表比对、源端与目标端比对),及时性监控规则(数据延迟监控),唯一性监控规则(重复值检测)。
五、数据质量监控工具:开源监控工具(Griffin、DolphinScheduler数据质量模块),商业监控工具(Informatica、Collibra),工具选型对比。
六、数据质量巡检与预警:自动化巡检任务配置,预警阈值设置,预警渠道(邮件、钉钉、短信),预警响应流程。
七、数据质量问题溯源:问题发现后的根因分析(数据源问题、ETL逻辑问题、应用写入问题),基于数据血缘的快速定位。
八、Apache Atlas深度应用:Atlas架构与核心组件,元数据导入与类型管理,血缘采集与可视化,数据分类与标签。
九、Alation深度应用:Alation数据目录功能,数据搜索与发现,协同治理(数据社区、专家认证),质量评价与使用分析。
十、数据质量问题闭环管理:问题登记与跟踪,责任人与修复时限,修复后验证,问题复盘与知识库沉淀。
十一、数据质量度量与报告:质量看板设计,质量报告定期输出,质量趋势分析,质量问题与业务影响的关联。
十二、数据质量治理案例:某银行数据质量治理项目,某互联网公司实时数据质量监控体系,从问题发现到根因修复的全流程实战。