培训对象: 数据工程师、数据仓库开发人员、ETL开发工程师、BI工程师、数据分析师。
培训目标:
掌握数仓核心理论: 深入理解数据仓库的核心概念、体系架构和建设方法论(Kimball vs. Inmon)。
精通建模方法论: 熟练掌握维度建模(星型模型、雪花模型)的理论和实战技巧。
构建高效ETL流程: 能够设计和开发高效、稳定、可维护的ETL/ELT数据管道。
具备数仓优化能力: 学习数据仓库的性能调优、数据质量控制和大数据环境下的数仓实践。
培训内容介绍:
一、数据仓库概论: 从数据库到数据仓库,理解数仓的建设目标、核心特点和分层架构(ODS, DWD, DWS, ADS)。
二、建模方法论之争: 对比Kimball维度建模与Inmon范式建模,明确不同场景下的选型策略。
三、维度建模四步法: 深入讲解选择业务过程、声明粒度、确定维度、确定事实的维度建模四步流程。
四、维度表设计精要: 维度表的结构、缓慢变化维(SCD)的处理策略、维度代理键、退化维度等。
五、事实表设计进阶: 事务事实表、周期快照事实表、累计快照事实表的设计与应用场景。
六、数据建模实战(一): 以一个典型业务(如电商订单、用户访问日志)为例,进行完整的维度建模设计。
七、数据建模实战(二): 建立数据字典,定义指标口径,确保数据的一致性和准确性。
八、ETL/ELT架构设计: 对比ETL与ELT的差异,选择适合的数据处理引擎(如Spark, DataX, dbt)。
九、数据管道开发实战: 使用SQL或专业工具开发ETL任务,实现数据从源端到数仓的清洗、转换、加载。
十、数据质量管理: 建立数据质量检查体系,包括完整性、准确性、一致性、及时性等维度的监控。
十一、数据仓库性能优化: 分区、分桶、索引、谓词下推、数据倾斜处理等优化技巧。
十二、大数据数仓实践: 介绍基于Hive、Spark SQL、Iceberg/Hudi等开源技术构建湖仓一体的现代数据架构。