曙海培训-数据仓库培训课程体系（选修）-曙海培训中心,全国连锁

数据仓库培训课程体系（选修专题目录）

专题一：数据仓库基础概念与架构

专题二：数据建模与维度建模实战

专题三：ETL数据整合与处理

专题四：SQL在数据仓库中的应用

专题五：数据仓库性能优化

专题六：数据质量管理与元数据管理

专题七：数据仓库安全与权限控制

专题八：实时数据仓库技术

专题九：数据湖与湖仓一体

专题十：数仓项目实战与行业案例

专题一：数据仓库基础概念与架构培训课程

课程名称：数据仓库基础概念与架构培训课程

培训对象：

初入行数据工程师/数据分析师
需要理解数据底层的业务人员
企业数字化转型项目组成员
希望系统了解数据仓库的IT人员

培训目标：
使学员系统掌握数据仓库的核心概念、发展历程与技术体系，理解数据仓库与数据库的区别与联系；熟悉数据仓库的经典架构与主流分层设计；掌握数据集市、ODS、数据湖等衍生概念；为后续深入学习数据仓库各技术模块打下坚实基础。

培训内容介绍：

数据仓库概述：数据仓库的定义与特征（面向主题/集成/非易失/随时间变化）；数据仓库的起源与发展历程（从报表工具到决策支持）；数据仓库在企业数据体系中的定位；数据仓库与操作型数据库（OLTP）的对比。
数据仓库架构演进：经典数据仓库架构（Inmon vs Kimball）；Inmon企业信息工厂（CIF）思想；Kimball维度建模思想；两种架构的对比与适用场景；新一代数据仓库架构（云数仓/数据湖/湖仓一体）。
数据仓库分层架构：数据仓库分层的意义与原则；ODS操作数据存储层（贴源层）；DWD明细数据层；DWS轻度汇总层；ADS应用数据层；DIM维度层；各层职责与设计要点；分层带来的好处（解耦/复用/性能/血缘）。
数据集市与ODS：数据集市的概念与类型（依赖型/独立型）；数据集市与数据仓库的关系；操作数据存储（ODS）的作用；ODS与数据仓库的区别；实时ODS与批处理ODS。
数据仓库技术选型：传统数据仓库（Teradata/Oracle Exadata/DB2）；开源数据仓库（Hive/HBase/ClickHouse）；云原生数据仓库（AWS Redshift/Snowflake/Google BigQuery/Aliyun MaxCompute）；数据仓库选型考量因素（数据量/并发/成本/团队技术栈）。
元数据管理基础：元数据的定义与分类（技术元数据/业务元数据/操作元数据）；元数据管理的价值；数据血缘概念；元数据采集与应用场景。
数据仓库生命周期：数据仓库项目开发流程（需求分析→架构设计→模型设计→ETL开发→测试→部署→运维）；敏捷方法论在数仓建设中的应用；数据仓库版本管理。

专题二：数据建模与维度建模实战培训课程

课程名称：数据建模与维度建模实战培训课程

培训对象：

数据仓库/BI开发人员
数据分析师（需理解数据模型）
数据架构师
数据建模初学者

培训目标：
使学员系统掌握数据建模的核心方法论，特别是维度建模技术；熟练运用星型模型、雪花模型进行事实表与维度表设计；掌握缓慢变化维度（SCD）处理策略；能够独立完成从业务需求分析到逻辑模型设计的完整建模工作。

培训内容介绍：

数据建模概述：数据建模的定义与价值；数据模型的三个层次（概念模型/逻辑模型/物理模型）；建模方法论对比（ER建模/维度建模/Data Vault）。
维度建模核心概念：维度建模的基本思想（星型模型/雪花模型）；事实表（可加/半可加/不可加事实）；维度表（退化维度/角色扮演维度）；粒度概念与重要性；一致性维度与一致性事实。
事实表设计：事务事实表（记录业务事件）；周期快照事实表（记录周期性状态）；累积快照事实表（记录全生命周期）；无事实的事实表；事实表设计原则（粒度声明/事实可加性）；事实表设计案例。
维度表设计：维度的基本特征；维度的层次结构；维度的属性设计；维度的SCD策略选择（类型0/1/2/3/6）；角色扮演维度；日期维度的特殊处理；维度表设计最佳实践。
缓慢变化维度（SCD）：SCD问题产生的背景；类型0（保留原始）；类型1（覆盖更新）；类型2（增加维度行）；类型3（增加属性列）；类型4（使用微型维度）；类型6（混合技术）；SCD策略选择指南。
维度建模高级主题：多值维度与桥接表；层次维度与递归层次；杂项维度；退化维度；雪花维度；星座模型（事实星系）。
建模工具使用：常见数据建模工具（Erwin/PowerDesigner/PDMan）；正向工程与逆向工程；模型的版本管理与协作；模型文档生成。
建模实战案例：零售销售维度建模案例；订单履约过程建模案例；会员生命周期建模案例；库存快照建模案例。

专题三：ETL数据整合与处理培训课程

课程名称：ETL数据整合与处理培训课程

培训对象：

ETL开发工程师/数据集成工程师
需要处理多源数据的数据分析师
数据平台运维人员
SQL开发人员

培训目标：
使学员掌握ETL（抽取-转换-加载）的核心概念与设计方法，熟练运用Kettle/DataX/SSIS等工具进行数据整合；理解海量数据优化处理技术，能够设计高效的数据处理流程；具备解决异构数据源集成、数据清洗与转换等实际问题的能力。

培训内容介绍：

ETL概述：ETL在数据仓库架构中的位置；ETL与ELT的对比与选择；ETL设计的基本原则；主流ETL工具对比（Kettle/DataX/SSIS/Informatica）。
数据抽取策略：源系统分析；全量抽取与增量抽取；基于时间戳的增量抽取；基于CDC的增量抽取（日志解析/触发器）；数据抽取频率设计；抽取性能优化。
数据转换与清洗：数据转换的常见类型（格式转换/类型转换/字段映射/值替换）；数据清洗任务（去重/空值处理/异常值处理/数据标准化）；业务规则转换（代码转换/指标计算）；维度建模中的转换需求（代理键生成/SCD处理）。
数据加载策略：初始加载与增量加载；全量覆盖与追加写入；缓慢变化维度加载策略；事实表加载策略；加载性能优化（批量提交/索引维护）。
Kettle实战：Kettle工具介绍与安装；Spoon界面导航；转换与作业的概念；核心组件（输入/输出/转换/连接/脚本）；作业调度与日志；Kettle集群与性能优化。
DataX实战：DataX架构与原理；DataX安装与配置；文本文件同步；关系型数据库同步；异构数据源同步；性能调优参数。
数据仓库ETL流程设计：ETL流程分层设计；DWD层ETL流程；DWS层ETL流程；依赖关系管理；错误处理与重试机制；ETL调度设计。
ETL监控与运维：ETL作业监控指标；执行日志管理；性能瓶颈分析；失败告警机制；数据一致性校验。

专题四：SQL在数据仓库中的应用培训课程

课程名称：SQL在数据仓库中的应用培训课程

培训对象：

数据仓库开发人员
数据分析师（需编写复杂SQL）
需要处理海量数据的SQL开发者
BI工程师

培训目标：
使学员深入掌握SQL在数据仓库环境中的高级应用技巧，熟练运用窗口函数、CTE、复杂连接解决ETL与数据分析需求；理解数据仓库SQL与传统OLTP SQL的区别；掌握SQL性能优化方法；能够编写高效、规范的数仓SQL代码。

培训内容介绍：

数仓SQL概述：数据仓库SQL的特点（海量数据/复杂查询/批处理）；数仓SQL与OLTP SQL的对比；主流数仓SQL引擎（Hive SQL/Spark SQL/ClickHouse SQL）；SQL标准与方言差异。
复杂查询技巧：多表连接优化（星型模型下的连接）；子查询与CTE应用；窗口函数深入（排名/窗口聚合/滑动窗口/同比环比）；行列转换技术；分组聚合高级应用（GROUPING SETS/CUBE/ROLLUP）。
ETL中的SQL应用：增量数据识别；缓慢变化维度SQL实现；代理键生成；拉链表设计与实现；事实表更新策略；数据质量检查SQL。
SQL性能优化：执行计划解读；分区裁剪与分桶优化；连接策略选择（MapJoin/Bucket Join/Sort Merge Join）；数据倾斜处理；避免数据扫描；SQL重写优化技巧。
Hive SQL专题：Hive架构与执行引擎；Hive表类型（内部表/外部表/临时表）；分区表与分桶表；Hive SQL优化（向量化/并行执行/CBO）；UDF/UDAF/UDTF开发。
Spark SQL专题：Spark SQL架构；DataFrame与SQL互操作；Spark SQL优化（Tungsten/Catalyst）；动态资源分配；AQE自适应查询执行。
数仓SQL规范：SQL编码规范（命名/格式/注释）；SQL代码审查要点；SQL版本管理；SQL单元测试；常见SQL反模式。
综合实战：复杂业务指标SQL实现；ETL流程SQL实现；数据质量校验SQL。

专题五：数据仓库性能优化培训课程

课程名称：数据仓库性能优化培训课程

培训对象：

数据仓库管理员
高级数据工程师
数据架构师
需要解决性能问题的开发人员

培训目标：
使学员深入理解数据仓库性能优化的核心技术与方法论，掌握从硬件层、系统层、模型层到SQL层的全链路优化技能；熟练运用分区、分桶、索引、压缩等优化手段；能够独立进行性能诊断与调优，保障数据仓库的高效稳定运行。

培训内容介绍：

性能优化概述：数据仓库性能指标体系（响应时间/吞吐量/并发能力）；性能优化方法论（监控→诊断→优化→验证）；性能优化的层次（硬件/系统/模型/SQL）；常见性能瓶颈识别。
硬件与系统优化：存储系统选型与配置（SSD vs HDD）；内存配置与优化；CPU与并行度设置；网络带宽考量；操作系统参数调优。
数据模型优化：规范化与反规范化权衡；维度建模对性能的影响；聚合表与预计算；数据倾斜模型层面的解决方案；分桶策略设计。
分区策略优化：分区的原理与价值；分区键选择原则；分区粒度设计（年/月/日）；静态分区与动态分区；分区裁剪优化；过多分区的负面影响。
索引技术：数据仓库索引类型（B-Tree/位图/倒排/ Bloom Filter）；索引适用场景；索引设计原则；索引维护成本；物化索引。
数据压缩技术：压缩算法的原理与对比（Snappy/Zlib/LZO/Zstd）；压缩率与解压速度权衡；列式存储与压缩的关系；不同数据类型的压缩策略。
SQL执行优化：执行计划深度解读；Join策略选择与优化；数据倾斜SQL处理（Skew Join/Salting技术）；Map/Reduce阶段优化；UDF性能优化。
查询引擎优化：Hive优化参数；Spark SQL优化参数；ClickHouse优化参数；资源队列与并发控制；查询优先级管理。
性能监控与诊断：监控指标采集（Prometheus/Grafana）；慢查询日志分析；性能瓶颈定位方法；压力测试与容量规划；性能优化文档化。
综合实战：真实场景性能问题诊断与优化全流程。

专题六：数据质量管理与元数据管理培训课程

课程名称：数据质量管理与元数据管理培训课程

培训对象：

数据质量工程师
数据治理人员
数据仓库开发人员
数据架构师

培训目标：
使学员系统掌握数据质量管理与元数据管理的核心理念与实践方法；理解数据质量的六个维度，能够设计数据质量监控规则与评估体系；掌握元数据采集、血缘追踪与应用技术；具备构建企业数据质量管理与元数据管理能力。

培训内容介绍：

数据质量概述：数据质量的定义与价值；数据质量问题产生的原因；数据质量与数据治理的关系；数据质量管理流程（定义→测量→监控→改进）。
数据质量维度：完整性（缺失值检测）；准确性（数据内容正确性）；一致性（数据逻辑一致性）；及时性（数据时效性）；唯一性（重复数据识别）；有效性（数据符合业务规则）。
数据质量监控体系：数据质量监控点设计；监控规则配置（空值检查/重复值检查/值域检查/业务逻辑检查）；监控频率设置；监控结果可视化；异常告警机制。
数据质量评估：数据质量评分模型；数据质量报告设计；数据质量问题根因分析；数据质量改进计划；数据质量闭环管理。
数据质量工具：数据质量工具对比（Griffin/Databand/Great Expectations）；工具部署与配置；质量规则开发；质量监控结果存储。
元数据管理概述：元数据的定义与分类（技术元数据/业务元数据/操作元数据）；元数据管理的价值；元数据管理成熟度模型。
元数据采集与存储：技术元数据采集（数据库/ETL/报表）；业务元数据采集（指标定义/业务术语）；元数据存储架构；元数据API设计。
数据血缘追踪：数据血缘的概念与价值；血缘采集方式（解析/运行时采集）；血缘可视化技术；血缘在影响分析中的应用；数据链路追踪。
元数据应用场景：数据地图（数据资产目录）；数据血缘分析；影响分析；数据链路追踪；数据合规与审计；数据热度分析。
元数据管理工具：工具对比（Atlas/DataHub/Amundsen）；工具部署与配置；元数据导入；血缘解析配置；应用集成。
综合实战：数据质量监控体系搭建；元数据采集与血缘可视化。

专题七：数据仓库安全与权限控制培训课程

课程名称：数据仓库安全与权限控制培训课程

培训对象：

数据仓库管理员
数据安全工程师
系统运维人员
数据架构师

培训目标：
使学员深入理解数据仓库安全体系的核心要素，掌握身份认证、授权、审计等关键技术；熟练运用RBAC/ABAC权限模型进行精细化权限控制；了解数据脱敏、加密等隐私保护技术；具备构建企业级数据仓库安全防护体系的能力。

培训内容介绍：

数据安全概述：数据安全的CIA三元组（机密性/完整性/可用性）；数据安全法规（GDPR/个人信息保护法/数据安全法）；数据仓库安全威胁分析；数据安全纵深防御体系。
身份认证：认证方式对比（用户名密码/Kerberos/LDAP/SSO）；多因素认证；服务账户管理；认证集成实践。
授权与权限模型：权限模型演进（DAC/MAC/RBAC/ABAC）；RBAC基于角色的权限控制（角色/权限/用户）；ABAC基于属性的权限控制（用户属性/资源属性/环境条件）；行级权限与列级权限；数据脱敏权限控制。
主流数仓权限实践：Hive权限控制（Storage Based Authorization/SQL Standards Based Authorization/Ranger/Sentry）；Spark权限控制；ClickHouse权限控制；云数仓权限控制（AWS Redshift/Snowflake）。
Apache Ranger实战：Ranger架构与组件；Ranger安装与配置；资源策略配置（Hive/HBase/HDFS）；权限策略管理；审计日志查看。
数据脱敏技术：静态脱敏与动态脱敏；脱敏算法（替换/遮蔽/模糊化/泛化）；脱敏策略配置；基于角色的脱敏控制；测试数据生成。
数据加密技术：传输层加密（TLS/SSL）；存储层加密（TDE/列级加密）；密钥管理方案；加密对性能的影响。
审计与合规：审计日志采集与存储；审计日志分析；合规性检查（等保/GDPR）；异常行为检测；审计报告生成。
数据安全生命周期：数据分类分级；数据采集安全；数据传输安全；数据存储安全；数据使用安全；数据销毁安全。
综合实战：基于Ranger的权限控制体系搭建；动态数据脱敏配置；安全审计配置。

专题八：实时数据仓库技术培训课程

课程名称：实时数据仓库技术培训课程

培训对象：

实时计算工程师
数据仓库开发人员（向实时转型）
大数据平台开发人员
需要实时数据决策的业务架构师

培训目标：
使学员系统掌握实时数据仓库的核心概念与技术架构，理解实时数仓与离线数仓的区别与联系；熟练运用Flink/Kafka等主流技术构建实时数据处理管道；掌握实时数仓分层设计与建模方法；具备独立设计和开发实时数据仓库的能力。

培训内容介绍：

实时数仓概述：实时数仓的产生背景与发展趋势；实时数仓的应用场景（实时大屏/实时风控/实时营销）；实时数仓与离线数仓的对比；实时数仓的挑战（一致性/延迟/容错）。
实时数仓架构演进：Lambda架构（离线+实时两条链路）；Kappa架构（统一实时处理）；流批一体架构；实时数仓分层设计（ODS实时层/DWD实时层/DWS实时层/ADS实时层）。
数据采集与传输：实时数据源类型（业务数据库/日志/埋点/消息队列）；CDC技术（Canal/Debezium/Flink CDC）；Kafka核心概念与架构；Kafka数据可靠性配置；Kafka性能优化。
Flink流处理基础：Flink架构与特性；Flink DataStream API；时间语义与Watermark；窗口计算（滚动/滑动/会话）；状态管理与容错机制；Exactly-Once语义。
Flink SQL实时计算：Flink SQL架构；动态表与连续查询；实时ETL（过滤/转换/补全）；实时聚合计算；窗口聚合实现；维表关联（Async I/O/ Lookup Join）。
实时数仓分层实现：ODS实时层实现（Kafka Topic设计）；DWD实时层实现（数据清洗/维度补全/分流）；DWS实时层实现（实时聚合/预计算）；ADS实时层实现（结果输出）。
实时数据输出：实时数据输出到KV存储（Redis/HBase）；实时数据输出到OLAP引擎（ClickHouse/Doris）；实时数据输出到消息队列；实时数据服务API封装。
实时数仓建模：实时数仓维度建模特点；实时维度表处理；实时事实表设计；实时维表变更处理；实时拉链表实现。
实时数仓性能优化：反压检测与处理；Checkpoint调优；状态后端选择与优化；数据倾斜处理；SQL优化技巧；资源参数调优。
实时数仓数据质量：实时数据质量挑战；实时数据监控；数据延迟监控；数据准确性校验；实时数据回溯机制；实时数据链路血缘。
综合实战：实时订单统计大屏（Flink+Kafka+Redis）；实时用户行为分析（Flink SQL）；实时维表关联（CDC+Lookup Join）。

专题九：数据湖与湖仓一体培训课程

课程名称：数据湖与湖仓一体培训课程

培训对象：

数据架构师
大数据平台开发人员
数据仓库开发人员（向湖仓演进）
技术决策者

培训目标：
使学员深入理解数据湖的核心概念与技术架构，掌握数据湖与数据仓库的区别与联系；熟悉Delta Lake/Hudi/Iceberg等主流湖仓一体技术；理解湖仓一体的架构优势与应用场景；具备在企业中规划和实施湖仓一体架构的能力。

培训内容介绍：

数据湖概述：数据湖的定义与起源；数据湖的核心特征（Schema-on-Read/集中存储/多模态数据）；数据湖与数据仓库的对比；数据湖的演进（从数据湖到湖仓一体）。
数据湖架构：数据湖分层设计（原始层/标准层/应用层）；数据湖文件格式（Parquet/ORC/Avro）；数据湖表格式演进；数据湖计算引擎（Spark/Presto/Flink）。
数据湖表格式：Hudi核心概念与架构；Hudi表类型（Copy on Write/Merge on Read）；Hudi查询类型（快照查询/增量查询/时间旅行）；Iceberg核心概念与架构；Iceberg表格式特点；Delta Lake核心概念。
数据湖与数据仓库集成：数据湖与数据仓库的两种集成模式（数据入湖+数仓分析/湖上建仓）；湖仓一体架构的优势；湖仓一体参考架构。
Delta Lake实战：Delta Lake安装与配置；Delta表操作（读写/更新/删除/合并）；时间旅行与版本管理；Schema演进；Delta Lake性能优化。
Hudi实战：Hudi部署与配置；Hudi写入操作（批量/流式）；Hudi查询操作；Hudi表管理（Compaction/Clustering）；Hudi与Spark/Flink集成。
Iceberg实战：Iceberg核心概念；Iceberg表操作；Iceberg的ACID特性；Iceberg时间旅行；Iceberg与Spark/Flink集成。
湖仓一体查询引擎：Presto/Trino架构与特性；Presto查询数据湖；Presto联邦查询；Presto性能优化；Spark SQL查询数据湖。
湖仓一体数据管理：数据湖元数据管理（HMS/Glue）；数据湖数据质量；数据湖数据生命周期管理；数据湖权限控制。
湖仓一体应用场景：数据湖作为企业级数据平台底座；数据湖支持数据科学/机器学习；数据湖支持实时/离线统一存储；数据湖支持跨数据源联邦查询。
湖仓一体迁移路径：从传统数仓迁移到湖仓一体；从数据湖演进到湖仓一体；迁移风险评估；迁移实施步骤；迁移后验证。
综合实战：基于Hudi/Iceberg构建湖仓一体平台；实时数据入湖与查询；离线批处理与实时流处理统一存储。

专题十：数仓项目实战与行业案例培训课程

课程名称：数仓项目实战与行业案例培训课程

培训对象：

即将参与数仓项目的开发人员
数据仓库项目经理/技术负责人
需要了解行业实践的数据架构师
数据仓库初学者（需项目经验）

培训目标：
使学员通过真实行业案例全面了解数据仓库项目的完整生命周期，从需求调研、架构设计、模型设计、ETL开发到测试部署的全流程；掌握数仓项目实施的常见问题与解决方案；具备独立承担或参与企业数据仓库项目的能力。

培训内容介绍：

数仓项目方法论：数仓项目实施路线图；需求调研方法与技巧；技术选型决策框架；项目团队角色与职责；敏捷开发在数仓项目中的应用。
电商数仓项目实战：电商业务分析（用户/商品/订单/营销/物流）；电商数仓架构设计；电商数仓分层设计；电商维度建模（商品维度/用户维度/时间维度/店铺维度）；电商事实表设计（交易事实/流量事实/营销事实）；电商ETL流程设计；电商指标体系构建；电商数仓性能优化；电商数仓应用（BI报表/用户画像/推荐系统）。
金融数仓项目实战：金融业务分析（存贷汇/信用卡/理财/风控）；金融数仓架构设计（高安全/高合规要求）；金融数仓分层设计；金融维度建模（客户维度/账户维度/产品维度）；金融事实表设计（交易事实/授信事实/风险事实）；金融数据治理与数据安全；金融监管合规报送（EAST/1104）；金融数仓性能优化。
教育数仓项目实战：教育业务分析（招生/教学/教务/财务）；教育数仓架构设计；教育数仓维度建模（学生维度/课程维度/教师维度）；教育事实表设计（报名事实/学习行为事实/考试事实）；教育数仓学生全生命周期分析；教育数仓留存分析/转化分析；教育数仓应用（学情分析/教学改进/招生优化）。
物流数仓项目实战：物流业务分析（订单/仓储/运输/配送）；物流数仓架构设计；物流维度建模（货物维度/车辆维度/司机维度）；物流事实表设计（订单轨迹/库存快照/运输事件）；物流数仓时效与质量监控；物流数仓成本分析；物流数仓应用（路径优化/时效预测/异常预警）。
数仓项目质量管理：数仓项目测试策略（单元测试/集成测试/性能测试）；数据质量验收标准；用户验收测试（UAT）；上线与切换策略；项目文档规范。
数仓项目运维与迭代：上线后运维流程；监控体系搭建；问题响应机制；版本迭代管理；数仓技术债务管理；数仓演进规划。
综合实战：分组完成一个完整行业数仓项目设计（电商/金融/教育任选），输出：业务需求文档→架构设计文档→模型设计文档→ETL设计文档→测试报告→项目总结。

课程体系说明：
本课程体系覆盖从数据仓库基础理论、建模方法、ETL技术、性能优化、数据治理到实时数仓、湖仓一体等前沿技术，以及行业项目实战的完整技术栈。学员可根据自身技术水平、技术栈偏好和职业发展目标灵活选修。

数据仓库培训课程体系（选修）-曙海培训中心

培训班介绍

数据仓库培训课程体系（选修专题目录）

专题一：数据仓库基础概念与架构

专题二：数据建模与维度建模实战

专题三：ETL数据整合与处理

专题四：SQL在数据仓库中的应用

专题五：数据仓库性能优化

专题六：数据质量管理与元数据管理

专题七：数据仓库安全与权限控制

专题八：实时数据仓库技术

专题九：数据湖与湖仓一体

专题十：数仓项目实战与行业案例

专题一：数据仓库基础概念与架构培训课程

专题二：数据建模与维度建模实战培训课程

专题三：ETL数据整合与处理培训课程

专题四：SQL在数据仓库中的应用培训课程

专题五：数据仓库性能优化培训课程

专题六：数据质量管理与元数据管理培训课程

专题七：数据仓库安全与权限控制培训课程

专题八：实时数据仓库技术培训课程

专题九：数据湖与湖仓一体培训课程

专题十：数仓项目实战与行业案例培训课程