课程名称:数据仓库基础概念与架构培训课程
培训对象:
初入行数据工程师/数据分析师
需要理解数据底层的业务人员
企业数字化转型项目组成员
希望系统了解数据仓库的IT人员
培训目标:
使学员系统掌握数据仓库的核心概念、发展历程与技术体系,理解数据仓库与数据库的区别与联系;熟悉数据仓库的经典架构与主流分层设计;掌握数据集市、ODS、数据湖等衍生概念;为后续深入学习数据仓库各技术模块打下坚实基础。
培训内容介绍:
数据仓库概述:数据仓库的定义与特征(面向主题/集成/非易失/随时间变化);数据仓库的起源与发展历程(从报表工具到决策支持);数据仓库在企业数据体系中的定位;数据仓库与操作型数据库(OLTP)的对比。
数据仓库架构演进:经典数据仓库架构(Inmon vs Kimball);Inmon企业信息工厂(CIF)思想;Kimball维度建模思想;两种架构的对比与适用场景;新一代数据仓库架构(云数仓/数据湖/湖仓一体)。
数据仓库分层架构:数据仓库分层的意义与原则;ODS操作数据存储层(贴源层);DWD明细数据层;DWS轻度汇总层;ADS应用数据层;DIM维度层;各层职责与设计要点;分层带来的好处(解耦/复用/性能/血缘)。
数据集市与ODS:数据集市的概念与类型(依赖型/独立型);数据集市与数据仓库的关系;操作数据存储(ODS)的作用;ODS与数据仓库的区别;实时ODS与批处理ODS。
数据仓库技术选型:传统数据仓库(Teradata/Oracle Exadata/DB2);开源数据仓库(Hive/HBase/ClickHouse);云原生数据仓库(AWS Redshift/Snowflake/Google BigQuery/Aliyun MaxCompute);数据仓库选型考量因素(数据量/并发/成本/团队技术栈)。
元数据管理基础:元数据的定义与分类(技术元数据/业务元数据/操作元数据);元数据管理的价值;数据血缘概念;元数据采集与应用场景。
数据仓库生命周期:数据仓库项目开发流程(需求分析→架构设计→模型设计→ETL开发→测试→部署→运维);敏捷方法论在数仓建设中的应用;数据仓库版本管理。
课程名称:数据建模与维度建模实战培训课程
培训对象:
数据仓库/BI开发人员
数据分析师(需理解数据模型)
数据架构师
数据建模初学者
培训目标:
使学员系统掌握数据建模的核心方法论,特别是维度建模技术;熟练运用星型模型、雪花模型进行事实表与维度表设计;掌握缓慢变化维度(SCD)处理策略;能够独立完成从业务需求分析到逻辑模型设计的完整建模工作。
培训内容介绍:
数据建模概述:数据建模的定义与价值;数据模型的三个层次(概念模型/逻辑模型/物理模型);建模方法论对比(ER建模/维度建模/Data Vault)。
维度建模核心概念:维度建模的基本思想(星型模型/雪花模型);事实表(可加/半可加/不可加事实);维度表(退化维度/角色扮演维度);粒度概念与重要性;一致性维度与一致性事实。
事实表设计:事务事实表(记录业务事件);周期快照事实表(记录周期性状态);累积快照事实表(记录全生命周期);无事实的事实表;事实表设计原则(粒度声明/事实可加性);事实表设计案例。
维度表设计:维度的基本特征;维度的层次结构;维度的属性设计;维度的SCD策略选择(类型0/1/2/3/6);角色扮演维度;日期维度的特殊处理;维度表设计最佳实践。
缓慢变化维度(SCD):SCD问题产生的背景;类型0(保留原始);类型1(覆盖更新);类型2(增加维度行);类型3(增加属性列);类型4(使用微型维度);类型6(混合技术);SCD策略选择指南。
维度建模高级主题:多值维度与桥接表;层次维度与递归层次;杂项维度;退化维度;雪花维度;星座模型(事实星系)。
建模工具使用:常见数据建模工具(Erwin/PowerDesigner/PDMan);正向工程与逆向工程;模型的版本管理与协作;模型文档生成。
建模实战案例:零售销售维度建模案例;订单履约过程建模案例;会员生命周期建模案例;库存快照建模案例。
课程名称:ETL数据整合与处理培训课程
培训对象:
ETL开发工程师/数据集成工程师
需要处理多源数据的数据分析师
数据平台运维人员
SQL开发人员
培训目标:
使学员掌握ETL(抽取-转换-加载)的核心概念与设计方法,熟练运用Kettle/DataX/SSIS等工具进行数据整合;理解海量数据优化处理技术,能够设计高效的数据处理流程;具备解决异构数据源集成、数据清洗与转换等实际问题的能力。
培训内容介绍:
ETL概述:ETL在数据仓库架构中的位置;ETL与ELT的对比与选择;ETL设计的基本原则;主流ETL工具对比(Kettle/DataX/SSIS/Informatica)。
数据抽取策略:源系统分析;全量抽取与增量抽取;基于时间戳的增量抽取;基于CDC的增量抽取(日志解析/触发器);数据抽取频率设计;抽取性能优化。
数据转换与清洗:数据转换的常见类型(格式转换/类型转换/字段映射/值替换);数据清洗任务(去重/空值处理/异常值处理/数据标准化);业务规则转换(代码转换/指标计算);维度建模中的转换需求(代理键生成/SCD处理)。
数据加载策略:初始加载与增量加载;全量覆盖与追加写入;缓慢变化维度加载策略;事实表加载策略;加载性能优化(批量提交/索引维护)。
Kettle实战:Kettle工具介绍与安装;Spoon界面导航;转换与作业的概念;核心组件(输入/输出/转换/连接/脚本);作业调度与日志;Kettle集群与性能优化。
DataX实战:DataX架构与原理;DataX安装与配置;文本文件同步;关系型数据库同步;异构数据源同步;性能调优参数。
数据仓库ETL流程设计:ETL流程分层设计;DWD层ETL流程;DWS层ETL流程;依赖关系管理;错误处理与重试机制;ETL调度设计。
ETL监控与运维:ETL作业监控指标;执行日志管理;性能瓶颈分析;失败告警机制;数据一致性校验。
课程名称:SQL在数据仓库中的应用培训课程
培训对象:
数据仓库开发人员
数据分析师(需编写复杂SQL)
需要处理海量数据的SQL开发者
BI工程师
培训目标:
使学员深入掌握SQL在数据仓库环境中的高级应用技巧,熟练运用窗口函数、CTE、复杂连接解决ETL与数据分析需求;理解数据仓库SQL与传统OLTP SQL的区别;掌握SQL性能优化方法;能够编写高效、规范的数仓SQL代码。
培训内容介绍:
数仓SQL概述:数据仓库SQL的特点(海量数据/复杂查询/批处理);数仓SQL与OLTP SQL的对比;主流数仓SQL引擎(Hive SQL/Spark SQL/ClickHouse SQL);SQL标准与方言差异。
复杂查询技巧:多表连接优化(星型模型下的连接);子查询与CTE应用;窗口函数深入(排名/窗口聚合/滑动窗口/同比环比);行列转换技术;分组聚合高级应用(GROUPING SETS/CUBE/ROLLUP)。
ETL中的SQL应用:增量数据识别;缓慢变化维度SQL实现;代理键生成;拉链表设计与实现;事实表更新策略;数据质量检查SQL。
SQL性能优化:执行计划解读;分区裁剪与分桶优化;连接策略选择(MapJoin/Bucket Join/Sort Merge Join);数据倾斜处理;避免数据扫描;SQL重写优化技巧。
Hive SQL专题:Hive架构与执行引擎;Hive表类型(内部表/外部表/临时表);分区表与分桶表;Hive SQL优化(向量化/并行执行/CBO);UDF/UDAF/UDTF开发。
Spark SQL专题:Spark SQL架构;DataFrame与SQL互操作;Spark SQL优化(Tungsten/Catalyst);动态资源分配;AQE自适应查询执行。
数仓SQL规范:SQL编码规范(命名/格式/注释);SQL代码审查要点;SQL版本管理;SQL单元测试;常见SQL反模式。
综合实战:复杂业务指标SQL实现;ETL流程SQL实现;数据质量校验SQL。
课程名称:数据仓库性能优化培训课程
培训对象:
数据仓库管理员
高级数据工程师
数据架构师
需要解决性能问题的开发人员
培训目标:
使学员深入理解数据仓库性能优化的核心技术与方法论,掌握从硬件层、系统层、模型层到SQL层的全链路优化技能;熟练运用分区、分桶、索引、压缩等优化手段;能够独立进行性能诊断与调优,保障数据仓库的高效稳定运行。
培训内容介绍:
性能优化概述:数据仓库性能指标体系(响应时间/吞吐量/并发能力);性能优化方法论(监控→诊断→优化→验证);性能优化的层次(硬件/系统/模型/SQL);常见性能瓶颈识别。
硬件与系统优化:存储系统选型与配置(SSD vs HDD);内存配置与优化;CPU与并行度设置;网络带宽考量;操作系统参数调优。
数据模型优化:规范化与反规范化权衡;维度建模对性能的影响;聚合表与预计算;数据倾斜模型层面的解决方案;分桶策略设计。
分区策略优化:分区的原理与价值;分区键选择原则;分区粒度设计(年/月/日);静态分区与动态分区;分区裁剪优化;过多分区的负面影响。
索引技术:数据仓库索引类型(B-Tree/位图/倒排/ Bloom Filter);索引适用场景;索引设计原则;索引维护成本;物化索引。
数据压缩技术:压缩算法的原理与对比(Snappy/Zlib/LZO/Zstd);压缩率与解压速度权衡;列式存储与压缩的关系;不同数据类型的压缩策略。
SQL执行优化:执行计划深度解读;Join策略选择与优化;数据倾斜SQL处理(Skew Join/Salting技术);Map/Reduce阶段优化;UDF性能优化。
查询引擎优化:Hive优化参数;Spark SQL优化参数;ClickHouse优化参数;资源队列与并发控制;查询优先级管理。
性能监控与诊断:监控指标采集(Prometheus/Grafana);慢查询日志分析;性能瓶颈定位方法;压力测试与容量规划;性能优化文档化。
综合实战:真实场景性能问题诊断与优化全流程。
课程名称:数据质量管理与元数据管理培训课程
培训对象:
数据质量工程师
数据治理人员
数据仓库开发人员
数据架构师
培训目标:
使学员系统掌握数据质量管理与元数据管理的核心理念与实践方法;理解数据质量的六个维度,能够设计数据质量监控规则与评估体系;掌握元数据采集、血缘追踪与应用技术;具备构建企业数据质量管理与元数据管理能力。
培训内容介绍:
数据质量概述:数据质量的定义与价值;数据质量问题产生的原因;数据质量与数据治理的关系;数据质量管理流程(定义→测量→监控→改进)。
数据质量维度:完整性(缺失值检测);准确性(数据内容正确性);一致性(数据逻辑一致性);及时性(数据时效性);唯一性(重复数据识别);有效性(数据符合业务规则)。
数据质量监控体系:数据质量监控点设计;监控规则配置(空值检查/重复值检查/值域检查/业务逻辑检查);监控频率设置;监控结果可视化;异常告警机制。
数据质量评估:数据质量评分模型;数据质量报告设计;数据质量问题根因分析;数据质量改进计划;数据质量闭环管理。
数据质量工具:数据质量工具对比(Griffin/Databand/Great Expectations);工具部署与配置;质量规则开发;质量监控结果存储。
元数据管理概述:元数据的定义与分类(技术元数据/业务元数据/操作元数据);元数据管理的价值;元数据管理成熟度模型。
元数据采集与存储:技术元数据采集(数据库/ETL/报表);业务元数据采集(指标定义/业务术语);元数据存储架构;元数据API设计。
数据血缘追踪:数据血缘的概念与价值;血缘采集方式(解析/运行时采集);血缘可视化技术;血缘在影响分析中的应用;数据链路追踪。
元数据应用场景:数据地图(数据资产目录);数据血缘分析;影响分析;数据链路追踪;数据合规与审计;数据热度分析。
元数据管理工具:工具对比(Atlas/DataHub/Amundsen);工具部署与配置;元数据导入;血缘解析配置;应用集成。
综合实战:数据质量监控体系搭建;元数据采集与血缘可视化。
课程名称:数据仓库安全与权限控制培训课程
培训对象:
数据仓库管理员
数据安全工程师
系统运维人员
数据架构师
培训目标:
使学员深入理解数据仓库安全体系的核心要素,掌握身份认证、授权、审计等关键技术;熟练运用RBAC/ABAC权限模型进行精细化权限控制;了解数据脱敏、加密等隐私保护技术;具备构建企业级数据仓库安全防护体系的能力。
培训内容介绍:
数据安全概述:数据安全的CIA三元组(机密性/完整性/可用性);数据安全法规(GDPR/个人信息保护法/数据安全法);数据仓库安全威胁分析;数据安全纵深防御体系。
身份认证:认证方式对比(用户名密码/Kerberos/LDAP/SSO);多因素认证;服务账户管理;认证集成实践。
授权与权限模型:权限模型演进(DAC/MAC/RBAC/ABAC);RBAC基于角色的权限控制(角色/权限/用户);ABAC基于属性的权限控制(用户属性/资源属性/环境条件);行级权限与列级权限;数据脱敏权限控制。
主流数仓权限实践:Hive权限控制(Storage Based Authorization/SQL Standards Based Authorization/Ranger/Sentry);Spark权限控制;ClickHouse权限控制;云数仓权限控制(AWS Redshift/Snowflake)。
Apache Ranger实战:Ranger架构与组件;Ranger安装与配置;资源策略配置(Hive/HBase/HDFS);权限策略管理;审计日志查看。
数据脱敏技术:静态脱敏与动态脱敏;脱敏算法(替换/遮蔽/模糊化/泛化);脱敏策略配置;基于角色的脱敏控制;测试数据生成。
数据加密技术:传输层加密(TLS/SSL);存储层加密(TDE/列级加密);密钥管理方案;加密对性能的影响。
审计与合规:审计日志采集与存储;审计日志分析;合规性检查(等保/GDPR);异常行为检测;审计报告生成。
数据安全生命周期:数据分类分级;数据采集安全;数据传输安全;数据存储安全;数据使用安全;数据销毁安全。
综合实战:基于Ranger的权限控制体系搭建;动态数据脱敏配置;安全审计配置。
课程名称:实时数据仓库技术培训课程
培训对象:
实时计算工程师
数据仓库开发人员(向实时转型)
大数据平台开发人员
需要实时数据决策的业务架构师
培训目标:
使学员系统掌握实时数据仓库的核心概念与技术架构,理解实时数仓与离线数仓的区别与联系;熟练运用Flink/Kafka等主流技术构建实时数据处理管道;掌握实时数仓分层设计与建模方法;具备独立设计和开发实时数据仓库的能力。
培训内容介绍:
实时数仓概述:实时数仓的产生背景与发展趋势;实时数仓的应用场景(实时大屏/实时风控/实时营销);实时数仓与离线数仓的对比;实时数仓的挑战(一致性/延迟/容错)。
实时数仓架构演进:Lambda架构(离线+实时两条链路);Kappa架构(统一实时处理);流批一体架构;实时数仓分层设计(ODS实时层/DWD实时层/DWS实时层/ADS实时层)。
数据采集与传输:实时数据源类型(业务数据库/日志/埋点/消息队列);CDC技术(Canal/Debezium/Flink CDC);Kafka核心概念与架构;Kafka数据可靠性配置;Kafka性能优化。
Flink流处理基础:Flink架构与特性;Flink DataStream API;时间语义与Watermark;窗口计算(滚动/滑动/会话);状态管理与容错机制;Exactly-Once语义。
Flink SQL实时计算:Flink SQL架构;动态表与连续查询;实时ETL(过滤/转换/补全);实时聚合计算;窗口聚合实现;维表关联(Async I/O/ Lookup Join)。
实时数仓分层实现:ODS实时层实现(Kafka Topic设计);DWD实时层实现(数据清洗/维度补全/分流);DWS实时层实现(实时聚合/预计算);ADS实时层实现(结果输出)。
实时数据输出:实时数据输出到KV存储(Redis/HBase);实时数据输出到OLAP引擎(ClickHouse/Doris);实时数据输出到消息队列;实时数据服务API封装。
实时数仓建模:实时数仓维度建模特点;实时维度表处理;实时事实表设计;实时维表变更处理;实时拉链表实现。
实时数仓性能优化:反压检测与处理;Checkpoint调优;状态后端选择与优化;数据倾斜处理;SQL优化技巧;资源参数调优。
实时数仓数据质量:实时数据质量挑战;实时数据监控;数据延迟监控;数据准确性校验;实时数据回溯机制;实时数据链路血缘。
综合实战:实时订单统计大屏(Flink+Kafka+Redis);实时用户行为分析(Flink SQL);实时维表关联(CDC+Lookup Join)。
课程名称:数据湖与湖仓一体培训课程
培训对象:
数据架构师
大数据平台开发人员
数据仓库开发人员(向湖仓演进)
技术决策者
培训目标:
使学员深入理解数据湖的核心概念与技术架构,掌握数据湖与数据仓库的区别与联系;熟悉Delta Lake/Hudi/Iceberg等主流湖仓一体技术;理解湖仓一体的架构优势与应用场景;具备在企业中规划和实施湖仓一体架构的能力。
培训内容介绍:
数据湖概述:数据湖的定义与起源;数据湖的核心特征(Schema-on-Read/集中存储/多模态数据);数据湖与数据仓库的对比;数据湖的演进(从数据湖到湖仓一体)。
数据湖架构:数据湖分层设计(原始层/标准层/应用层);数据湖文件格式(Parquet/ORC/Avro);数据湖表格式演进;数据湖计算引擎(Spark/Presto/Flink)。
数据湖表格式:Hudi核心概念与架构;Hudi表类型(Copy on Write/Merge on Read);Hudi查询类型(快照查询/增量查询/时间旅行);Iceberg核心概念与架构;Iceberg表格式特点;Delta Lake核心概念。
数据湖与数据仓库集成:数据湖与数据仓库的两种集成模式(数据入湖+数仓分析/湖上建仓);湖仓一体架构的优势;湖仓一体参考架构。
Delta Lake实战:Delta Lake安装与配置;Delta表操作(读写/更新/删除/合并);时间旅行与版本管理;Schema演进;Delta Lake性能优化。
Hudi实战:Hudi部署与配置;Hudi写入操作(批量/流式);Hudi查询操作;Hudi表管理(Compaction/Clustering);Hudi与Spark/Flink集成。
Iceberg实战:Iceberg核心概念;Iceberg表操作;Iceberg的ACID特性;Iceberg时间旅行;Iceberg与Spark/Flink集成。
湖仓一体查询引擎:Presto/Trino架构与特性;Presto查询数据湖;Presto联邦查询;Presto性能优化;Spark SQL查询数据湖。
湖仓一体数据管理:数据湖元数据管理(HMS/Glue);数据湖数据质量;数据湖数据生命周期管理;数据湖权限控制。
湖仓一体应用场景:数据湖作为企业级数据平台底座;数据湖支持数据科学/机器学习;数据湖支持实时/离线统一存储;数据湖支持跨数据源联邦查询。
湖仓一体迁移路径:从传统数仓迁移到湖仓一体;从数据湖演进到湖仓一体;迁移风险评估;迁移实施步骤;迁移后验证。
综合实战:基于Hudi/Iceberg构建湖仓一体平台;实时数据入湖与查询;离线批处理与实时流处理统一存储。
课程名称:数仓项目实战与行业案例培训课程
培训对象:
即将参与数仓项目的开发人员
数据仓库项目经理/技术负责人
需要了解行业实践的数据架构师
数据仓库初学者(需项目经验)
培训目标:
使学员通过真实行业案例全面了解数据仓库项目的完整生命周期,从需求调研、架构设计、模型设计、ETL开发到测试部署的全流程;掌握数仓项目实施的常见问题与解决方案;具备独立承担或参与企业数据仓库项目的能力。
培训内容介绍:
数仓项目方法论:数仓项目实施路线图;需求调研方法与技巧;技术选型决策框架;项目团队角色与职责;敏捷开发在数仓项目中的应用。
电商数仓项目实战:电商业务分析(用户/商品/订单/营销/物流);电商数仓架构设计;电商数仓分层设计;电商维度建模(商品维度/用户维度/时间维度/店铺维度);电商事实表设计(交易事实/流量事实/营销事实);电商ETL流程设计;电商指标体系构建;电商数仓性能优化;电商数仓应用(BI报表/用户画像/推荐系统)。
金融数仓项目实战:金融业务分析(存贷汇/信用卡/理财/风控);金融数仓架构设计(高安全/高合规要求);金融数仓分层设计;金融维度建模(客户维度/账户维度/产品维度);金融事实表设计(交易事实/授信事实/风险事实);金融数据治理与数据安全;金融监管合规报送(EAST/1104);金融数仓性能优化。
教育数仓项目实战:教育业务分析(招生/教学/教务/财务);教育数仓架构设计;教育数仓维度建模(学生维度/课程维度/教师维度);教育事实表设计(报名事实/学习行为事实/考试事实);教育数仓学生全生命周期分析;教育数仓留存分析/转化分析;教育数仓应用(学情分析/教学改进/招生优化)。
物流数仓项目实战:物流业务分析(订单/仓储/运输/配送);物流数仓架构设计;物流维度建模(货物维度/车辆维度/司机维度);物流事实表设计(订单轨迹/库存快照/运输事件);物流数仓时效与质量监控;物流数仓成本分析;物流数仓应用(路径优化/时效预测/异常预警)。
数仓项目质量管理:数仓项目测试策略(单元测试/集成测试/性能测试);数据质量验收标准;用户验收测试(UAT);上线与切换策略;项目文档规范。
数仓项目运维与迭代:上线后运维流程;监控体系搭建;问题响应机制;版本迭代管理;数仓技术债务管理;数仓演进规划。
综合实战:分组完成一个完整行业数仓项目设计(电商/金融/教育任选),输出:业务需求文档→架构设计文档→模型设计文档→ETL设计文档→测试报告→项目总结。
课程体系说明:
本课程体系覆盖从数据仓库基础理论、建模方法、ETL技术、性能优化、数据治理到实时数仓、湖仓一体等前沿技术,以及行业项目实战的完整技术栈。学员可根据自身技术水平、技术栈偏好和职业发展目标灵活选修。