数据湖(Delta Lake/Iceberg)构建与治理培训课程
【培训对象】
数据平台架构师、数据湖工程师、大数据开发人员,希望解决传统数据仓库局限性,构建统一的数据湖平台。
【培训目标】
一、 理解数据湖的核心概念及其与数据仓库的差异,熟悉Delta Lake、Iceberg、Hudi等主流数据湖表格式。
二、 掌握数据湖的ACID事务、Schema演化、Time Travel等核心特性的原理与应用。
三、 能够基于数据湖技术构建支持流批一体、支持多种计算引擎的统一数据存储和管理平台。
四、 学会对数据湖中的数据进行有效治理,包括元数据管理、数据质量、权限控制等。
【培训内容介绍】
一、 数据湖概念与演进:从数据仓库到数据湖再到湖仓一体,数据湖的核心价值(存储多结构数据、支持多种计算引擎、TCO)。
二、 数据湖表格式概述:Delta Lake、Apache Iceberg、Apache Hudi三大主流格式的对比与发展趋势。
三、 Delta Lake深度解析:事务日志、ACID事务、Schema强制与演化、Time Travel、Z-Order优化。
四、 Delta Lake实战:在Spark中集成Delta Lake,进行读写操作,利用其特性解决数据一致性问题。
五、 Apache Iceberg深度解析:Iceberg的表格式规范、隐藏分区、分区演化、快照隔离、乐观并发控制。
六、 Apache Iceberg实战:在Spark/Flink中集成Iceberg,实现高效的流批读写和精确的增量读取。
七、 数据湖计算引擎集成:如何让Spark、Flink、Trino/Presto、Hive无缝读写数据湖表。
八、 流批一体在数据湖上的实践:利用Flink将实时数据流写入Iceberg/Delta表,实现分钟级数据可见性。
九、 数据湖构建实战:在对象存储(如MinIO/S3/HDFS)上搭建数据湖平台,配置元数据服务。
十、 数据湖治理:元数据管理(跟踪表的Schema和历史)、数据质量监控(在写入时检查数据质量)、数据安全与权限控制(对接Ranger)。
十一、 数据湖上的数据科学:如何利用数据湖存储的特征数据和模型,支持机器学习训练。
十二、 实战演练:基于开源组件搭建一个小型数据湖平台,演示从数据摄入、流批处理、到数据查询和治理的全流程。