培训对象: 面向数据仓库工程师、大数据平台架构师、数据平台开发人员及数据基础架构负责人。也适合需要构建企业级数据存储与分析平台的技术团队。
培训目标: 系统掌握数据仓库与数据湖的核心概念、架构设计与建设方法,理解数据仓库与数据湖的差异与融合趋势(湖仓一体)。具备独立进行数据建模、ETL开发、数据湖建设及数据平台优化的能力,为企业构建坚实的数据基础设施。
培训内容介绍:
数据仓库概述与架构演进:学习数据仓库的定义与发展历程,了解数据仓库从Inmon范式到Kimball维度建模的演进,掌握数据仓库在企业数据架构中的核心地位。
数据仓库建模方法:掌握数据仓库建模的核心方法(星型模型、雪花模型、事实表、维度表),学习维度建模的设计原则与实践技巧。
ETL与数据集成:学习数据抽取、转换、加载(ETL)的完整流程,掌握数据集成模式与方法,了解ETL工具的使用与调度策略。
数据仓库规范设计:掌握数据仓库规范概述,学习数据仓库设计规范(命名规范、开发规范、模型规范),确保数据仓库建设的标准化。
数据湖概念与架构:学习数据湖的核心概念与主要架构理念,理解数据湖作为原始数据存储区的定位,对比数据仓库与数据湖的优缺点。
数据湖存储技术:掌握对象存储、块存储、文件存储等不同存储系统的特点,学习数据湖底层存储组件的选型与配置。
Hive数据仓库实战:学习Hive的安装与配置,掌握Hive支持的数据类型,熟练进行Hive中的数据库操作与数据操作,构建基于Hadoop的数据仓库。
数据湖建设实践:学习使用AWS Glue等工具设计简单的数据湖,掌握数据湖的构建流程与关键步骤,实现数据的高效存储与管理。
湖仓一体架构:了解数据湖与数据仓库的融合趋势(湖仓一体),学习使用AWS LakeFormation和Apache Iceberg构建数据湖屋,实现数据湖的数据仓库化。
多维数据分析(OLAP):学习多维数据分析简介,掌握数据源视图和多维数据集的创建,实现多维数据集的部署、浏览和高级属性定义。
数据中台与数据平台:了解数据中台的概念与架构,学习数据中台如何整合数据仓库与数据湖,构建企业级数据服务平台。
综合实战与性能优化:通过完整的数据仓库或数据湖建设项目,演练从需求分析、模型设计到平台搭建、数据应用的全流程,掌握查询性能优化技巧