培训对象: 数据仓库工程师、实时数仓开发者、大数据平台架构师、数据分析工程师。
培训目标:
理解Doris的MPP架构和核心特性。
掌握Doris的表模型(Unique、Aggregate、Duplicate)选择。
能够进行数据导入和实时更新操作。
具备Doris查询优化和集群运维能力。
培训内容介绍:
二、 Doris安装部署: 单节点快速部署,配置FE和BE节点,了解集群扩缩容操作。
三、 数据模型深入: 对比Duplicate Key、Unique Key、Aggregate Key三种数据模型的适用场景。
四、 表结构设计与分区: 设计分区分桶策略,选择合适的分区字段和分桶字段,优化数据分布。
五、 数据导入方式: 使用Stream Load进行实时导入,Broker Load批量导入HDFS/S3数据,Routine Load消费Kafka。
六、 实时数据更新: 使用Unique模型实现数据更新,了解标记删除和合并策略。
七、 Doris SQL查询: 掌握标准SQL查询语法,使用窗口函数进行复杂分析。
八、 物化视图与预聚合: 创建物化视图自动维护预计算结果,加速常用查询。
九、 Rollup表与查询改写: 创建Rollup调整维度顺序,理解查询自动改写匹配最优Rollup。
十、 Colocation Join优化: 使用Colocation Join避免数据Shuffle,提升多表Join性能。
十一、 查询分析与优化: 分析Profile信息,识别查询瓶颈,调整Join顺序和并行度。
十二、 实战项目:实时数仓构建: 基于Doris构建实时数据仓库,实现从数据接入、模型设计到报表展示的全流程。