培训对象: 数据开发工程师、后端开发工程师(数据方向)、数据平台工程师。
培训目标:
构建全栈视角: 全面了解数据从产生、集成、处理、存储到服务和应用的全链路技术栈。
掌握数据集成技术: 学习使用DataX、Flume、Canal等工具进行离线与实时数据同步。
精通数据处理框架: 熟练使用Spark或Flink进行离线批处理和实时流处理开发。
构建数据服务接口: 学习如何将数据封装成API,高效地支撑业务应用和数据产品的开发。
培训内容介绍:
一、数据开发生态全景图: 介绍现代数据技术栈的各个层次(数据集成、存储、计算、调度、服务、可视化)。
二、离线数据集成实战: 使用DataX/Sqoop实现关系型数据库与Hive/HDFS之间的高效数据同步。
三、实时数据采集实战: 搭建Canal监听MySQL binlog,使用Flume/Kafka进行日志采集,构建实时数据通道。
四、消息队列Kafka深度实践: Kafka核心概念、生产者和消费者API、主题分区、消息可靠性与 Exactly-Once 语义。
五、大数据计算框架(一)- Spark基础: Spark Core、Spark SQL架构与编程模型,RDD/DataFrame/Dataset API使用。
六、大数据计算框架(二)- Spark实战: 开发Spark离线ETL任务,处理复杂业务逻辑,进行性能调优。
七、实时流处理(一)- Flink基础: Flink架构、事件时间处理、状态管理与容错机制。
八、实时流处理(二)- Flink实战: 开发Flink实时统计应用(如PV/UV、订单统计),实现实时大屏。
九、任务调度系统: 使用Azkaban/Airflow/DolphinScheduler编排和管理复杂的数据任务工作流。
十、数据服务平台建设: 学习如何将计算好的数据结果集存储到高性能数据库(如ClickHouse、Doris),并对外提供API服务。
十一、数据服务API开发实战: 使用Java/Go语言开发RESTful API,封装数据查询逻辑,供前端或业务系统调用。
十二、数据应用开发实战: 整合数据平台能力,开发一个端到端的数据应用,如“用户行为分析平台”或“实时风控仪表盘”。