培训对象:实时计算开发工程师、大数据架构师、流处理平台工程师、需要构建高吞吐低延迟实时应用的开发人员。
培训目标:
理解Flink的流式计算架构与核心概念,掌握DataStream API的基础编程模型。
熟练运用Flink的时间语义、窗口操作与状态管理,实现复杂的实时计算逻辑。
掌握Flink的容错机制与Checkpoint配置,构建生产级高可用的实时处理应用。
培训内容介绍:
Flink核心架构:了解Flink的流批一体设计理念,掌握JobManager、TaskManager等核心组件角色。
开发环境搭建:安装配置Flink开发环境,熟悉Local模式与Standalone集群运行方式。
DataStream API基础:创建数据源(Source),实现map、filter、flatMap等基础转换操作。
时间语义与Watermark:深入理解事件时间、处理时间、摄入时间,配置Watermark处理乱序数据。
窗口操作实战:学习滚动窗口、滑动窗口、会话窗口的配置与应用场景。
状态管理与容错:使用Keyed State与Operator State,配置Checkpoint实现故障恢复。
ProcessFunction进阶:使用底层ProcessFunction实现精细化的数据处理与定时器服务。
多流操作与Join:实现多流合并、Connect操作以及不同类型的时间窗口Join。
Table API与SQL:使用Table API和Flink SQL简化流处理与批处理的开发。
连接器集成:对接Kafka、ES、HDFS、MySQL等外部系统,实现数据的读写。
部署与监控:将Flink应用部署到YARN或K8s集群,配置监控指标与日志收集。
综合项目实战:以实时数仓或实时风控为场景,完成一个完整的Flink实时计算应用开发。