实时数据处理(Kafka+Flink)实战培训课程
【培训对象】
大数据开发工程师、数据平台工程师、实时计算开发人员,以及希望构建实时数据处理管道的架构师。
【培训目标】
一、 深入理解Apache Kafka和Apache Flink的核心原理与架构。
二、 熟练搭建和运维Kafka集群,掌握高性能生产者和消费者的开发。
三、 掌握Flink的DataStream API和SQL进行复杂的流式数据处理(如窗口、状态、Join等)。
四、 能够设计并实现完整的实时数据管道,将Kafka和Flink无缝集成,解决实际业务问题(如实时大屏、实时风控)。
【培训内容介绍】
一、 实时数据处理概述:批处理与流处理的对比,Lambda架构与Kappa架构,Kafka+Flink技术栈定位。
二、 Kafka核心原理与架构:Topic与Partition、Producer与Consumer、副本机制与ISR、消息存储与清理。
三、 Kafka集群搭建与配置:ZooKeeper/KRaft模式、关键参数配置、监控与管理工具(Kafka Manager, Burrow)。
四、 Kafka高级特性:消息可靠性保证、幂等性与事务、Exactly-Once语义。
五、 Kafka生产与消费实践:Java API开发高性能生产者与消费者、消息序列化与反序列化。
六、 Flink架构与运行模式:Flink组件栈(JobManager, TaskManager)、任务调度与容错、部署模式(Session, Per-Job, Application)。
七、 Flink DataStream API开发基础:Source、Transformation(map, filter, keyBy, window)、Sink,连接器(Kafka Connector)。
八、 Flink时间语义与窗口:Event Time、Processing Time、Watermark机制、滚动窗口、滑动窗口、会话窗口。
九、 Flink状态管理与容错:Keyed State与Operator State、状态后端、Checkpoint与Savepoint实现容错。
十、 Flink SQL与Table API:使用SQL进行流处理开发,动态表概念,与DataStream API的集成。
十一、 Kafka与Flink集成深度实践:端到端的Exactly-Once保证、动态分区发现、Source与Sink的调优。
十二、 实战演练:构建一个完整的实时用户行为分析系统,从Kafka接入数据,经Flink实时处理,最后将结果输出到数据库/消息队列。