培训对象: 实时计算工程师、流处理开发者、大数据平台运维人员。
培训目标:
理解Storm的流处理架构和核心组件。
掌握Topology的设计和开发方法。
熟练使用Spout和Bolt处理数据流。
具备Storm集群部署和性能调优能力。
培训内容介绍:
二、 Topology开发基础: 创建Topology,定义Spout数据源和Bolt处理逻辑,配置流分组(Stream Grouping)。
三、 Spout实现: 编写可靠和不可靠的Spout,从Kafka、消息队列等数据源消费数据。
四、 Bolt处理逻辑: 实现过滤、转换、聚合等操作,发送数据到下一个Bolt或存储系统。
五、 流分组策略: 对比Shuffle Grouping、Fields Grouping、All Grouping、Global Grouping的适用场景。
六、 事务Topology: 实现Exactly-Once语义处理,使用Transactional Topology保证数据不重不丢。
七、 Trident高级抽象: 使用Trident API简化开发,实现状态管理和Exactly-Once语义。
八、 Storm与Kafka集成: 使用KafkaSpout消费Kafka数据,配置偏移量管理和重放机制。
九、 DRPC远程调用: 实现Distributed RPC,支持低延迟的在线查询和计算。
十、 集群部署与监控: 部署Storm集群,配置UI界面监控Topology运行状态,查看错误日志。
十一、 性能优化与调优: 调整并行度、缓冲区大小,优化序列化方式,解决处理瓶颈。
十二、 实战项目:实时ETL与告警: 开发Storm Topology处理实时日志流,进行清洗过滤,实时计算规则并触发告警。