培训对象: 大数据开发工程师、实时计算工程师、数据平台开发者、Spark技术应用者。
培训目标:
掌握Spark Core的RDD编程和算子使用。
熟练使用Spark SQL进行结构化数据处理。
能够开发Spark Streaming实时处理应用。
具备Spark作业性能调优能力。
培训内容介绍:
二、 RDD基础与创建: 理解RDD的不可变性和容错机制,通过集合和外部文件创建RDD。
三、 RDD算子深度应用: 掌握Transformation算子(map、filter、flatMap、reduceByKey)和Action算子(collect、count、save)。
四、 RDD依赖关系与DAG: 理解窄依赖和宽依赖,查看DAG图分析作业执行阶段。
五、 Spark SQL与DataFrame: 使用DataFrame API进行数据查询,对比RDD与DataFrame的性能差异。
六、 Spark SQL高级查询: 注册临时视图,使用Spark SQL语法进行复杂查询,处理JSON和Parquet格式。
七、 Spark Streaming基础: 理解DStream的离散流模型,创建Socket和Kafka数据源进行流处理。
八、 状态管理与窗口操作: 使用updateStateByKey维护状态,实现滑动窗口和滚动窗口计算。
九、 Structured Streaming: 使用DataFrame API进行流处理,理解输出模式(Append、Update、Complete)。
十、 流式ETL实战: 从Kafka消费数据,进行清洗转换后写入HDFS或数据库,实现实时数据管道。
十一、 Spark性能调优: 调整并行度、序列化方式、内存配置,解决数据倾斜和Shuffle优化。
十二、 实战项目:实时指标计算: 开发实时计算应用,从Kafka消费用户行为数据,实时计算PV、UV等指标。