曙海培训-Spark Core/SQL/Streaming实时计算实战培训课程-曙海培训中心,全国连锁

Spark Core/SQL/Streaming实时计算实战培训课程

培训对象： 大数据开发工程师、实时计算工程师、数据平台开发者、Spark技术应用者。
培训目标：
- 掌握Spark Core的RDD编程和算子使用。
- 熟练使用Spark SQL进行结构化数据处理。
- 能够开发Spark Streaming实时处理应用。
- 具备Spark作业性能调优能力。
培训内容介绍：
一、 Spark生态系统与架构： 了解Spark的发展历程，掌握Driver、Executor、Master、Worker的角色和任务提交流程。

二、 RDD基础与创建： 理解RDD的不可变性和容错机制，通过集合和外部文件创建RDD。

三、 RDD算子深度应用： 掌握Transformation算子（map、filter、flatMap、reduceByKey）和Action算子（collect、count、save）。

四、 RDD依赖关系与DAG： 理解窄依赖和宽依赖，查看DAG图分析作业执行阶段。

五、 Spark SQL与DataFrame： 使用DataFrame API进行数据查询，对比RDD与DataFrame的性能差异。

六、 Spark SQL高级查询： 注册临时视图，使用Spark SQL语法进行复杂查询，处理JSON和Parquet格式。

七、 Spark Streaming基础： 理解DStream的离散流模型，创建Socket和Kafka数据源进行流处理。

八、 状态管理与窗口操作： 使用updateStateByKey维护状态，实现滑动窗口和滚动窗口计算。

九、 Structured Streaming： 使用DataFrame API进行流处理，理解输出模式（Append、Update、Complete）。

十、 流式ETL实战： 从Kafka消费数据，进行清洗转换后写入HDFS或数据库，实现实时数据管道。

十一、 Spark性能调优： 调整并行度、序列化方式、内存配置，解决数据倾斜和Shuffle优化。

十二、 实战项目：实时指标计算： 开发实时计算应用，从Kafka消费用户行为数据，实时计算PV、UV等指标。

Spark Core/SQL/Streaming实时计算实战培训课程-曙海培训中心

培训班介绍

Spark Core/SQL/Streaming实时计算实战培训课程