培训对象:大数据开发工程师、数据平台工程师、数据分析师、需要处理海量数据并进行高效计算的IT技术人员。
培训目标:
掌握Spark生态体系与核心架构,理解RDD、DataFrame、DataSet等核心抽象概念。
熟练使用Spark SQL进行结构化数据处理,能够完成复杂的数据查询与分析任务。
掌握Spark Streaming实时流处理技术,构建具备低延迟处理能力的实时计算应用。
培训内容介绍:
Spark生态与架构:了解Spark发展历程、生态系统组件(Core、SQL、Streaming、MLlib)及集群运行架构。
开发环境搭建:安装配置Spark开发环境,熟悉spark-shell与提交任务的多种方式。
RDD编程模型:理解RDD(弹性分布式数据集)的核心概念,掌握RDD的创建、转换与行动操作。
RDD高级特性:学习宽窄依赖、持久化策略、分区优化与累加器、广播变量的使用。
Spark SQL入门:了解Spark SQL架构,使用DataFrame和DataSet API进行结构化数据处理。
SQL查询与优化:编写SQL语句查询数据,学习执行计划查看与查询优化策略。
外部数据源集成:对接HDFS、Hive、MySQL、JSON等外部数据源,实现数据的读取与写入。
Spark Streaming基础:掌握DStream编程模型,实现基于微批处理的实时数据流处理。
结构化流处理:使用Structured Streaming处理实时数据,支持事件时间与状态管理。
窗口操作与水印:配置滚动窗口、滑动窗口,使用水印处理乱序到达的数据。
性能调优实践:掌握内存调优、并行度设置、数据倾斜处理等性能优化技巧。
综合项目实战:结合离线批处理与实时流处理,完成一个完整的数据分析应用开发。