大数据开发工程师培训大纲
培训对象
培训目标
通过本课程的系统学习,使学员全面掌握Hadoop/Spark生态体系的核心技术,具备大数据平台搭建、数据采集、离线/实时计算、数据仓库建模等能力,能够独立完成大数据应用开发。
培训内容
-
大数据技术生态概述:介绍Hadoop生态系统组件、Lambda架构与Kappa架构-4。
-
-
Hadoop HDFS分布式文件系统:学习HDFS架构、读写原理与高可用配置。
-
-
MapReduce分布式计算框架:掌握MapReduce编程模型、Shuffle过程优化。
-
-
Hive数据仓库:学习Hive表操作、分区与分桶、HQL优化技巧。
-
-
Flume数据采集:掌握Flume架构、Source/Channel/Sink配置、自定义拦截器。
-
-
Kafka分布式消息队列:学习Kafka架构、生产者/消费者API、Exactly-Once语义保证。
-
-
ZooKeeper分布式协调:理解Paxos/Zab协议,掌握分布式锁实现方法-4。
-
-
Spark Core核心编程:系统学习RDD算子、宽窄依赖、任务调度机制。
-
-
Spark SQL结构化数据处理:掌握DataFrame/Dataset API、Spark与Hive集成。
-
-
Spark Streaming实时计算:学习微批处理原理、有状态计算、窗口操作。
-
-
数据湖技术:介绍Delta Lake、Hudi、Iceberg等技术原理与应用场景。
-
-
综合项目实战:电商用户行为分析平台:完成从数据采集、实时计算到报表展示的完整大数据项目开发-6。