曙海培训-大数据开发工程师培训课程-曙海培训中心,全国连锁

大数据开发工程师培训课程

培训对象：

即将或刚入职大数据岗位的初级开发人员
希望从传统开发（Java/Python）转型大数据开发的工程师
需要系统提升大数据开发技能的 IT 人员

培训目标：
使学员系统掌握大数据开发工程师岗位所需的完整技术栈，包括 Hadoop 生态核心组件、数据采集与传输、离线与实时计算、数据仓库建模、任务调度等；具备独立完成企业级大数据应用模块开发的能力；熟悉企业开发规范与项目交付流程，能够快速胜任大数据开发岗位工作。

培训内容介绍：

大数据开发工程师岗位能力模型
大数据开发岗位职责与能力要求；大数据技术栈全景图；企业级大数据开发流程规范（需求分析-设计-开发-测试-上线）；开发环境搭建（Linux/IDE/版本控制 Git）。
Java/Scala 语言基础与函数式编程
Java 集合框架与并发编程基础；Scala 语言核心特性（伴生对象/模式匹配/隐式转换）；函数式编程思想（高阶函数/不可变性）；Akka 并发模型入门。
Hadoop 核心框架深度实践
HDFS 原理与 Java API 开发：文件读写/目录操作；MapReduce 开发：自定义序列化、分区、分组；YARN 原理与任务提交机制；Hadoop 集群调优与常见问题排查。
数据采集与传输技术
Flume 企业级应用：自定义 Source/Sink/拦截器；Kafka 深度实践：Kafka 原理、分区分配策略、消息丢失与重复消费解决方案；Kafka Streams 入门。
数据仓库开发与 Hive 实战
Hive 表设计：内部表/外部表/分区表/分桶表；HiveQL 高级应用：窗口函数、UDF/UDAF/UDTF 开发；Hive 调优：执行计划分析、数据倾斜处理、小文件合并；Hive 与 HBase 集成。
分布式计算框架 Spark 开发
Spark Core：RDD 算子详解、依赖关系、Spark 任务调度机制；Spark SQL：DataFrame/Dataset API、与 Hive 集成、自定义 UDF；Spark Streaming 架构与 DStream 编程。
实时计算框架 Flink 开发
Flink DataStream API：基础算子与窗口计算；Flink 状态编程与 Checkpoint 机制；Flink SQL 在实时 ETL 中的应用；Flink 与 Kafka 的集成开发。
大数据存储技术选型与应用
HBase：RowKey 设计原则、二级索引方案（Phoenix）、批量导入与读写优化；Redis：数据结构选型、缓存穿透/雪崩解决方案；Elasticsearch：索引设计、搜索与聚合查询、与 Kibana 的数据可视化。
数据仓库建模与 ETL 开发
数据仓库分层架构（ODS-DWD-DWS-ADS）；维度建模方法论（星型模型/雪花模型）；ETL 流程设计：数据清洗、转换、拉链表的实现；调度平台 DolphinScheduler 应用：任务依赖、定时调度、补数机制。
数据服务接口开发
使用 Spring Boot 开发数据服务接口；数据查询 API 设计与性能优化；对接 BI 工具（Tableau/FineBI）的数据接口开发；数据服务鉴权与限流设计。
企业级开发规范与项目实战
Git 分支管理与代码 Review 规范；Maven 多模块项目构建；日志规范与链路追踪；单元测试与集成测试实践；持续集成/持续部署（CI/CD）入门。
综合实战：电商数据平台开发全流程
从零开始，以电商业务为背景，完成数据采集（Flume + Kafka）→ 数据清洗（Spark Streaming）→ 数据仓库分层建设（Hive）→ 离线指标计算（Spark SQL）→ 实时指标计算（Flink）→ 数据服务接口开发（Spring Boot）→ 任务调度（DolphinScheduler）的全流程开发，最终交付完整的大数据平台项目。

大数据开发工程师培训课程-曙海培训中心

培训班介绍

大数据开发工程师培训课程