培训对象:
即将或刚入职大数据岗位的初级开发人员
希望从传统开发(Java/Python)转型大数据开发的工程师
需要系统提升大数据开发技能的 IT 人员
培训目标:
使学员系统掌握大数据开发工程师岗位所需的完整技术栈,包括 Hadoop 生态核心组件、数据采集与传输、离线与实时计算、数据仓库建模、任务调度等;具备独立完成企业级大数据应用模块开发的能力;熟悉企业开发规范与项目交付流程,能够快速胜任大数据开发岗位工作。
培训内容介绍:
大数据开发工程师岗位能力模型
大数据开发岗位职责与能力要求;大数据技术栈全景图;企业级大数据开发流程规范(需求分析-设计-开发-测试-上线);开发环境搭建(Linux/IDE/版本控制 Git)。
Java/Scala 语言基础与函数式编程
Java 集合框架与并发编程基础;Scala 语言核心特性(伴生对象/模式匹配/隐式转换);函数式编程思想(高阶函数/不可变性);Akka 并发模型入门。
Hadoop 核心框架深度实践
HDFS 原理与 Java API 开发:文件读写/目录操作;MapReduce 开发:自定义序列化、分区、分组;YARN 原理与任务提交机制;Hadoop 集群调优与常见问题排查。
数据采集与传输技术
Flume 企业级应用:自定义 Source/Sink/拦截器;Kafka 深度实践:Kafka 原理、分区分配策略、消息丢失与重复消费解决方案;Kafka Streams 入门。
数据仓库开发与 Hive 实战
Hive 表设计:内部表/外部表/分区表/分桶表;HiveQL 高级应用:窗口函数、UDF/UDAF/UDTF 开发;Hive 调优:执行计划分析、数据倾斜处理、小文件合并;Hive 与 HBase 集成。
分布式计算框架 Spark 开发
Spark Core:RDD 算子详解、依赖关系、Spark 任务调度机制;Spark SQL:DataFrame/Dataset API、与 Hive 集成、自定义 UDF;Spark Streaming 架构与 DStream 编程。
实时计算框架 Flink 开发
Flink DataStream API:基础算子与窗口计算;Flink 状态编程与 Checkpoint 机制;Flink SQL 在实时 ETL 中的应用;Flink 与 Kafka 的集成开发。
大数据存储技术选型与应用
HBase:RowKey 设计原则、二级索引方案(Phoenix)、批量导入与读写优化;Redis:数据结构选型、缓存穿透/雪崩解决方案;Elasticsearch:索引设计、搜索与聚合查询、与 Kibana 的数据可视化。
数据仓库建模与 ETL 开发
数据仓库分层架构(ODS-DWD-DWS-ADS);维度建模方法论(星型模型/雪花模型);ETL 流程设计:数据清洗、转换、拉链表的实现;调度平台 DolphinScheduler 应用:任务依赖、定时调度、补数机制。
数据服务接口开发
使用 Spring Boot 开发数据服务接口;数据查询 API 设计与性能优化;对接 BI 工具(Tableau/FineBI)的数据接口开发;数据服务鉴权与限流设计。
企业级开发规范与项目实战
Git 分支管理与代码 Review 规范;Maven 多模块项目构建;日志规范与链路追踪;单元测试与集成测试实践;持续集成/持续部署(CI/CD)入门。
综合实战:电商数据平台开发全流程
从零开始,以电商业务为背景,完成数据采集(Flume + Kafka)→ 数据清洗(Spark Streaming)→ 数据仓库分层建设(Hive)→ 离线指标计算(Spark SQL)→ 实时指标计算(Flink)→ 数据服务接口开发(Spring Boot)→ 任务调度(DolphinScheduler)的全流程开发,最终交付完整的大数据平台项目。