曙海培训-Hadoop生态圈技术实战培训课程-曙海培训中心,全国连锁

Hadoop生态圈技术实战培训课程

培训对象： 面向大数据开发工程师、数据分析师、Java开发工程师及IT运维人员。也适合需要从零搭建企业级大数据平台、掌握Hadoop生态核心技术的团队技术人员。

培训目标： 系统掌握Hadoop生态圈的核心组件与技术体系，具备Hadoop完全分布式集群搭建、HDFS分布式文件系统操作、MapReduce分布式计算框架开发及YARN资源调度管理的实战能力。能够独立完成从数据采集、存储、计算到分析的全流程大数据项目开发。

培训内容介绍：

大数据技术生态体系概述：学习大数据技术的发展历程与Hadoop生态圈的整体架构，理解HDFS、MapReduce、YARN、Hive、HBase等核心组件的定位与协同关系。
Hadoop完全分布式集群搭建：掌握Hadoop集群的规划与部署方法，学习环境准备、配置文件修改、集群启动与验证的完整流程，实现从单机到完全分布式的跨越。
HDFS分布式文件系统深度解析：深入理解HDFS的架构设计（NameNode、DataNode、SecondaryNameNode），掌握HDFS的Shell操作、API操作及IO流操作技巧。
HDFS读写数据流程：学习HDFS写数据的完整流程（客户端→NameNode→DataNode pipeline）、读数据的流程（客户端→NameNode→DataNode），理解数据副本策略与容错机制。
NameNode与SecondaryNameNode工作机制：深入剖析NameNode元数据管理机制（FsImage、EditLog），掌握SecondaryNameNode的 checkpoint工作原理及集群恢复中的应用。
DataNode工作机制与集群节点管理：学习DataNode的心跳机制、数据块汇报及数据完整性校验，掌握集群节点的动态服役和退役操作方法。
MapReduce编程模型：掌握MapReduce的编程规范与核心组件（Mapper、Reducer、Driver），学习自定义序列化、自定义分区、自定义排序的实现方法。
MapReduce高级应用：学习自定义InputFormat、自定义OutputFormat、分组、合并及数据清洗技巧，掌握ReduceJoin与MapJoin的适用场景与实现。
MapReduce核心机制：深入理解MapTask工作机制、ReduceTask工作机制、Shuffle工作机制及MapReduce工作流程，掌握Job提交流程源码分析。
数据压缩与优化策略：学习MapReduce支持的数据压缩格式（Gzip、Bzip2、Snappy、LZO），掌握MapReduce企业优化、HDFS小文件优化及数据倾斜优化的实战技巧。
YARN资源调度器：深入理解YARN的架构（ResourceManager、NodeManager、ApplicationMaster），掌握YARN的工作机制、作业提交流程及资源调度器配置（FIFO、容量调度器、公平调度器）。
Hadoop源码编译与新特性：学习Hadoop源码编译方法，了解HDFS 2.x/3.x新特性（异构存储、纠删码、Ozone），构建对Hadoop生态的底层认知。

Hadoop生态圈技术实战培训课程-曙海培训中心

培训班介绍

Hadoop生态圈技术实战培训课程