培训对象: 大数据平台工程师、数据仓库工程师、运维工程师、大数据初学者。
培训目标:
理解Hadoop生态圈的架构和组件关系。
掌握HDFS的存储原理和文件操作。
熟悉YARN的资源调度机制和任务提交。
能够编写和运行MapReduce程序进行分布式计算。
培训内容介绍:
二、 HDFS架构深入: 理解NameNode、DataNode、Secondary NameNode的角色,掌握块存储和副本机制。
三、 HDFS命令行操作: 使用hdfs dfs命令进行文件上传、下载、移动、删除等日常操作。
四、 HDFS Java API编程: 编写Java程序读写HDFS文件,实现自定义文件操作和处理。
五、 YARN资源调度架构: 理解ResourceManager、NodeManager、ApplicationMaster的角色,了解容器(Container)概念。
六、 YARN调度策略: 对比FIFO、容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)的适用场景。
七、 MapReduce编程模型: 理解MapReduce的分而治之思想,掌握Map阶段和Reduce阶段的数据处理流程。
八、 MapReduce基础实现: 编写WordCount程序,理解InputFormat、Mapper、Reducer、OutputFormat的作用。
九、 MapReduce高级特性: 实现自定义分区、组合器(Combiner)、排序和分组,优化Shuffle阶段。
十、 MapReduce性能调优: 调整Map和Reduce任务数量,配置压缩和内存参数,减少数据倾斜。
十一、 Hadoop集群部署: 规划集群规模,配置Hadoop配置文件,启动和测试集群功能。
十二、 实战项目:离线数据处理: 编写MapReduce程序处理大规模日志数据,完成ETL转换和指标计算。