曙海教学优势
本课程面向企事业项目实际需要,秉承二十一年积累的教学品质,中国海关大数据培训,hadoop培训,spark培训-以项目实现为导向,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。线上/线下/上门皆可,中国海关大数据培训,hadoop培训,spark培训-专家,课程可定制,热线:4008699035。
曙海的课程培养了大批受企业欢迎的工程师。曙海的课程在业内有着响亮的知名度。大批企业和曙海
建立了良好的合作关系,合作企业30万+。
大数据培训日程
课程目标:
通过该课程的学习,会对大数据离线计算、实时计算的企业级构架有清晰的理解以及对常用的成熟的大数据开源项目从原理到使用有深入的理解。
实时计算的项目常用组合为Flume(数据采集) + Kafka(高可用高并发分布式消息队列) + spark streaming(流式计算) + hbase(分布式列式存储数据库,亿级行百万列毫秒级查询)
离线计算项目常用组合为分布式文件存储HDFS,资源调度器、分布式计算框架MapReduce、数据仓库Hive。
课程大纲:
时间 |
主题 |
内容 |
|
第一天 |
上午 |
离线计算: Hadoop大数据生态圈、分布式存储HDFS、资源管理 |
大数据生态圈介绍 开源相关项目说明以及每个项目的用途 实时计算整体构架详解 离线计算整体构架详解 分布式文件系统HDFS是什么 HDFS的体系结构 HDFS高可用集群原理详解 HDFS如何使用 资源管理器介绍以及构架 资源管理器核心组件详解 资源调度器详解 |
下午 |
离线计算: Hadoop MapReduce&Hive
|
分布式计算MapReduce介绍 MapReduce整体流程 MapReduce实例 数据仓库工具Hive介绍 Hive模型介绍:数据库、表、分区、高级函数 Hive元数据介绍 |
|
第二天 |
上午 |
实时计算: 数据采集Flume、分布式消息队列Kafka |
实时计算整体构架设计 Flume是什么以及体系结构介绍 Flume组件介绍:agent、source、channel、sink Flume高可用拓扑介绍 Kafka体系结构详解 Kafka核心概念 Kafka高可用高并发原理 Kafka生产者消费者 Flume写入kafka |
下午 |
实时计算: spark streaming流式计算、HBase分布式列存储 |
spark是什么以及体系结构 弹性分布式数据集RDD spark streaming流式计算体系结构 spark steaming读取kafka spark算子详解 HBase存储数据库体系结构 Hbase的高可用 HBase数据模型详解 HBase毫秒级查询 |
以上课程可以根据客户实际情况进行灵活调整。
高级技术培训中心
电话:010-