教学优势
曙海教育的课程培养了大批受企业欢迎的工程师。大批企业和曙海
建立了良好的合作关系。曙海教育的课程在业内有着响亮的知名度。
本课程,秉承20年积累的教学品质,以项目实现为导向,老师将会与您分享设计的全流程以及工具的综合使用经验、技巧。
主题1:大数据平台方案与实施 · 大数据基础与发展过程 · 传统大规模数据处理与分析存在的问题 · 大数据计算框架 o 离线计算框架 o 流式计算框架 o 内存计算框架 · 大数据平台方案 o Apache Hadoop方案 § 核心组件 § Hadoop 1.0与2.0版本关联与区别 § Hadoop生态系统 o 国外主流大数据平台方案 § CDH 、Hortonworks、MapR § 传统IT公司方案:Oracle Exadata,SAP HANA o 国内主流大数据平台方案与厂商 o 大数据平台方案比较 · 大数据的行业应用 · 大数据的落地实施挑战
主题2:大数据计算模型(一)–批处理MapReduce · MapReduce编程模型 o Map处理 o Reduce处理 o MapReduce主程序设置 · MapReduce处理流程 o 数据读取collect o 中间数据sort o 中间数据spill o 中间数据shuffle o 聚合分析reduce · MapReduce开发高级应用 o Combiner技术与应用场景 o Partitioner技术与应用场景 o 多Reducers应用 · MapReduce开发与应用实践 o Hadoop平台搭建与运行 o MapReduce安装与部署 o 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行
主题3:大数据存储系统 · HDFS分布式文件系统 o HDFS系统架构与原理 o NameNode功能详解 § fsimage和editslog o DataNode功能详解 § block的备份策略 o HDFS读写机制 o HDFS高可用方案 § NameNode单点故障解决方案 § NFS冷备份
|
|
主题4:Hadoop软件框架与优化 · Hadoop1.0框架 o Hadoop JobTracker o Hadoop TaskTracker · Hadoop 2.0 框架 o ResourceManager组件 o NodeManager组件 o ApplicationMaster组件 o YARN组件 · Hadoop 2.0 资源调度优化 o YARN调度原理 o CapacityScheduler o FairScheduler · Hadoop框架组件调优 o 慢启动优化 o 心跳优化 o 容错优化 o MR计算框架参数调优 · HDFS调优 o RPC线程调优 o 本地文件系统调优 o RAID与卷管理调优 o 小文件优化
主题5:大数据计算模型(二)实时交互计算– Spark · Spark编程模型 o Scala:面向函数的编程 o Scala常见函数与开发 o Scala编译和运行 · Spark RDD开发模型 o Spark RDD运行机制 o Spark RDD主要Transformation § map § flatmap § filter § union § reduceByKey § groupByKey o Spark RDD主要Action § count § collect § saveAsTextFile o Spark RDD依赖关系 § 宽依赖 § 窄依赖 · Spark集群架构与关键组件 · Spark作业运行机制 o 执行DAG图 o 任务集 o executor执行模型 · Spark开发与应用实践 o Spark运行环境搭建与部署 o 应用案例 § 基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行
主题6:SQL on Hadoop大数据查询 · 基于MapReduce的大数据查询Hive o Hive架构与工作原理 o Hive数据加载 o Hive内部表和外部表 o Hive分区表和分通表 o Hive的存储方式 § 列存储和行存储 o Hive SQL基本操作 · 基于Spark的大数据查询SparkSQL o SparkSQL工作原理与执行机制 o SparkSQL数据模型DataFrame o SparkSQL数据读取与结果保存 § json § Hive table § Parquet file § RDD o SparkSQL和Hive的区别与联系 o 实践SparkSQL操作 § 数据表读取、查询与结果保存
|
|
主题7:大数据计算模型(三) 流计算 · 流数据处理应用场景 o 流数据处理特点 o 流计算系统:SparkStreaming,Storm对比 · 流数据计算框架:Spark Streaming o Spark Streaming基本概念 o Spark Streaming数据模型DStream o Spark Streaming架构与工作机制 o Spark Streaming数据源操作 o Spark Streaming开发示例 § 基于文件流的SparkStraeming程序 § 基于socket流的SparkStraeming程序 · 流数据计算框架:Storm o Storm基本概念 o Storm编程模型 § Spout,Bolt, Topology o 数据流分组 o 并发度设置 o 容错机制
主题8:NoSQL数据库 · NoSQL数据库 o 关系型数据库瓶颈 o NoSQL数据库概念,分类与适用场景 § HBase,MongoDB,Redis · 列存储NoSQL数据库HBase o Hbase原理与数据模型 § 行、列簇、时间戳 o HBase系统架构 § Hmaster § RegionServer § Zookeeper o HBase的读写机制 § LSM结构的数据组织与读写 o Hbase表的设计原则 § 高表与宽表 § rowkey设计 o Hbase适用场景
主题9:大数据采集 · RDBMS与Hadoop数据转换工具Sqoop o Sqoop工作原理 · 文件采集工具Flume o Flume组件与运行 o Flume常用配置 · Kafka o Kafka基本概念: producer, broker, consumer o Kafka集群架构 o Kafka运行机制 o Kafka应用场景
|
|