Spark 基础
【理论部分】Java Lambda语法简介 、Spark基础原理与运行架构、Spark部署方式
【实战部分】Spark开发环境搭建、使用Spark Web UI、如何将Spark程序运行到YARN上
【课程目标】掌握Spark基本原理,能够搭建Spark开发和运行环境。
Spark 程序设计
【理论部分】Spark编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、持久化、checkpoint、容错与性能优化
【实战部分】如何利用intellij idea开发一个spark程序并运行到集群中、如何利用spark设计电影受众分析程序
【课程目标】掌握常见的Spark API,熟练使用Spark开发大数据分析程序。
Spark SQL
【理论部分】流式计算基础、spark streaming基础原理 、基础API介绍(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高级API介绍(window, transform和mapWithState),Redis介绍
【实战部分】利用Spark Streaming读取HDFS中的数据,经统计(按照window统计)后写入HDFS:利用Spark Streaming读取HDFS中的数据,经统计后写入Redis和HBase:利用mapWithState实现wordcount
【课程目标】掌握Spark Streaming工作原理及常见的API,能够使用Spark Streaming编写流式实时计算程序。
Spark Streaming进阶
【理论部分】保存kafka offset并恢复、spark streaming容错机制、spark streaming调优方法、structured streaming原理及关键API
【实战部分】利用Spark Streaming+kafka+redis实现“用户手机app行为分析系统”、实现streuctured streaming版本的wordcount
【课程目标】掌握Spark Streaming调优方法和高级编程技巧,能够使用高级API编写更加鲁棒的分布式流式计算程序。
Spark MLlib数据分析挖掘程序
【理论部分】数据挖掘与机器学习基础知识,以及机器学习案例、Spark MLib分类、聚类、推荐等算法,用户画像系统设计。
【实战部分】回归预测和局部加权线性回归预测算法、近邻KNN预测分析的算法、协同过滤算法的Spark实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法等,互联网用户性别预测。
【课程目标】掌握常见的机器学习算法,能够使用Spark MLLib工具包解决机器学习问题。 |