专题一:R语言基础与编程环境入门
专题二:R语言数据结构与数据操作
专题三:R语言程序控制结构与函数编程
专题四:数据清洗与预处理技术
专题五:数据可视化基础(基础绘图系统)
专题六:高级数据可视化(ggplot2与交互式绘图)
专题七:概率统计基础与假设检验
专题八:线性回归与广义线性模型
专题九:方差分析与实验设计
专题十:机器学习与数据挖掘(分类与聚类)
专题十一:时间序列分析与预测
专题十二:文本挖掘与网络爬虫
专题十三:R语言高级编程与性能优化
专题十四:R包开发与文档编写
专题十五:Shiny交互式Web应用开发
专题十六:RMarkdown/Quarto可重复性研究报告
专题十七:R与数据库/大数据平台集成
专题十八:R语言行业应用实战(金融/生物/电商)
培训对象:零基础入门学员、数据分析初学者、需要从Excel过渡到编程分析的业务人员。
培训目标:
掌握R与RStudio的安装配置,熟悉集成开发环境的基本操作。
理解R语言的基本特性与设计哲学,建立对R生态系统的整体认知。
掌握R的基本语法、运算符、变量赋值与常用函数调用。
培训内容介绍:
R语言概述:了解R语言的历史与发展,认识其作为统计计算和数据可视化语言的核心优势(开源、跨平台、丰富的扩展包)。
R与RStudio安装:学习R语言环境的下载与安装,掌握RStudio IDE的配置方法,熟悉控制台、编辑器、环境面板、文件面板等核心界面。
第一个R程序:使用R作为计算器,学习基本算术运算,编写第一个脚本文件并运行,体验从代码到结果的过程。
工作目录管理:掌握getwd()、setwd()等函数设置和查询工作目录,学习项目的创建与管理方式。
包的管理与使用:理解R包作为功能扩展模块的概念,掌握install.packages()安装包、library()加载包、update.packages()更新包的方法。
R语言基本语法:学习变量命名规则与赋值操作(<-、=、->),掌握基本数据类型的识别与操作。
运算符体系:掌握算术运算符(+、-、*、/、^、%%)、关系运算符(>、<、==、!=)、逻辑运算符(&、|、!)的使用。
常用内置函数:学习数学函数(sqrt、log、exp、sin)、统计函数(sum、mean、max、min)、字符串函数(nchar、substr、paste)的基本用法。
向量化运算:理解R语言的向量化特性,学习对向量整体进行运算的方法,避免显式循环。
帮助系统使用:掌握?、help()、example()、vignette()等帮助函数的使用,学会查阅文档和示例。
R语言资源:介绍CRAN、R-bloggers、Stack Overflow等学习资源,了解如何获取帮助和扩展知识。
编程规范初步:学习基本的代码注释、命名规范,养成良好的编程习惯。
培训对象:有一定编程基础的分析人员、需要系统掌握R数据结构的开发者。
培训目标:
掌握R语言的核心数据结构(向量、矩阵、数组、列表、数据框、因子)及其操作。
理解不同数据结构的适用场景,能够根据数据特点选择合适的存储方式。
掌握数据的导入导出方法,能够从外部文件读取数据并进行初步探索。
培训内容介绍:
向量(Vector):学习向量的创建(c()、seq()、rep())、向量元素的访问(索引、逻辑索引)、向量运算与向量化函数应用。
矩阵(Matrix):掌握矩阵的创建(matrix())、行列命名、矩阵元素的访问与修改,学习矩阵运算(加减乘除、转置、求逆)。
数组(Array):了解多维数组的创建与操作,掌握数组维度的概念与维度名称的设置。
列表(List):学习列表作为不同数据类型的容器,掌握列表的创建、元素访问([]、[[]]、$)与嵌套操作。
数据框(DataFrame):理解数据框作为表格数据的核心结构,掌握数据框的创建、行列操作、变量访问与子集提取。
因子(Factor):学习因子作为分类变量的表示方式,掌握因子的创建、水平设置与有序因子的应用。
数据类型转换:掌握不同数据结构间的转换方法(as.vector、as.matrix、as.data.frame),理解转换规则与注意事项。
数据导入:学习使用read.table()、read.csv()读取文本文件,掌握参数设置(header、sep、stringsAsFactors)。
数据导出:掌握write.table()、write.csv()将数据写入文件的方法,学习保存R对象(saveRDS、save)与加载。
数据探索函数:学习head()、tail()、str()、summary()、dim()、names()等函数快速了解数据概况。
缺失值处理:理解缺失值(NA)的概念,掌握is.na()、complete.cases()等函数识别和处理缺失值。
tidyverse生态入门:了解tidyverse核心包(dplyr、tidyr、ggplot2、tibble)的设计理念,初步接触管道操作符%>%。
培训对象:需要编写复杂分析脚本、开发可复用代码的分析人员与研究者。
培训目标:
掌握R语言的程序控制结构(条件判断、循环),能够编写结构化程序。
理解函数的概念与作用,能够编写自定义函数实现模块化编程。
掌握向量化编程技巧,避免低效循环,提升代码执行效率。
培训内容介绍:
条件判断语句:学习if-else语句的语法与使用,掌握多条件嵌套判断的实现方法。
向量化条件判断:掌握ifelse()函数的向量化操作,实现对向量的批量条件判断。
switch语句:学习switch()函数在多分支选择中的应用,简化多重if-else结构。
循环结构:掌握for循环的语法与使用,学习循环嵌套与循环控制(next、break)。
while循环:学习while循环的使用场景,理解条件循环的执行机制。
repeat循环:了解repeat循环与break语句的配合使用,处理不确定次数的循环。
apply函数族:掌握apply()、lapply()、sapply()、tapply()、mapply()等函数的使用,实现对数据结构的批量处理。
函数定义:学习函数的定义语法(function()),掌握形式参数、默认参数、返回值的使用。
作用域规则:理解词法作用域的概念,区分全局变量与局部变量,掌握<<-赋值操作符的使用。
匿名函数:学习匿名函数的定义与使用,在apply族函数中快速定义简单功能。
递归函数:了解递归函数的原理与实现,掌握递归解决分治问题的思路。
错误处理:学习tryCatch()等错误处理机制,编写健壮的程序应对异常情况。
培训对象:数据分析师、数据科学家、需要处理脏乱数据的业务人员。
培训目标:
掌握使用dplyr包进行数据筛选、排序、变换、分组汇总等操作。
掌握使用tidyr包进行数据长宽转换、缺失值处理、列拆分与合并。
能够完成从原始数据到分析就绪数据的完整清洗流程。
培训内容介绍:
dplyr包概述:了解dplyr作为数据操作核心包的设计理念,掌握其核心动词(动词函数)的功能。
行操作:学习filter()按条件筛选行,slice()按位置选取行,distinct()去除重复行。
列操作:掌握select()选择列、rename()重命名列、mutate()添加新列、transmute()保留新列。
排序:学习arrange()按指定列排序,掌握多列排序与降序排序的方法。
分组汇总:掌握group_by()分组操作,结合summarise()计算分组统计量(均值、计数、标准差等)。
管道操作:深入理解%>%管道操作符,学习将多个操作串联成流畅的数据处理管道。
tidyr包概述:了解tidyr包在数据整洁化中的作用,理解整洁数据的基本原则。
长宽转换:掌握pivot_longer()将宽表转换为长表,pivot_wider()将长表转换为宽表。
列拆分与合并:学习separate()将一列拆分为多列,unite()将多列合并为一列。
缺失值处理:掌握drop_na()删除缺失行,fill()填充缺失值,replace_na()替换缺失值。
数据合并:学习bind_rows()、bind_cols()进行简单合并,掌握join系列函数(inner_join、left_join、right_join、full_join)进行关联合并。
实战案例:电商订单数据清洗:综合应用dplyr和tidyr完成订单数据的清洗、转换与汇总分析。
培训对象:需要快速生成统计图表进行数据探索的分析人员、科研人员。
培训目标:
理解R基础绘图系统的设计理念与工作方式。
掌握常用统计图表的绘制方法(散点图、折线图、条形图、直方图、箱线图)。
能够对图形进行精细调整(颜色、标签、图例、坐标轴),满足基础出版要求。
培训内容介绍:
基础绘图系统概述:了解R基础绘图系统(graphics包)的特点,理解高级绘图函数与低级绘图函数的分工。
散点图:学习plot()函数的基本用法,绘制散点图展示两个连续变量的关系。
散点图增强:掌握添加趋势线(abline())、添加文本标签(text())、设置点形状与颜色。
折线图:学习plot()和lines()绘制折线图,用于时间序列数据的可视化。
条形图:掌握barplot()绘制条形图,展示分类数据的频数分布。
直方图:学习hist()绘制直方图,展示连续变量的分布形态,掌握组距设置。
箱线图:掌握boxplot()绘制箱线图,展示数据分布特征与异常值检测。
饼图:了解pie()绘制饼图的用法,理解饼图的适用场景与局限性。
多图布局:学习par(mfrow)和layout()函数,实现多幅图形在同一页面的组合显示。
图形参数控制:掌握par()函数设置全局图形参数(颜色、字体、边距、点型、线型)。
颜色设置:学习颜色指定方式(名称、RGB、十六进制),使用调色板函数(rainbow、heat.colors)生成颜色序列。
图例与标题:掌握legend()添加图例,title()添加标题、副标题、坐标轴标签,实现图形完整标注。
培训对象:需要制作出版级统计图表、交互式可视化应用的数据分析师、科研人员。
培训目标:
理解ggplot2的图形语法(Grammar of Graphics)设计理念。
掌握使用ggplot2绘制各类统计图形,并能进行精细化定制。
学习plotly等交互式绘图工具,创建可交互的动态图表。
培训内容介绍:
ggplot2概述:了解ggplot2作为R语言最强大的可视化包的地位,理解其图层语法(数据+映射+几何+统计+坐标+主题)。
散点图与平滑线:学习ggplot()基础语法,使用geom_point()绘制散点图,geom_smooth()添加平滑趋势线。
条形图与柱状图:掌握geom_bar()统计频数,geom_col()绘制数值柱状图,处理分组与堆叠条形图。
直方图与密度图:学习geom_histogram()绘制直方图,geom_density()绘制核密度曲线,比较分布形态。
箱线图与小提琴图:使用geom_boxplot()绘制箱线图,geom_violin()绘制小提琴图,展示分组数据分布。
分面(Facet) 掌握facet_wrap()和facet_grid()的使用,按一个或多个变量拆分多图显示。
颜色与填充映射:学习将变量映射到颜色(color)和填充(fill),使用scale_*_manual()自定义颜色。
坐标轴与图例定制:掌握labs()设置标签,scale_*_continuous()调整坐标轴刻度,theme()定制图例位置。
主题系统:学习使用预定义主题(theme_bw、theme_minimal),通过theme()函数精细调整图形元素。
多图层组合:掌握多个几何对象的叠加,组合不同图形类型在同一坐标系中。
plotly交互式绘图:学习使用plotly::ggplotly()将ggplot图形转换为交互式图表,实现悬停提示、缩放、平移。
综合实战:销售数据可视化仪表板:综合应用ggplot2绘制多维度销售分析图表,并转换为交互式图形。
培训对象:需要进行统计分析的研究人员、市场分析师、质量管理人员。
培训目标:
掌握R中概率分布函数的使用(密度函数、分布函数、分位数函数、随机数生成)。
理解参数估计与假设检验的基本原理,能够用R实现常见假设检验。
能够正确解读检验结果,并撰写规范的统计分析报告。
培训内容介绍:
概率分布概述:了解R中处理概率分布的四大类函数(d密度函数、p分布函数、q分位数函数、r随机数生成)。
正态分布:学习dnorm、pnorm、qnorm、rnorm的使用,绘制正态分布曲线,生成正态随机数。
二项分布:掌握dbinom、pbinom、qbinom、rbinom的使用,模拟二项试验。
泊松分布:学习dpois、ppois、qpois、rpois的应用,模拟稀有事件发生次数。
描述性统计:计算数据的集中趋势(均值、中位数)和离散程度(方差、标准差、四分位距)。
抽样分布:理解中心极限定理,通过模拟展示样本均值的抽样分布。
区间估计:学习t.test()进行总体均值的区间估计,理解置信区间的含义。
单样本t检验:掌握t.test()进行单样本均值检验,判断样本均值是否等于给定值。
独立样本t检验:学习两独立样本的均值比较,理解方差齐性检验与Welch修正。
配对样本t检验:掌握配对数据的均值比较,适用于前后测量或匹配样本设计。
卡方检验:学习chisq.test()进行拟合优度检验和独立性检验,分析分类变量间的关系。
非参数检验:了解wilcox.test()(Mann-Whitney U检验)、kruskal.test()(Kruskal-Wallis检验)等非参数方法。
培训对象:预测建模人员、社会科学研究者、金融分析师、需要建立预测模型的数据分析师。
培训目标:
掌握一元及多元线性回归模型的建立与解释方法。
理解模型诊断技术(残差分析、多重共线性、异常值检测)。
掌握Logistic回归等广义线性模型,处理二分类问题。
培训内容介绍:
线性回归概述:理解回归分析的基本思想,掌握因变量与自变量的概念。
一元线性回归:学习lm()函数建立简单线性回归模型,理解回归系数的含义。
回归模型输出解读:掌握summary()查看模型结果,解读系数估计、p值、R-squared、F统计量。
模型诊断(残差分析):绘制残差图、Q-Q图,检查线性性、正态性、方差齐性假设。
多元线性回归:学习多个自变量的回归建模,理解偏回归系数的解释。
变量选择:了解逐步回归(step())、全子集回归(regsubsets())等变量选择方法。
多重共线性:学习vif()计算方差膨胀因子,诊断多重共线性问题及处理方法。
异常值与强影响点:使用cooks.distance()、dffits()等识别强影响点,评估对模型的影响。
预测与置信区间:学习predict()对新数据进行预测,获取预测值与置信区间。
Logistic回归概述:理解Logistic回归处理二分类因变量的原理,了解logit变换。
Logistic回归建模:使用glm()函数设置family=binomial建立Logistic回归模型。
模型评估:学习混淆矩阵、ROC曲线、AUC值等分类模型评估指标。
培训对象:农业、生物、医药、工程等领域需要进行多组比较的研究人员。
培训目标:
理解方差分析的基本原理与适用场景。
掌握单因素、双因素方差分析的R实现与结果解读。
能够进行事后多重比较,识别组间具体差异。
培训内容介绍:
方差分析概述:理解方差分析的基本思想(将总变异分解为组间变异和组内变异),了解适用场景。
单因素方差分析:学习aov()函数进行单因素方差分析,掌握公式语法(y ~ group)。
方差分析表解读:阅读summary()输出的方差分析表,理解自由度、平方和、均方、F值、p值的含义。
模型诊断:使用plot()绘制残差图,检查方差齐性假设;使用shapiro.test()检验残差正态性。
多重比较:学习TukeyHSD()进行Tukey诚实显著性差异检验,进行所有组间两两比较。
双因素方差分析:学习包含两个分类自变量的方差分析模型,理解主效应与交互效应。
有交互作用的双因素方差分析:掌握y ~ A * B的模型语法,解读交互效应图。
无交互作用的双因素方差分析:学习加性模型(y ~ A + B)的建立与解释。
重复测量方差分析:了解重复测量数据的特点,学习使用aov()或lme()进行分析。
协方差分析:掌握ANCOVA模型(包含连续协变量)的建立与解释。
非参数替代方法:了解kruskal.test()(单因素)和friedman.test()(随机区组)作为非参数替代。
实验设计简介:了解完全随机设计、随机区组设计、因子设计的基本原理与R实现。
培训对象:数据挖掘工程师、机器学习爱好者、需要应用预测模型的企业分析师。
培训目标:
掌握机器学习的基本流程(数据划分、模型训练、评估、调优)。
学习常用分类算法(KNN、决策树、随机森林、SVM、神经网络)的R实现。
学习常用聚类算法(K-means、层次聚类)的原理与应用。
培训内容介绍:
机器学习概述:了解机器学习的基本概念(监督学习、无监督学习),掌握一般建模流程。
数据划分:学习使用caret包或sample()函数将数据划分为训练集和测试集。
KNN算法:理解K近邻算法的原理,使用class::knn()或caret包实现KNN分类。
决策树:学习rpart包建立决策树模型,使用rpart.plot可视化树结构。
随机森林:掌握randomForest包建立随机森林模型,理解特征重要性评估。
支持向量机(SVM):学习e1071包中的svm()函数,理解核函数的选择与参数调优。
神经网络:了解nnet包或neuralnet包实现简单神经网络,应用于分类问题。
模型评估:学习混淆矩阵、准确率、召回率、F1-score的计算,绘制ROC曲线。
交叉验证:掌握caret包的trainControl设置交叉验证,进行更稳健的模型评估。
K-means聚类:理解K-means算法原理,使用kmeans()进行聚类分析,确定最佳K值。
层次聚类:学习hclust()进行层次聚类,绘制树状图,选择合适的聚类高度。
聚类评估:了解轮廓系数等聚类评估指标,评估聚类效果。
培训对象:金融分析师、经济预测人员、销售与运营计划人员、气象与能源领域研究者。
培训目标:
理解时间序列的基本概念(趋势、季节性、周期性、平稳性)。
掌握时间序列的分解方法与指数平滑模型。
学习ARIMA模型的建模流程(识别、估计、诊断、预测)。
培训内容介绍:
时间序列对象:学习ts()函数创建时间序列对象,设置起始时间、频率等参数。
时间序列可视化:绘制时间序列图,观察趋势、季节性、周期性特征。
时间序列分解:使用decompose()或stl()将时间序列分解为趋势、季节、随机成分。
平稳性检验:学习adf.test()(ADF检验)判断序列平稳性,了解差分平稳化方法。
自相关与偏自相关:绘制ACF和PACF图,理解其在模型识别中的作用。
指数平滑模型:学习Holt-Winters指数平滑,适用于有趋势和季节性的序列。
ARIMA模型概述:了解AR、MA、ARIMA模型的基本概念,理解p、d、q参数的含义。
模型识别:根据ACF、PACF图初步判断模型阶数,使用auto.arima()自动选择最优模型。
模型估计:使用arima()函数估计ARIMA模型参数,解读模型输出。
模型诊断:检查残差的独立性、正态性,使用Box.test()进行Ljung-Box检验。
模型预测:学习forecast()进行未来多步预测,绘制预测区间。
预测精度评估:计算预测误差指标(MAE、RMSE、MAPE),比较不同模型效果。
培训对象:舆情分析师、市场研究人员、社媒运营人员、需要从文本数据中提取信息的分析人员。
培训目标:
掌握文本数据的获取方法(网络爬虫基础、文本文件读取)。
学习文本预处理技术(分词、去停用词、词干提取)与文本向量化表示(词袋模型、TF-IDF)。
掌握文本挖掘核心方法(词频分析、情感分析、主题模型)的R实现。
培训内容介绍:
网络爬虫基础:了解爬虫的基本原理与法律边界,学习使用rvest包进行静态网页数据抓取。
HTML解析:掌握CSS选择器和XPath语法,使用html_nodes()和html_text()提取网页内容。
API数据获取:学习使用httr包调用各类API接口,获取JSON格式数据并解析。
文本数据读取:掌握读取txt、csv、pdf等格式文本文件的方法,处理不同编码问题。
中文分词技术:学习使用jiebaR或jieba包进行中文分词,掌握自定义词典的加载方法。
文本预处理:去除标点符号、数字、停用词,进行词干提取或词形还原。
词频分析:构建词频矩阵,使用wordcloud2包绘制词云图,展示高频词汇。
TF-IDF:理解TF-IDF的加权原理,计算文档-词项权重矩阵,提取文档关键词。
情感分析:学习情感词典的构建与使用,对文本进行情感极性(正/负/中性)判断。
主题模型(LDA):了解LDA(隐含狄利克雷分配)的原理,使用topicmodels包进行主题建模。
文本分类:使用朴素贝叶斯、SVM等方法对文本进行分类,应用于垃圾邮件过滤、新闻分类。
实战案例:新闻舆情分析:从新闻网站抓取数据,进行情感分析和主题建模,生成舆情报告。
培训对象:需要处理大规模数据、编写高性能代码的R开发者、数据分析师。
培训目标:
掌握R语言的面向对象编程体系(S3、S4、R6),能够开发复杂程序。
学习代码性能分析与优化方法,掌握并行计算技术。
理解R的内存管理机制,能够处理超出内存限制的大数据。
培训内容介绍:
S3面向对象系统:理解S3的泛型函数与方法分发机制,学习创建S3类和方法。
S4面向对象系统:掌握S4类的正式定义、槽位设置、有效性验证,学习方法重载。
R6引用类:学习R6引用语义的面向对象编程,适用于需要修改原对象的场景。
代码性能分析:使用microbenchmark和profvis包进行基准测试和性能剖析,识别代码瓶颈。
向量化编程进阶:深入理解R的向量化特性,使用vapply、mapply等函数替代循环。
编译代码:学习使用compiler包对函数进行即时编译,提升执行速度。
Rcpp入门:了解Rcpp的基本用法,将C++代码集成到R中,大幅提升计算密集型任务的性能。
并行计算基础:理解并行计算的基本概念,学习使用parallel包的检测核心、创建集群。
多核计算:掌握parLapply、parSapply等并行版本的apply函数应用。
foreach与doParallel:学习使用foreach包进行并行迭代,配合doParallel注册后端。
内存管理:理解R的内存分配机制,学习使用gc()强制垃圾回收,避免内存泄漏。
大数据处理:了解data.table包的高效数据处理,学习使用bigmemory处理超大矩阵。
培训对象:需要开发可复用R包的分析师、研究者、企业内部分享代码的开发者。
培训目标:
理解R包的结构与开发流程,能够创建规范的R包。
掌握R包文档编写方法(Rd格式、roxygen2),生成高质量的帮助文件。
学习R包的测试、检查与发布流程,能够将包提交到CRAN或企业内部仓库。
培训内容介绍:
R包开发概述:了解R包的价值与构成,熟悉包的基本目录结构(R、man、data、tests等)。
开发工具配置:安装devtools、usethis、roxygen2等开发工具包,配置开发环境。
创建包项目:使用create_package()创建新包,学习包的命名规范与版本管理。
编写函数:在R目录下组织函数代码,遵循函数编写规范,添加注释。
文档生成:使用roxygen2语法在函数前添加文档注释,生成Rd格式帮助文件。
数据打包:学习将数据集打包到包中,使用LazyData机制优化加载。
命名空间管理:理解NAMESPACE文件的作用,使用export、importFrom控制函数可见性。
依赖管理:在DESCRIPTION文件中声明包的依赖关系,确保包的正确安装。
单元测试:学习使用testthat包编写单元测试,确保函数功能的正确性。
代码检查:使用devtools::check()进行包的全面检查,修复错误、警告和注意事项。
Vignette编写:创建包的Vignette文档,展示包的主要用法和应用场景。
包发布:学习将包提交到CRAN的流程,或在企业内部GitLab建立私有仓库。
培训对象:需要将数据分析结果转化为交互式Web应用的分析师、数据科学家。
培训目标:
理解Shiny应用的响应式编程模型与基本架构(UI与Server分离)。
掌握Shiny常用输入输出控件,能够构建基础交互式应用。
学习Shiny应用的布局设计、主题定制与部署发布。
培训内容介绍:
Shiny概述:了解Shiny作为R的Web应用框架的特点,认识响应式编程的基本概念。
第一个Shiny应用:创建最简单的Shiny应用(UI+Server),理解输入与输出的绑定。
UI布局设计:学习fluidPage、navbarPage、sidebarLayout等布局函数的使用。
输入控件:掌握sliderInput、selectInput、textInput、dateInput、fileInput等常用输入控件。
输出控件:学习plotOutput、tableOutput、textOutput、verbatimTextOutput等输出控件。
响应式表达式:理解reactive()的使用,缓存计算结果,避免重复计算。
响应式事件:学习eventReactive、observeEvent处理事件驱动的更新。
数据共享:掌握reactiveValues用于在多个响应式表达式中共享数据状态。
动态UI:学习使用renderUI和uiOutput动态生成UI元素,实现灵活交互。
主题与样式:使用shinythemes包应用预定义主题,自定义CSS美化界面。
模块化开发:学习Shiny模块的概念,将复杂应用拆分为可复用模块。
应用部署:掌握shinyapps.io云部署、自建Shiny Server部署和R连接Connect部署。
培训对象:需要生成动态报告、学术论文、技术文档的研究人员、数据分析师。
培训目标:
理解文学化编程的理念,掌握RMarkdown/Quarto的基本语法。
能够创建包含代码、结果、图表的动态文档,输出HTML、PDF、Word等多种格式。
学习文档参数化、引用管理、自定义主题等高级功能。
培训内容介绍:
RMarkdown概述:了解文学化编程的概念,认识RMarkdown在可重复性研究中的作用。
RMarkdown基础语法:掌握YAML元数据、Markdown文本格式、R代码块的基本语法。
代码块选项:学习echo、eval、include、fig.width等代码块选项的设置。
内联代码:使用r 语法在文本中嵌入计算结果,实现动态报告。
表格输出:学习kable、kableExtra、DT包生成美观的表格。
图表输出:控制图表尺寸、分辨率、格式,使用fig.cap添加标题。
文档输出格式:学习输出HTML、PDF、Word文档的方法,解决中文PDF输出问题。
参考文献管理:使用BibTeX管理参考文献,在文档中引用文献。
文档参数化:定义文档参数,实现同一份报告生成不同条件下的输出。
Quarto新特性:了解Quarto作为RMarkdown的下一代工具的优势(多语言支持、更丰富的输出格式)。
网站与书籍:学习使用RMarkdown/Quarto创建个人网站、技术博客、电子书籍。
实战案例:数据分析报告:从数据导入、清洗、分析到报告生成的完整流程。
培训对象:需要处理大规模数据的企业数据分析师、数据工程师、商业智能开发者。
培训目标:
掌握R连接各类数据库的方法(MySQL、PostgreSQL、SQL Server、SQLite)。
学习使用dbplyr实现数据库内的惰性操作,避免数据导出内存溢出。
了解R与Spark、Hadoop等大数据平台的集成方法。
培训内容介绍:
数据库连接基础:学习使用DBI包建立数据库连接,理解连接对象的概念。
SQL查询执行:使用dbGetQuery()执行SQL语句,获取查询结果。
数据写入:掌握dbWriteTable()将R数据框写入数据库表。
odbc连接:学习使用odbc包通过ODBC驱动连接各种数据库。
RMySQL/RPostgreSQL:学习专用数据库连接包的使用方法。
dbplyr概述:理解dbplyr如何将dplyr操作翻译为SQL查询,实现数据库内计算。
惰性操作:创建tbl()惰性数据帧,使用dplyr动词操作,最后通过collect()获取结果。
SQL翻译规则:了解常用dplyr函数到SQL的翻译规则,避免不支持的函数。
性能优化:学习使用explain()查看查询计划,优化数据库操作。
Sparklyr:学习连接Spark集群,使用sparklyr进行分布式数据处理。
Spark机器学习:使用sparklyr调用Spark MLlib,进行大规模机器学习建模。
实战案例:企业销售数据分析:从企业数据库提取百万级销售数据,进行分析并生成报告。
培训对象:各行业领域的数据分析师、业务专家、需要将R技能应用于具体行业的专业人员。
培训目标:
掌握金融领域R应用(量化投资、风险管理、金融时间序列)。
学习生物信息学领域R应用(基因组数据分析、生物统计)。
掌握电商领域R应用(用户行为分析、商品推荐、营销效果评估)。
培训内容介绍:
金融数据分析概述:了解R在金融领域的应用场景,熟悉quantmod等金融分析包。
股票数据获取:使用quantmod从Yahoo Finance、Google Finance获取股票数据。
金融指标计算:计算移动平均线、RSI、MACD等技术指标,绘制金融图表。
量化策略回测:使用PerformanceAnalytics包进行策略绩效评估,计算夏普比率、最大回撤。
投资组合优化:学习使用fPortfolio包进行均值-方差投资组合优化。
风险管理:使用风险价值(VaR)和条件风险价值(CVaR)度量投资风险。
生物信息学概述:了解Bioconductor项目,熟悉常用的生物信息学包。
基因表达数据分析:学习处理微阵列或RNA-seq数据,进行差异表达分析。
生存分析:使用survival包进行生存数据建模,绘制Kaplan-Meier曲线。
电商用户行为分析:使用RFM模型进行用户分群,识别高价值客户。
购物篮分析:学习arules包进行关联规则挖掘,发现商品组合购买规律。
营销效果评估:使用A/B测试分析方法评估营销活动效果,进行 uplift建模。