曙海培训-机器学习培训课程体系（选修）-曙海培训中心,全国连锁

机器学习培训课程体系（选修专题目录）

专题一：机器学习基础与数学预备

专题二：Python数据科学与机器学习工具栈

专题三：数据预处理与特征工程

专题四：回归分析与预测建模

专题五：分类算法（上）——逻辑回归、决策树与朴素贝叶斯

专题六：分类算法（下）——支持向量机与集成学习

专题七：无监督学习——聚类与降维

专题八：关联规则与推荐系统

专题九：神经网络与深度学习基础

专题十：卷积神经网络与计算机视觉

专题十一：循环神经网络与序列建模

专题十二：强化学习入门

专题十三：模型评估、选择与优化

专题十四：机器学习模型部署与MLOps

专题十五：行业实战项目——端到端机器学习应用

专题一：机器学习基础与数学预备培训课程

课程名称：机器学习基础与数学预备培训课程

培训对象：

零基础希望进入机器学习领域的初学者
需要系统构建机器学习知识体系的技术人员
数学/统计/计算机相关专业学生
对人工智能感兴趣的跨行业从业者

培训目标：
使学员理解机器学习的基本概念、发展历程与核心任务；掌握机器学习的主要分类（监督学习/无监督学习/强化学习）及其适用场景；熟悉机器学习项目的一般流程；掌握必要的数学基础（线性代数/概率论/微积分/最优化），为后续算法学习打下坚实基础。

培训内容介绍：

1.1 机器学习概述：机器学习定义与发展历程；人工智能、机器学习与深度学习的关系；机器学习的主要应用场景（图像/语音/文本/推荐/风控）。

1.2 机器学习分类：监督学习（分类/回归）；无监督学习（聚类/降维/关联规则）；强化学习（智能决策/博弈）；半监督学习与自监督学习简介。

1.3 机器学习项目流程：从问题定义到模型部署的完整生命周期；数据获取与探索；模型训练与评估；模型优化与迭代。

1.4 线性代数基础：向量与矩阵运算；特征值与特征向量；SVD分解初步。

1.5 概率论基础：随机变量与概率分布；条件概率与贝叶斯定理；最大似然估计。

1.6 微积分与最优化：导数与梯度；梯度下降法原理；损失函数与优化目标。

学习成果：学员能够清晰描述机器学习各类任务的异同，理解机器学习项目全流程，掌握后续学习所需的数学基础。

专题二：Python数据科学与机器学习工具栈培训课程

课程名称：Python数据科学与机器学习工具栈培训课程

培训对象：

具备Python基础但未接触数据科学库的开发者
需要系统学习机器学习工具栈的分析人员
希望提升数据处理效率的机器学习初学者

培训目标：
使学员熟练掌握Python数据科学与机器学习的核心工具栈；熟练运用NumPy进行数值计算与数组操作；精通Pandas进行数据处理与清洗；掌握Matplotlib/Seaborn进行数据可视化；熟练使用Scikit-learn进行机器学习建模；能够独立完成从数据加载到模型训练的全流程实践。

培训内容介绍：

2.1 Python开发环境搭建：Anaconda安装与配置；Jupyter Notebook/Spyder使用；虚拟环境管理。

2.2 NumPy数值计算：ndarray数组创建与操作；数组索引与切片；广播机制与向量化运算；通用函数与聚合计算。

2.3 Pandas数据处理核心：Series与DataFrame数据结构；数据导入导出（CSV/Excel/JSON）；数据清洗（缺失值/重复值/异常值）；数据选择与过滤；分组聚合与数据变换。

2.4 Matplotlib数据可视化：图形构成与基础绘图；折线图/散点图/条形图/直方图/箱线图；图形属性设置与多子图布局。

2.5 Seaborn统计可视化：分布可视化（histplot/kdeplot/boxplot）；关系可视化（scatterplot/lineplot）；分类可视化（barplot/countplot）；热力图与分面网格。

2.6 Scikit-learn建模基础：Scikit-learn架构与设计哲学；统一建模接口（fit/predict/score）；数据集划分（train_test_split）；数据预处理工具（StandardScaler/OneHotEncoder）；Pipeline构建与使用；模型持久化（joblib/pickle）。

2.7 机器学习项目结构：项目目录组织；配置文件管理；日志记录规范；代码版本控制基础。

学习成果：学员能够熟练使用Python数据科学核心库进行数据处理与建模，掌握Scikit-learn标准建模流程。

专题三：数据预处理与特征工程培训课程

课程名称：数据预处理与特征工程培训课程

培训对象：

机器学习工程师/数据分析师
需要处理真实世界脏数据的从业人员
希望提升模型效果的建模人员
数据竞赛参与者

培训目标：
使学员深入理解数据质量对模型效果的关键影响；掌握完整的数据清洗流程与方法；熟练运用特征工程提升模型表现；理解特征选择与降维的核心技术；能够独立完成真实场景下的数据准备工作。

培训内容介绍：

3.1 数据质量维度：数据质量评估框架（完整性/准确性/一致性/唯一性/时效性）。

3.2 数据清洗：缺失值处理（删除/均值/中位数/众数/插值/多重插补）；异常值检测（3σ法则/箱线图/IQR/DBSCAN/孤立森林）；重复值识别与删除；数据格式统一与标准化。

3.3 数据变换：标准化（Z-score/Min-Max/RobustScaler）；归一化（MaxAbs）；离散化（等距分箱/等频分箱/聚类分箱）；函数变换（对数变换/Box-Cox变换）；哑变量处理（One-Hot编码）。

3.4 特征构造：多项式特征构造；交互特征构造；领域特征构造（日期特征/文本特征/聚合特征）；特征组合与分解。

3.5 特征选择：过滤式方法（方差选择/相关系数/卡方检验/互信息）；包裹式方法（递归特征消除/前向选择/后向剔除）；嵌入式方法（LASSO/树模型特征重要性）。

3.6 降维技术：主成分分析（PCA）原理与应用；线性判别分析（LDA）；t-SNE与UMAP可视化降维。

3.7 特征工程自动化：Featuretools简介；自动特征工程工具对比。

学习成果：学员能够独立完成真实数据集的清洗与特征工程工作，显著提升模型输入质量。

专题四：回归分析与预测建模培训课程

课程名称：回归分析与预测建模培训课程

培训对象：

需要预测连续值的数据分析师
金融/销售/供应链等领域的预测人员
机器学习初学者（从回归入门）
希望掌握回归建模技术的从业者

培训目标：
使学员系统掌握回归分析的各类方法与应用场景；理解线性回归、正则化回归的原理与实现；熟练运用回归模型解决实际预测问题；掌握回归模型评估指标与诊断方法；能够独立完成从数据准备到回归建模的全流程。

培训内容介绍：

4.1 回归问题概述：回归与分类的区别；回归问题的应用场景（房价预测/销量预测/风险评估）。

4.2 线性回归：一元线性回归原理（最小二乘法/梯度下降）；多元线性回归；模型显著性检验（F检验/t检验）；拟合优度（R²与调整R²）。

4.3 正则化回归：过拟合问题与正则化思想；岭回归（L2正则化）；Lasso回归（L1正则化）与特征选择；ElasticNet弹性网络。

4.4 回归模型诊断：残差分析（正态性/同方差性/独立性）；共线性诊断（VIF）；异常值与强影响点识别（Cook距离）。

4.5 非线性回归：多项式回归；广义加性模型（GAM）；分段回归与样条回归。

4.6 回归模型评估：评估指标（MSE/RMSE/MAE/MAPE）；交叉验证评估方法。

4.7 综合实战：房价预测/销售预测项目：数据探索与清洗→特征工程→多元线性回归建模→正则化回归对比→模型诊断与优化→预测结果分析。

学习成果：学员能够独立完成回归建模项目，理解模型诊断与优化的核心方法。

专题五：分类算法（上）——逻辑回归、决策树与朴素贝叶斯培训课程

课程名称：分类算法（上）——逻辑回归、决策树与朴素贝叶斯培训课程

培训对象：

需要解决分类问题的机器学习从业者
金融风控/营销响应/客户流失等领域的分析人员
希望深入理解分类算法原理的初学者
数据挖掘工程师

培训目标：
使学员深入理解分类问题的本质与主流分类算法；掌握逻辑回归、决策树、朴素贝叶斯的原理与适用场景；熟练运用Scikit-learn实现分类建模；理解分类模型评估指标与解读方法；能够针对不同业务场景选择合适的分类算法。

培训内容介绍：

5.1 分类问题概述：分类任务定义（二分类/多分类/多标签）；分类问题的应用场景（信用评分/客户流失/欺诈检测）。

5.2 逻辑回归：逻辑回归原理（Sigmoid函数/最大似然估计）；二项与多项逻辑回归；逻辑回归系数解读（优势比）；逻辑回归在信贷审批中的应用。

5.3 决策树：决策树算法原理（信息增益/基尼系数/增益率）；常用决策树算法（ID3/C4.5/CART）；决策树生长与剪枝策略；决策树可视化与规则提取；决策树在客户流失预警中的应用。

5.4 朴素贝叶斯：贝叶斯定理基础；朴素贝叶斯条件独立假设；三种朴素贝叶斯模型（高斯/多项式/伯努利）；朴素贝叶斯在文本分类中的应用。

5.5 分类模型评估：混淆矩阵与代价矩阵；准确率/精确率/召回率/F1-score；ROC曲线与AUC值；PR曲线适用场景（不平衡数据）。

5.6 综合实战：银行客户流失预测：数据探索→特征工程→多模型对比（逻辑回归/决策树/朴素贝叶斯）→模型评估→业务策略制定。

学习成果：学员能够掌握三大分类算法的原理与实现，能够根据业务场景选择合适的分类模型。

专题六：分类算法（下）——支持向量机与集成学习培训课程

课程名称：分类算法（下）——支持向量机与集成学习培训课程

培训对象：

已掌握基础分类算法的机器学习从业者
需要提升模型性能的建模人员
数据竞赛参与者
算法工程师

培训目标：
使学员深入理解支持向量机的数学原理与核函数技巧；掌握集成学习的核心思想与主流方法（Bagging/Boosting/Stacking）；熟练运用随机森林、XGBoost、LightGBM等先进算法；能够通过模型融合显著提升预测性能；具备参与数据挖掘竞赛的基础能力。

培训内容介绍：

6.1 支持向量机基础：SVM基本原理（最大间隔超平面）；线性可分与线性不可分问题；软间隔与惩罚参数C。

6.2 核函数技巧：核函数思想（映射到高维空间）；常用核函数（线性核/多项式核/RBF核）；核函数选择与参数调优。

6.3 SVM多分类扩展：一对其余（OvR）策略；一对一（OvO）策略；SVM在图像识别中的应用。

6.4 集成学习思想：集成学习理论基础（弱学习器组合强学习器）；偏差-方差分解与集成效果。

6.5 Bagging与随机森林：Bagging原理（Bootstrap聚合）；随机森林算法（特征随机采样）；特征重要性分析；随机森林在金融风控中的应用。

6.6 Boosting算法：AdaBoost原理（样本权重调整）；梯度提升树（GBDT）；XGBoost原理与优势；LightGBM与CatBoost简介。

6.7 模型融合策略：投票法（硬投票/软投票）；平均法；堆叠法（Stacking）；混合法（Blending）。

6.8 综合实战：信用卡欺诈检测：不平衡数据处理→多模型对比（SVM/随机森林/XGBoost）→模型融合与优化→模型评估与部署准备。

学习成果：学员能够掌握SVM与集成学习算法的原理与实战，能够通过模型融合提升预测性能。

专题七：无监督学习——聚类与降维培训课程

课程名称：无监督学习——聚类与降维培训课程

培训对象：

需要探索数据内在结构的数据分析师
市场细分/用户分群/异常检测从业者
机器学习初学者（拓展算法视野）
数据挖掘工程师

培训目标：
使学员系统掌握无监督学习的核心思想与主流算法；深入理解K-Means、层次聚类、DBSCAN等聚类算法的原理与适用场景；掌握主成分分析、t-SNE等降维技术；能够独立完成客户分群、异常检测等无监督学习项目。

培训内容介绍：

7.1 无监督学习概述：无监督学习定义与价值；无监督学习与监督学习的区别；无监督学习主要任务（聚类/降维/异常检测/关联规则）。

7.2 聚类分析基础：聚类问题定义；相似度/距离度量（欧氏距离/曼哈顿距离/余弦相似度）；聚类算法分类（划分法/层次法/密度法/网格法）。

7.3 K-Means聚类：K-Means算法原理与步骤；K值选择（肘部法则/轮廓系数/Gap统计量）；K-Means初始化方法（K-Means++）；K-Means优缺点与应用场景。

7.4 层次聚类：层次聚类原理（凝聚式/分裂式）；距离度量方法（单链/全链/平均链/Ward）；树状图（Dendrogram）解读；层次聚类在客户分群中的应用。

7.5 DBSCAN密度聚类：DBSCAN原理（核心点/边界点/噪音点）；参数选择（ε/MinPts）；DBSCAN优缺点（识别任意形状聚类/抗噪）；OPTICS算法简介。

7.6 聚类评估：外部指标（ARI/AMI/NMI）；内部指标（轮廓系数/Calinski-Harabasz指数/Davies-Bouldin指数）。

7.7 降维技术：主成分分析（PCA）原理（方差最大化/特征值分解）；PCA在数据压缩与可视化中的应用；t-SNE与UMAP高维数据可视化。

7.8 异常检测：基于聚类的异常检测；孤立森林算法；单类SVM；异常检测应用场景（欺诈识别/故障检测）。

7.9 综合实战：客户价值分群项目：RFM特征构建→K-Means/层次聚类对比→聚类结果评估→客户画像构建→精准营销策略制定。

学习成果：学员能够独立完成客户分群、异常检测等无监督学习项目，掌握聚类与降维的核心方法。

专题八：关联规则与推荐系统培训课程

课程名称：关联规则与推荐系统培训课程

培训对象：

电商/零售行业数据分析人员
推荐系统开发工程师
营销/运营人员（需理解关联规则）
数据挖掘工程师

培训目标：
使学员深入理解关联规则挖掘的核心概念与算法原理；熟练运用Apriori、FP-Growth进行购物篮分析；掌握协同过滤推荐算法的原理与实现；能够将关联规则与推荐结果转化为业务策略（商品捆绑/交叉销售）。

培训内容介绍：

8.1 关联规则基础：关联规则基本概念（支持度/置信度/提升度/杠杆率）；关联规则的应用场景（购物篮分析/交叉销售/商品陈列优化）。

8.2 Apriori算法：Apriori算法原理（频繁项集生成/规则生成）；算法优缺点与性能瓶颈；参数配置与规则筛选。

8.3 FP-Growth算法：FP-Growth原理（FP树构建/条件模式基/递归挖掘）；FP-Growth与Apriori对比优势；算法实现与应用。

8.4 关联规则评估与应用：规则排序与筛选（提升度优先）；规则可视化（散点图/矩阵图/网络图）；捆绑销售策略设计；案例：银行金融产品关联分析。

8.5 推荐系统概述：推荐系统价值与应用场景；推荐算法分类（协同过滤/基于内容/混合推荐）。

8.6 协同过滤算法：基于用户的协同过滤（UserCF）；基于物品的协同过滤（ItemCF）；相似度计算方法（皮尔逊/余弦/Jaccard）；矩阵分解（SVD）原理。

8.7 推荐系统评估：评估指标（准确率/召回率/覆盖率/新颖度）；离线评估与在线A/B测试。

8.8 综合实战：零售购物篮分析与交叉销售：数据预处理→Apriori/FP-Growth关联挖掘→规则筛选与解读→捆绑促销设计→协同过滤推荐模型构建→推荐效果评估。

学习成果：学员能够独立完成购物篮分析项目，掌握关联规则挖掘与协同过滤推荐的核心方法。

专题九：神经网络与深度学习基础培训课程

课程名称：神经网络与深度学习基础培训课程

培训对象：

已掌握机器学习基础的算法工程师
希望进入深度学习领域的初学者
计算机视觉/NLP领域预备学习者
对神经网络感兴趣的技术人员

培训目标：
使学员理解深度学习的基本概念与神经网络发展历程；掌握感知机、多层感知机（MLP）的结构与原理；深入理解反向传播算法与梯度优化；熟练使用Keras/TensorFlow/PyTorch构建全连接神经网络；能够独立完成基于神经网络的分类与回归任务。

培训内容介绍：

9.1 深度学习概述：深度学习发展历程；机器学习与深度学习的区别；深度学习的应用领域（图像/语音/文本/游戏）。

9.2 神经网络基础：神经元模型与感知机；激活函数详解（Sigmoid/Tanh/ReLU/LeakyReLU）；多层感知机（MLP）结构与表示能力。

9.3 前向传播与反向传播：前向传播过程；损失函数（均方误差/交叉熵）；反向传播算法推导；梯度消失与梯度爆炸问题。

9.4 优化算法：梯度下降变体（SGD/Momentum/Adagrad/RMSprop/Adam）；学习率策略（固定/衰减/预热/循环）。

9.5 正则化技术：L1/L2正则化；Dropout原理与应用；早停法（Early Stopping）；批归一化（Batch Normalization）。

9.6 深度学习框架入门：TensorFlow基础（张量/计算图/Keras高级API）；PyTorch基础（张量/Autograd/nn.Module）；框架选择对比。

9.7 综合实战：手写数字识别（MNIST）：数据加载与预处理→MLP模型构建→模型训练与调优→评估与可视化；Iris数据分类（MLP实现）。

学习成果：学员能够理解神经网络核心原理，熟练使用主流框架构建全连接网络解决实际问题。

专题十：卷积神经网络与计算机视觉培训课程

课程名称：卷积神经网络与计算机视觉培训课程

培训对象：

已完成深度学习基础的算法工程师
计算机视觉领域入门者
需要图像识别/目标检测能力的从业者
安防/医疗/工业质检等领域的AI应用开发者

培训目标：
使学员深入理解卷积神经网络的核心结构与原理；掌握卷积、池化、感受野等关键概念；熟悉经典CNN架构（LeNet/AlexNet/VGG/ResNet）；熟练运用CNN进行图像分类、目标检测等任务；能够独立完成计算机视觉项目的开发。

培训内容介绍：

10.1 计算机视觉概述：计算机视觉应用场景（图像分类/目标检测/图像分割/人脸识别）；传统方法与深度学习方法的对比。

10.2 卷积神经网络基础：卷积操作原理（卷积核/步长/填充）；通道与特征图；池化层（最大池化/平均池化/全局平均池化）；感受野概念。

10.3 CNN经典架构：LeNet-5（手写数字识别）；AlexNet（ReLU/Dropout/数据增强）；VGG（小卷积核堆叠思想）；GoogLeNet/Inception（Inception模块/1x1卷积）；ResNet（残差学习/恒等映射）；DenseNet（密集连接）。

10.4 迁移学习与微调：迁移学习原理；预训练模型（ImageNet预训练）；特征提取模式（冻结权重）；微调（Fine-tuning）策略；模型选择与复用。

10.5 目标检测基础：目标检测任务定义；边界框（Bounding Box）表示；交并比（IoU）；非极大值抑制（NMS）；两阶段检测器（R-CNN/Fast R-CNN/Faster R-CNN）；一阶段检测器（YOLO/SSD）。

10.6 图像分割简介：语义分割（U-Net/FCN）；实例分割（Mask R-CNN）；分割模型评估指标（IoU/mIoU）。

10.7 CNN可视化：特征图可视化；类激活图（CAM/Grad-CAM）；卷积核可视化。

10.8 综合实战：图像分类项目（CIFAR-10）；目标检测项目（YOLO模型训练与部署）；工业质检案例。

学习成果：学员能够掌握CNN核心原理，熟练运用经典架构解决图像分类、目标检测等视觉任务。

专题十一：循环神经网络与序列建模培训课程

课程名称：循环神经网络与序列建模培训课程

培训对象：

已完成深度学习基础的算法工程师
自然语言处理领域入门者
需要处理时间序列数据的分析人员
语音识别/文本生成等领域的从业者

培训目标：
使学员深入理解循环神经网络（RNN）的核心结构与原理；掌握LSTM、GRU等改进模型的原理与优势；熟练运用RNN处理文本分类、时间序列预测等任务；理解序列到序列（Seq2Seq）模型与注意力机制；能够独立完成序列建模项目的开发。

培训内容介绍：

11.1 序列数据处理：序列数据特点与类型（文本/时间序列/语音/视频）；传统方法处理序列的局限性。

11.2 循环神经网络基础：RNN结构（隐藏状态/循环连接）；RNN前向传播与反向传播（BPTT）；RNN的梯度消失与梯度爆炸问题。

11.3 LSTM与GRU：LSTM结构（遗忘门/输入门/输出门/细胞状态）；LSTM如何解决长期依赖问题；GRU结构（更新门/重置门）；LSTM与GRU对比。

11.4 双向RNN与多层RNN：双向RNN原理（捕捉前后文信息）；深层RNN网络结构；堆叠RNN的应用。

11.5 序列建模应用：文本分类（情感分析）；时间序列预测（股票/销量/天气）；语言模型（下一个词预测）。

11.6 序列到序列（Seq2Seq）模型：编码器-解码器架构；机器翻译应用；注意力机制原理；自注意力与Transformer简介。

11.7 综合实战：情感分析项目（IMDB影评分类）；时间序列预测（销售预测/电力负荷预测）。

学习成果：学员能够掌握RNN/LSTM/GRU核心原理，熟练运用序列模型解决文本与时序问题。

专题十二：强化学习入门培训课程

课程名称：强化学习入门培训课程

培训对象：

已完成机器学习基础的算法工程师
对智能决策/游戏AI感兴趣的开发者
机器人/自动驾驶等领域的从业者
希望拓展算法视野的研究人员

培训目标：
使学员理解强化学习的基本概念与核心思想；掌握马尔可夫决策过程（MDP）框架；了解基于价值的强化学习（Q-Learning）与基于策略的强化学习方法；熟悉深度强化学习的典型应用（AlphaGo/游戏AI）；能够完成简单的强化学习实验。

培训内容介绍：

12.1 强化学习概述：强化学习定义与特点；强化学习与其他学习范式的区别；强化学习应用场景（游戏AI/机器人控制/推荐系统/自动驾驶）。

12.2 强化学习核心要素：智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）；策略（Policy）与价值函数（Value Function）；探索与利用（Exploration vs Exploitation）平衡。

12.3 马尔可夫决策过程（MDP）：MDP五元组（S/A/P/R/γ）；状态转移概率；折扣因子；贝尔曼方程。

12.4 免模型强化学习：蒙特卡洛方法（Monte Carlo）；时序差分学习（TD Learning）；Q-Learning算法原理；Sarsa算法。

12.5 深度强化学习：深度Q网络（DQN）原理；经验回放（Experience Replay）；目标网络（Target Network）；Policy Gradient方法简介；Actor-Critic方法。

12.6 强化学习经典应用：AlphaGo/AlphaZero简介；游戏AI（Atari/CartPole）；推荐系统中的强化学习。

12.7 综合实战：使用Q-Learning玩简单游戏（FrozenLake/CartPole）；OpenAI Gym环境使用。

学习成果：学员能够理解强化学习核心概念，掌握Q-Learning等基础算法，了解深度强化学习前沿应用。

专题十三：模型评估、选择与优化培训课程

课程名称：模型评估、选择与优化培训课程

培训对象：

已掌握基础建模技能的机器学习从业者
需要提升模型性能的算法工程师
数据竞赛参与者
希望深入理解模型评估的研究人员

培训目标：
使学员深入理解模型评估的各类指标与选择策略；掌握交叉验证、超参数调优等核心技术；能够诊断过拟合与欠拟合问题；熟练运用网格搜索、随机搜索、贝叶斯优化进行调优；具备独立完成模型优化项目的能力。

培训内容介绍：

13.1 模型评估概述：评估的重要性；评估的层次（算法评估/模型评估/预测评估）；泛化误差与经验误差。

13.2 分类评估指标：混淆矩阵与代价矩阵；准确率/精确率/召回率/F1-score；ROC曲线与AUC值；PR曲线适用场景（不平衡数据）；多分类评估策略（宏平均/微平均）。

13.3 回归评估指标：平均绝对误差（MAE）；均方误差（MSE）与均方根误差（RMSE）；决定系数（R²）与调整R²。

13.4 聚类评估指标：外部指标（ARI/AMI/NMI）；内部指标（轮廓系数/Calinski-Harabasz指数/Davies-Bouldin指数）。

13.5 交叉验证方法：留出法（Hold-out）；K折交叉验证（K-Fold）；分层K折交叉验证（Stratified K-Fold）；留一法（Leave-One-Out）；时间序列交叉验证（Time Series Split）。

13.6 学习曲线与验证曲线：学习曲线（Learning Curve）解读（欠拟合/过拟合诊断）；验证曲线（Validation Curve）参数调优指导。

13.7 超参数调优：手动调优（经验法）；网格搜索（Grid Search）原理与实现；随机搜索（Randomized Search）原理与实现；贝叶斯优化（Bayesian Optimization）原理与工具（Hyperopt/Optuna）。

13.8 模型选择准则：偏差-方差权衡；模型复杂度与泛化能力；AIC/BIC信息准则。

13.9 不平衡数据处理：不平衡数据定义与影响；数据层面方法（过采样SMOTE/ADASYN/欠采样/混合采样）；算法层面方法（代价敏感学习/阈值调整）；集成方法（EasyEnsemble/BalanceCascade）。

13.10 综合实战：XGBoost/LightGBM超参数调优；多模型对比与选择；模型调优报告生成。

学习成果：学员能够掌握完整的模型评估与优化方法论，显著提升模型性能。

专题十四：机器学习模型部署与MLOps培训课程

课程名称：机器学习模型部署与MLOps培训课程

培训对象：

算法工程师（需向工程化转型）
机器学习工程师/MLOps工程师
需要将模型上线应用的开发人员
数据架构师/运维工程师

培训目标：
使学员掌握机器学习模型从训练完成到生产服务的全流程工程化技术；熟悉模型部署的多种方式（在线/批处理/边缘端）；掌握模型推理优化、服务封装、容器化部署、监控运维等核心技能；理解MLOps理念与工具链；具备构建稳定、高效、可扩展的模型服务系统的能力。

培训内容介绍：

14.1 模型部署概述：模型部署的目标与挑战；部署方式对比（在线预测/批处理/边缘端）；模型生命周期管理；MLOps概念与价值。

14.2 模型序列化与格式转换：模型保存与加载（Pickle/Joblib/H5）；跨平台格式标准（ONNX/PMML）；ONNX格式转换（PyTorch/TensorFlow转ONNX）；ONNX Runtime推理引擎。

14.3 模型推理优化：模型量化（动态量化/静态量化/INT8/FP16）；模型剪枝（结构化剪枝/非结构化剪枝）；知识蒸馏原理；推理加速框架（TensorRT/OpenVINO）；批处理推理与动态批处理。

14.4 RESTful API服务封装：Flask/FastAPI框架快速入门；模型加载与生命周期管理；请求数据验证与序列化（Pydantic）；异步处理与并发控制；API文档自动生成（Swagger）；API安全（认证/限流/加密）。

14.5 模型服务框架：TensorFlow Serving架构与部署；TorchServe特性与使用；NVIDIA Triton Inference Server多框架支持；模型服务框架选型对比。

14.6 容器化部署：Docker基础与Dockerfile编写；模型服务的容器化打包；基础镜像选择与优化；Docker Compose多服务编排；Kubernetes基础与模型服务部署（Pod/Service/Ingress）。

14.7 模型监控与可观测性：业务指标监控（QPS/延迟/吞吐量/错误率）；模型质量监控（数据漂移/概念漂移）；日志采集与结构化日志；指标采集（Prometheus）与可视化（Grafana）；告警规则配置。

14.8 批处理与离线推理：Spark分布式推理；Flink流式推理；定时调度与工作流编排（Airflow/DolphinScheduler）。

14.9 MLOps平台实践：MLOps核心组件（实验跟踪/模型注册/模型部署/监控告警）；MLflow（实验跟踪/模型管理）；Kubeflow简介；Seldon Core模型部署；模型版本管理与A/B测试。

14.10 综合实战：将训练好的分类模型封装为RESTful API；ONNX格式转换与优化；Docker容器化部署；Prometheus+Grafana监控配置；完整的模型部署与运维方案。

学习成果：学员能够独立完成模型的工程化部署与运维，掌握MLOps核心实践。

专题十五：行业实战项目——端到端机器学习应用培训课程

课程名称：行业实战项目——端到端机器学习应用培训课程

培训对象：

已完成基础学习的机器学习学员
需要项目经验的求职人员
机器学习团队新成员
希望了解行业实践的从业人员

培训目标：
使学员通过真实行业案例全面了解机器学习项目的完整生命周期；掌握从需求分析、数据探索、建模到部署的全流程；理解不同行业（金融/电商/电信/制造）机器学习典型应用与解决方案；具备独立承担或参与企业机器学习项目的能力。

培训内容介绍：

15.1 机器学习项目方法论：机器学习项目生命周期；需求调研与问题定义技巧；项目团队角色与职责；敏捷开发在机器学习项目中的应用。

15.2 金融行业项目：信用评分卡开发：金融风控业务理解（申请评分卡A卡/行为评分卡B卡）；数据采集与清洗（征信数据/银行流水）；特征工程（WOE编码/IV值计算）；逻辑回归建模；评分卡刻度化；模型验证（KS值/AR值/PSI）；模型部署与监控。

15.3 电商行业项目：用户行为分析与推荐系统：电商业务理解（用户/商品/交易/营销）；用户行为数据采集（埋点日志）；用户画像构建（RFM模型）；商品协同过滤推荐；关联规则购物篮分析；用户流失预警；活动效果评估（A/B测试）。

15.4 电信行业项目：客户流失预测：电信业务理解（用户/套餐/通话/流量）；客户流失定义与标签构造；特征工程（用户基本信息/消费行为/服务体验/投诉记录）；不平衡数据处理（SMOTE过采样）；多模型对比（逻辑回归/随机森林/XGBoost）；挽留策略制定。

15.5 制造行业项目：工业视觉检测：制造业务理解（产线缺陷检测需求）；图像数据采集与标注；卷积神经网络模型构建（YOLO/CNN）；模型训练与优化；模型部署（边缘端/云端）；产线集成与效果评估。

15.6 时间序列项目：销售预测与库存优化：销售历史数据探索（趋势/季节/周期）；时间序列分解；ARIMA/SARIMA模型；Prophet模型；机器学习时序预测（特征构造+XGBoost）；多模型对比；预测结果在库存管理中的应用。

15.7 项目文档与汇报：项目文档结构（需求文档/设计文档/测试报告/总结报告）；技术方案书撰写；PPT汇报技巧；面向非技术人员的成果呈现。

15.8 综合实战（分组项目）：分组完成一个完整行业机器学习项目（金融/电商/电信任选）；产出：需求分析文档→数据探索报告→特征工程文档→模型构建与评估报告→部署方案→项目总结PPT。

机器学习培训课程体系（选修）-曙海培训中心

培训班介绍

机器学习培训课程体系（选修专题目录）

专题一：机器学习基础与数学预备

专题二：Python数据科学与机器学习工具栈

专题三：数据预处理与特征工程

专题四：回归分析与预测建模

专题五：分类算法（上）——逻辑回归、决策树与朴素贝叶斯

专题六：分类算法（下）——支持向量机与集成学习

专题七：无监督学习——聚类与降维

专题八：关联规则与推荐系统

专题九：神经网络与深度学习基础

专题十：卷积神经网络与计算机视觉

专题十一：循环神经网络与序列建模

专题十二：强化学习入门

专题十三：模型评估、选择与优化

专题十四：机器学习模型部署与MLOps

专题十五：行业实战项目——端到端机器学习应用

专题一：机器学习基础与数学预备培训课程

专题二：Python数据科学与机器学习工具栈培训课程

专题三：数据预处理与特征工程培训课程

专题四：回归分析与预测建模培训课程

专题五：分类算法（上）——逻辑回归、决策树与朴素贝叶斯培训课程

专题六：分类算法（下）——支持向量机与集成学习培训课程

专题七：无监督学习——聚类与降维培训课程

专题八：关联规则与推荐系统培训课程

专题九：神经网络与深度学习基础培训课程

专题十：卷积神经网络与计算机视觉培训课程

专题十一：循环神经网络与序列建模培训课程

专题十二：强化学习入门培训课程

专题十三：模型评估、选择与优化培训课程

专题十四：机器学习模型部署与MLOps培训课程

专题十五：行业实战项目——端到端机器学习应用培训课程