(1)机器学习概述与数学基础:理解机器学习的定义、分类(监督学习、无监督学习、强化学习)及典型应用场景。回顾机器学习所需的数学基础,包括线性代数(向量、矩阵、特征值)、概率论(条件概率、贝叶斯定理)和最优化方法(梯度下降)的核心概念。配置Anaconda环境,安装NumPy、Pandas、Matplotlib、Scikit-learn等核心库。
(2)数据预处理与特征工程:掌握数据清洗的完整流程,包括缺失值处理(删除、填充)、异常值检测与处理、数据去重。学习特征缩放技术(标准化、归一化、鲁棒缩放),掌握类别特征编码(独热编码、标签编码)和特征离散化方法。理解特征选择(过滤式、包裹式、嵌入式)和特征提取(PCA主成分分析)的原理与实践。
(3)数据可视化与探索性分析:使用Matplotlib和Seaborn绘制各类统计图表,包括直方图、箱线图、散点图、热力图、分布图、回归图。学习通过可视化手段探索数据分布、发现特征间相关性、识别异常点,为模型选择提供依据。
(4)回归算法原理与实践:深入理解线性回归的数学原理(最小二乘法、梯度下降),掌握多元线性回归、多项式回归的实现。学习岭回归、Lasso回归和弹性网络等正则化方法,理解它们处理过拟合和特征选择的机制。使用评估指标(MSE、MAE、R²)评估回归模型性能,完成房价预测等实战案例。
(5)分类算法(一):逻辑回归与KNN:理解逻辑回归的原理(Sigmoid函数、对数损失、决策边界)及其与线性回归的联系与区别。掌握K近邻(KNN)算法的原理(距离度量、K值选择、投票机制)。使用Scikit-learn实现两种算法,通过混淆矩阵、准确率、精确率、召回率、F1分数和ROC-AUC曲线全面评估分类模型。
(6)分类算法(二):决策树与集成学习:深入理解决策树的原理(信息增益、基尼系数、剪枝策略),掌握决策树的构建过程和优缺点。学习集成学习的两大范式:Bagging(随机森林)和Boosting(AdaBoost、梯度提升)。掌握随机森林的特征重要性评估和XGBoost/LightGBM的实战应用。
(7)分类算法(三):支持向量机与朴素贝叶斯:理解支持向量机(SVM)的核心思想(最大间隔、支持向量、核技巧),掌握线性SVM和非线性SVM(多项式核、RBF核)的应用场景。学习朴素贝叶斯的原理(贝叶斯定理、条件独立性假设),掌握高斯朴素贝叶斯、多项式朴素贝叶斯在不同数据类型上的应用。
(8)无监督学习:聚类算法:深入理解K-Means聚类的原理(K值选择、距离计算、收敛条件)和局限性。学习层次聚类(凝聚式、分裂式)和DBSCAN密度聚类的工作原理。掌握轮廓系数、Calinski-Harabasz指数等聚类评估方法,实现客户分群、图像分割等实战应用。
(9)模型评估与选择:系统学习模型评估的各种方法,包括留出法、交叉验证(K折、留一法)和自助法。理解偏差-方差权衡、过拟合与欠拟合的成因及应对策略。掌握学习曲线和验证曲线的绘制与分析方法,实现模型的系统化调优。
(10)模型调参与优化:学习超参数与模型参数的区别,掌握网格搜索(Grid Search)和随机搜索(Random Search)的实现方法。理解贝叶斯优化的基本原理,使用Hyperopt等工具实现更高效的超参数搜索。学习模型集成的进阶技巧(投票、堆叠)。
(11)自然语言处理基础:了解文本数据的特征表示方法,包括词袋模型、TF-IDF、N-gram。掌握文本预处理流程(分词、去停用词、词干提取)。使用机器学习算法实现文本分类(如垃圾邮件识别)和情感分析等自然语言处理任务。
(12)综合项目实战:结合所学知识,完成一个完整的机器学习项目(如信用卡欺诈检测、电商用户流失预测、房价预测挑战赛、新闻文本分类等)。涵盖业务理解、数据探索、特征工程、模型选择、参数调优、结果评估和模型部署的全流程,形成规范的机器学习项目报告。