培训对象: 数据分析师、机器学习初学者、业务分析人员、需要应用机器学习解决业务问题的技术人员。
培训目标:
掌握Scikit-learn的API设计和机器学习流程。
能够应用分类、回归、聚类算法解决实际问题。
理解特征工程、模型选择和评估方法。
具备构建完整机器学习pipeline的能力。
培训内容介绍:
二、 数据预处理与特征工程: 使用StandardScaler、MinMaxScaler进行标准化,处理缺失值和类别编码。
三、 数据集划分与交叉验证: 使用train_test_split划分数据集,使用交叉验证(cross_val_score)评估模型稳定性。
四、 分类算法-逻辑回归与KNN: 实现逻辑回归和K近邻分类,理解混淆矩阵和分类报告。
五、 分类算法-决策树与随机森林: 构建决策树和随机森林模型,分析特征重要性,防止过拟合。
六、 分类算法-SVM与朴素贝叶斯: 使用支持向量机处理线性不可分数据,应用朴素贝叶斯进行文本分类。
七、 回归算法-线性回归与岭回归: 实现线性回归预测连续值,使用岭回归处理多重共线性。
八、 回归算法-决策树回归与集成: 使用决策树回归和梯度提升回归(GBRT)处理非线性回归问题。
九、 聚类算法-K-Means与层次聚类: 使用K-Means进行客户分群,使用轮廓系数评估聚类效果。
十、 降维算法-PCA与t-SNE: 使用主成分分析(PCA)降维可视化高维数据,使用t-SNE进行复杂结构展示。
十一、 模型选择与调参(GridSearchCV): 使用网格搜索和随机搜索寻找最佳超参数,防止过拟合。
十二、 实战项目:端到端机器学习流程: 从业务理解开始,经过数据预处理、模型选择、调优到部署,完成完整项目。