培训对象: 机器学习工程师、数据科学家、Kaggle竞赛选手、需要高精度模型的业务分析师。
培训目标:
理解梯度提升树(GBDT)的原理和优势。
掌握XGBoost和LightGBM的核心参数和调优方法。
能够处理缺失值、类别特征和不平衡数据。
具备特征重要度分析和模型解释能力。
培训内容介绍:
二、 XGBoost算法原理与优势: 了解XGBoost的正则化、二阶泰勒展开、缺失值处理等核心特性。
三、 XGBoost基础API使用: 使用XGBoost原生接口和Scikit-learn接口训练模型,处理分类和回归问题。
四、 XGBoost核心参数详解: 掌握eta(学习率)、max_depth、subsample、colsample_bytree等参数的作用和设置。
五、 XGBoost高级特性: 使用回调函数早停,自定义目标函数和评估指标,处理样本不均衡。
六、 LightGBM算法原理与优势: 了解LightGBM的单边梯度采样(GOSS)和互斥特征绑定(EFB)带来的速度提升。
七、 LightGBM基础API使用: 使用LightGBM原生接口训练模型,处理类别特征(categorical_feature)的自动转换。
八、 LightGBM核心参数详解: 掌握num_leaves、min_data_in_leaf、feature_fraction等参数的调优策略。
九、 特征重要度分析与选择: 使用内置的特征重要度(gain、cover、frequency)进行特征筛选。
十、 模型调参与交叉验证: 使用GridSearchCV和RandomizedSearchCV进行参数搜索,使用早停防止过拟合。
十一、 SHAP模型解释: 使用SHAP库解释模型预测结果,分析特征对预测的贡献。
十二、 实战项目:竞赛级模型开发: 使用XGBoost和LightGBM解决实际问题(如销量预测、风险控制),进行模型融合提升精度。