培训对象: 面向AI算法工程师、机器人控制开发人员、自动驾驶工程师及对决策智能感兴趣的技术人员。也适合需要构建智能决策系统(机器人控制、游戏AI、资源调度)的研发团队。
培训目标: 深入理解强化学习的基本理论与核心算法,掌握从MDP建模到深度强化学习的完整知识体系。具备设计、实现和优化强化学习模型的能力,能够将强化学习应用于机器人控制、游戏博弈、智能调度等复杂决策场景。
培训内容介绍:
强化学习基本概念:学习强化学习的基本框架(环境、智能体、状态、动作、奖励),理解探索与利用的权衡,掌握强化学习与监督学习、无监督学习的本质差异。
马尔可夫决策过程(MDP):深入理解马尔可夫决策过程的数学形式化,学习状态转移概率、奖励函数、折扣因子的定义,掌握从MDP中计算最优策略的基本方法。
值函数与贝尔曼方程:学习状态值函数(V值)与动作值函数(Q值)的定义与关系,深入理解贝尔曼期望方程与贝尔曼最优方程,掌握值函数在策略评估中的核心作用。
动态规划方法:学习策略迭代(Policy Iteration)与值迭代(Value Iteration)两种动态规划方法,理解它们求解MDP的理论基础与收敛性保证。
蒙特卡罗与时差分方法:掌握蒙特卡罗强化学习的采样与评估方法,学习时差分学习(TD)的更新规则,理解TD方法如何结合动态规划与蒙特卡罗的优势。
Q-Learning算法:深入讲解Q-Learning的算法原理与实现细节,学习探索策略(ε-greedy)的设置,掌握Q-Learning在表格型问题中的应用。
深度Q网络(DQN):学习深度神经网络与值函数结合的方法,掌握DQN的两大核心技术(经验回放、目标网络),了解Double DQN、Dueling DQN、Prioritized Replay等经典改进。
策略梯度方法:理解策略梯度方法的基本思想(直接优化策略而非值函数),学习REINFORCE算法的实现,掌握策略梯度相对于值函数方法的优势。
Actor-Critic方法:学习Actor-Critic框架如何融合策略梯度与值函数方法,掌握A2C、A3C算法的实现原理,理解优势函数在降低方差中的作用。
近端策略优化(PPO):深入讲解PPO算法的设计动机与实现细节,学习PPO-Clip与PPO-Penalty两种形式,掌握PPO在连续控制任务中的应用。
多智能体强化学习:了解多智能体强化学习的基本挑战(非平稳性、部分可观测、协作与竞争),学习MADDPG、QMIX等经典算法的设计思想。
强化学习应用实战:通过机器人控制、自动驾驶决策或游戏AI等实际案例,完成从环境搭建、算法实现到效果评估的全流程强化学习项目。