课程目录:用Python进行深度强化学习培训
4401 人关注
(78637/99817)
课程大纲:

    用Python进行深度强化学习培训

 

 

 

介绍

强化学习基础

强化学习基本技术

BURLAP简介

值迭代和策略迭代的收敛

奖赏塑形(Reward Shaping)

探索(Exploration)

泛化(Generalization)

部分可观察的马尔可夫决策过程(POMDP)

选择(Options)

Logistics

TD Lambda

策略梯度(Policy Gradient)

深度Q学习

博弈论(Game Theory)专题