Policy Gradient

深度强化学习方法-PG系列

深度强化学习方法-PG系列

基于policy gradient的强化学习方法的梳理总结，从经典的策略梯度算法开始，讨论A3C，DDPG，PPO，以及IMPALA等系列算法的基本思想和实现。

Jun 13, 2019