基于policy gradient的强化学习方法的梳理总结,从经典的策略梯度算法开始,讨论A3C,DDPG,PPO,以及IMPALA等系列算法的基本思想和实现。
Jun 13, 2019
基于dqn 的强化学习方法的梳理总结,从经典的DQN算法开始,总结不同方法的改进策略,到集大成者Rainbow算法。
May 13, 2019
梳理当前经典的强化学习开源库, 以及一些经典的仿真环境。
Apr 23, 2019
强化学习问题的概述,从问题定义,到分类,以及传统强化学习算法(主要覆盖DQN之前的RL经典算法,包括:动态规划、蒙特卡洛、时序差分q-learning和sarsa 等)。
Apr 13, 2019
有关PyBrain 库中NFQ算法的流程图分析,包括数据处理和策略的优化pipeline.
May 27, 2016