
前文《A few things about Code Agent》针对CodeAgent进行了全貌概述,这篇我们将针对其关键组件「中控大脑」进行展开——它怎么从早年堆 Prompt工程,一路摸到树搜索、PRM、RLVR,再到现在这种有点像 7×24 常驻「个人 AI OS」的玩法。不是教科书式的全景综述,更像我读论文、跟开源项目时随手捋的一条时间线,留给自己也留给同好。
Jan 2, 2026

基于policy gradient的强化学习方法的梳理总结,从经典的策略梯度算法开始,讨论A3C,DDPG,PPO,以及IMPALA等系列算法的基本思想和实现。
Jun 13, 2019

基于dqn 的强化学习方法的梳理总结,从经典的DQN算法开始,总结不同方法的改进策略,到集大成者Rainbow算法。
May 13, 2019

梳理当前经典的强化学习开源库, 以及一些经典的仿真环境。
Apr 23, 2019

强化学习问题的概述,从问题定义,到分类,以及传统强化学习算法(主要覆盖DQN之前的RL经典算法,包括:动态规划、蒙特卡洛、时序差分q-learning和sarsa 等)。
Apr 13, 2019

有关PyBrain 库中NFQ算法的流程图分析,包括数据处理和策略的优化pipeline.
May 27, 2016