强化学习

Agent 在多轮长轨迹任务中面临误差累积、上下文膨胀与奖励稀疏三大核心挑战。业界正通过数据合成与轨迹瘦身、后训练强化学习优化、前瞻性安全审计及细粒度多维评估四大技术路径破局，推动大模型从文本生成器向高阶序列决策系统蜕变。本文聚焦代码智能体等典型长轨迹、多轮交互场景，系统梳理前沿学术进展与工程实践。

Apr 11, 2026

A Few MORE Things About Code Agents: Decoding the Central Brain

前文《A few things about Code Agent》针对CodeAgent进行了全貌概述，这篇我们将针对其关键组件「中控大脑」进行展开——它怎么从早年堆 Prompt工程，一路摸到树搜索、PRM、RLVR，再到现在这种有点像 7×24 常驻「个人 AI OS」的玩法。不是教科书式的全景综述，更像我读论文、跟开源项目时随手捋的一条时间线，留给自己也留给同好。

Jan 2, 2026