Long Trajectory

Agent 单步很强，任务一长却容易迷路。本文以代码 Agent 为例，分析误差累积、上下文膨胀和奖励稀疏，并梳理轨迹数据、后训练、安全与评估中的关键方法。

Apr 11, 2026