Agent 在多轮长轨迹任务中面临误差累积、上下文膨胀与奖励稀疏三大核心挑战。业界正通过数据合成与轨迹瘦身、后训练强化学习优化、前瞻性安全审计及细粒度多维评估四大技术路径破局,推动大模型从文本生成器向高阶序列决策系统蜕变。本文聚焦代码智能体等典型长轨迹、多轮交互场景,系统梳理前沿学术进展与工程实践。
Apr 11, 2026