多轮Agent训练遇到级联失效?熵控制强化学习来破局 多轮Agent训练遇到级联失效?熵控制强化学习来破局 关键词: AI,模型训练,EPO,Entropy-regularized Policy Optimization 在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。 来自主题: AI技术研报 5459 点击 2025-10-19 12:06