AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题,并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配,后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。
来自主题: AI技术研报
6896 点击 2025-11-02 10:32