
边学边练,推理觉醒:LUFFY让强化学习即学即用!
边学边练,推理觉醒:LUFFY让强化学习即学即用!破解 “只学不练” 与 “只练不学” 的难题
来自主题: AI技术研报
4722 点击 2025-05-06 09:09
破解 “只学不练” 与 “只练不学” 的难题
本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。