
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。
来自主题: AI技术研报
5818 点击 2025-06-06 11:08
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。