清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?
来自主题: AI技术研报
7096 点击 2025-11-13 09:37
搜索
如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?