清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能 清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能 关键词: AI,模型训练,JustRL,小参数模型 如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗? 来自主题: AI技术研报 5754 点击 2025-11-13 09:37