AI资讯新闻榜单内容搜索-JustRL

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: JustRL

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你：不用分阶段做强化学习、不搞课程学习、不动态调参，只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA，你信吗？

来自主题: AI技术研报

7233 点击 2025-11-13 09:37

上一页当前第1页,共1页下一页