爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了 爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了 关键词: 模型训练,AI,人工智能,伪奖励 来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。 来自主题: AI技术研报 6847 点击 2025-05-29 10:18