爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
来自主题: AI技术研报
8691 点击 2025-05-29 10:18
搜索
来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。