4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法
4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法大语言模型(LLM)的幻觉问题一直是阻碍其在关键领域部署的核心难题。近日,研究人员提出了一种名为行为校准强化学习(Behaviorally Calibrated Reinforcement Learning)的新方法,通过重新设计奖励函数,让模型学会「知之为知之,不知为不知」。
来自主题: AI技术研报
7821 点击 2026-03-13 10:10