1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒 1.5B推理模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」的魔咒 关键词: AI,模型训练,QuestA,人工智能 QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果 来自主题: AI技术研报 7027 点击 2025-10-06 13:54