训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

8677点击 2026-02-10 14:19

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

高昂成本很大一部分来自训练过程中的“低效”。如果一直学习不合适的“考题”，既学不到东西，又造成了巨大浪费。想象一下，要培养一位“数学尖子生”，你让他做成千上万道题。若题目太简单，比如“1+1”，毫无意义；若题目太难，他根本不会，同样徒劳。

真正高效的训练，来自那些“跳一跳，刚好够得着”的题目。

此前，学术界和工业界主要有两种策略来给大模型“挑题”：

“题海战术”（Uniform Sampling）：从题库中随机抽取题目给大模型。这会导致大量的算力被浪费在那些无法提供有效学习信号的题目上：如GRPO面对回答全对全错问题，梯度会坍缩为0，失去更新效果，白白浪费资源。

“先测后学”（Dynamic Sampling，DS）：一些在线采样方法（如DAPO中的DS）被提了出以加速训练。其让大模型“自测”一个更大的候选题目集，并据此筛选出难度适中的题目进行训练。然而“自测”本身就需要大量的LLM推理，成本依然高昂。就像为节省尖子生的时间，却让他花更多时间去做额外的摸底测试。

有没有一种方法，既能精准地挑出难度最合适的题目，又不需要昂贵的大模型“自测”？

MoPPS：轻量预测，精准挑题

面对这一挑战，清华大学季向阳教授THU-IDM团队主导，与慕尼黑大学CompVis团队合作提出了一个全新的框架：基于模型预测的提示选择（Model Predictive Prompt Selection，MoPPS）。

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

该工作已被KDD 2026接收，受到包括阿里千问、腾讯混元、蚂蚁等业界的关注，以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用。

MoPPS解决的核心问题是：

能否不需要昂贵的大模型评估，就动态预测题目难度，并据此精准挑选训练数据，从而更高效地提升模型推理能力？

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ DAPO算法中的Dynamic Sampling依赖大模型自评估，带来显著计算开销。而MoPPS用轻量化贝叶斯模型快速预估问题难度，实现高效问题筛选加速训练。

MoPPS的想法和实现非常简单：

**1. 将题目建模为“老虎机”*（Bandit Formulation）***

MoPPS将每一道题（prompt，τ）看作一个老虎机臂。

每个题目有一个未知的“获胜概率”，即在当前模型参数下，模型答对的概率（成功率）。

训练的目标是优先选择那些对训练更有价值的题目，即成功率接近0.5的中等难度题。

**2. 轻量化的贝叶斯难度预测*（Bayesian Inference）***

MoPPS为每个题目配备一个Beta分布，用来估计其成功率：

无先验时，题目的成功率分布被初始化为均匀分布Beta(1,1)。如果有可靠先验可以对应设置以提升效果。

随着训练推进，大模型产生“成功/失败”的反馈，这些二值反馈被直接转化为对Beta分布的更新：

α′ = α + 成功次数, β′ = β + 失败次数

这种递归更新方式不仅计算量极低，还能随着训练积累越来越精准的难度估计。MoPPS 还引入了时间衰减因子，以适应模型能力不断变化的动态环境。

α′ = λ·α + (1 − λ)·α⁰ + 成功次数, β′ = λ·β + (1 − λ)·β⁰ + 失败次数

**3. 主动问题筛选*（Active Selection with Thompson Sampling）***

MoPPS不依赖真实LLM自测，而是直接从Beta分布中采样预测难度：

使用Thompson Sampling：为每个候选题目抽取一个难度估计值，平衡探索与利用。

从候选集中挑选出最接近目标难度γ∗≈0.5的题目（即“跳一跳够得着”的黄金题）。

仅使用被选中的题目进行RL训练；随后，真实反馈反过来更新Beta分布，形成闭环。

这种设计有三个突出优势：

极低开销：预测基于Beta分布采样，不需要额外LLM推理。

动态适应：在线更新，难度估计越来越准。

探索与利用平衡：Thompson Sampling引入随机性，既能挑选已知最优题目，也会探索潜在有价值的新题。

MoPPS提出了一种预测-采样-优化的新范式：

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ 图1：MoPPS框架概览及与DS对比。

效果炸裂：提速1.8x，减少7成推理开销

MoPPS在数学、逻辑、视觉几何三大推理任务上展现出显著优势：

算力成本大幅降低。

与需要大量额外推理的“先测后学”方法（如DS）相比，MoPPS达到相同性能所需的Rollouts减少了高达78.46%！

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ 图2： Countdown任务中，MoPPS在训练效率与性能方面均优于均匀选择策略，同时相比于DS方法，大幅减少rollouts的计算开销。

训练效率显著提升。

相较于传统的“题海战术”（Uniform采样），MoPPS总能为模型挑出最关键的题目，训练过程被大大加速。实现了高达1.6倍至1.8倍的训练加速，且训练效果更好。

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ 图 3：MoPPS与基线方法在三类推理任务中、不同规模模型下的训练曲线。

难度预测精准可靠。

实验证明，MoPPS预测的题目难度与真实的题目难度之间，具有极高的相关性（Spearman Rank Correlation），证明了其预测的有效性和可靠性。

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ 图 4：在所有实验中，相关性在训练初期迅速攀升并稳定在0.5以上的高水平，证明了MoPPS预测的准确性。

方法适用性与拓展性强。

1. 兼容多种强化学习算法：

MoPPS作为“数据筛选器”可以即插即用，适配PPO、GRPO、Reinforce++等多种RL算法。

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

2. 支持不同采样策略并可引入先验信息：

MoPPS默认采用Top-B采样策略，但同样可以扩展为阈值采样（筛选难度落在某个区间的题目）。此外，还能结合先验知识，进一步加速前期训练。

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

△ (a) MoPPS可以使用不同的筛选策略，并可以结合先验知识提升效果。*（b) 在线问题筛选效果强于离线筛选

总结

这项由清华大学THU-IDM团队和慕尼黑大学CompVis团队合作的研究，为大模型强化微调领域，提供了一个“降本增效”的利器。

MoPPS框架的核心贡献在于提出了一种全新的“先预测，再优化”（predict-then-optimize）范式。未来，MoPPS有希望应用于更大规模的大模型强化学习后训练。

论文标题：

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models?

论文链接：

https://arxiv.org/abs/2507.04632

代码链接：

https://github.com/thu-rllab/MoPPS

团队主页：

https://www.thuidm.com

文章来自于微信公众号 “量子位”，作者： “量子位”

关键词: AI新闻 , 模型训练 , MoPPS , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

MoPPS：轻量预测，精准挑题

△ DAPO算法中的Dynamic Sampling依赖大模型自评估，带来显著计算开销。而MoPPS用轻量化贝叶斯模型快速预估问题难度，实现高效问题筛选加速训练。

1. 将题目建模为“老虎机”（Bandit Formulation）

2. 轻量化的贝叶斯难度预测（Bayesian Inference）

3. 主动问题筛选（Active Selection with Thompson Sampling）

△ 图1：MoPPS框架概览及与DS对比。

效果炸裂：提速1.8x，减少7成推理开销

算力成本大幅降低。

△ 图2： Countdown任务中，MoPPS在训练效率与性能方面均优于均匀选择策略，同时相比于DS方法，大幅减少rollouts的计算开销。

训练效率显著提升。

△ 图 3：MoPPS与基线方法在三类推理任务中、不同规模模型下的训练曲线。

难度预测精准可靠。

△ 图 4：在所有实验中，相关性在训练初期迅速攀升并稳定在0.5以上的高水平，证明了MoPPS预测的准确性。

方法适用性与拓展性强。

1. 兼容多种强化学习算法：

△ (a) MoPPS可以使用不同的筛选策略，并可以结合先验知识提升效果。*（b) 在线问题筛选效果强于离线筛选

总结

**1. 将题目建模为“老虎机”*（Bandit Formulation）***

**2. 轻量化的贝叶斯难度预测*（Bayesian Inference）***

**3. 主动问题筛选*（Active Selection with Thompson Sampling）***