训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD 训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD 关键词: AI新闻,模型训练,MoPPS,人工智能 以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。 来自主题: AI技术研报 8681 点击 2026-02-10 14:19