快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

8461点击 2025-08-22 17:23

在大语言模型的竞争中，数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练，到 DeepSeek 提出 GRPO 算法，我们见证了强化学习在推理模型领域的巨大潜力。然而，想要复现这些顶尖成果，并不只是“多喂点数据、跑几轮训练”这么简单。现实是，很多中小规模的开源推理模型，在 AIME 这样的高难数学竞赛题、或 LiveCodeBench 这样的复杂代码评测中，依然与闭源 SOTA 存在明显差距。

最近，快手 Klear 语言大模型团队推出了全新的 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造，在数学与代码的多个权威基准测试中达到同规模模型的 SOTA 水平，并完整公开了训练细节与全流程 pipeline。

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

论文标题：Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

论文链接：https://arxiv.org/pdf/2508.07629

Hugging Face 地址：https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub 地址：https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基准测试中，不仅全面超越同规模的强力开源模型（包括 DeepSeek 蒸馏版 DeepSeek-R1-0528-8B），更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的惊人成绩，直接登顶 8B 模型榜首。

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

在这些成果的背后，最核心的技术创新是 Klear 团队提出的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法 ——一种在保留训练稳定性的同时，大幅提升探索能力的强化学习优化方法。

传统 clip 的隐性代价

在 PPO 和 GRPO 等常用的策略优化方法中，clip 是控制训练稳定性的重要手段，它通过限制策略更新幅度，避免模型一步走得太远而导致崩溃。然而，Klear 团队在实践中发现，这种做法有两个隐藏问题：

1.高熵 token 被裁剪：当高熵token（通常对应推理过程中的关键探索步骤）的重要性采样比例超过上限时，它们的梯度会被直接丢弃。这会限制模型的探索能力，使模型很快变得保守，不再尝试新的思路。

2.负样本延迟收敛：当次优轨迹的重要性采样比例低于下限时，梯度同样被丢弃掉。这样，模型需要多次重复犯同样的错误，才能积累足够信号去修正行为，显著拖慢收敛速度。

换句话说，clip 机制在保护稳定性的同时，也切断了模型获取最有价值学习信号的通道，模型变得保守，不敢尝试新路径，遇到错误也修正迟缓。

GPPO 方法：保留梯度的“温和”方案

GPPO 的核心思想很直接：不丢弃任何梯度，并且对其进行温和回传。它通过 stop gradient 操作，将 clip 操作与梯度反向传播解耦，在保持 clip 机制稳定性的同时，让被截断的 token 依然参与反向传播，其优化目标如下：

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

值得注意的是，数值上始终等于 1，因此前向计算保持不变。由于GPPO将梯度传播与裁剪约束解耦，所以反向计算过程与标准clip方法不同。通过分析GPPO梯度表达式，可以进一步明确其回传的梯度和标准clip方法的不同之处：

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

GPPO 让被 clip 的 token 依然参与反向传播。对于原本被clip的高熵token（正优势且），梯度被保留，并约束在水平，既能保留探索能力，又避免过大更新引发不稳定；对于原本被clip的负样本token（负优势且<），梯度同样被保留，并限制在的幅度，加快错误修正。

实验验证

如下图 1，在与现有方法的对比中（包括 DAPO 的 clip-higher 以及 MiniMax-M1 的 CISPO 方法），GPPO 在数学和代码任务上都表现出优势。DAPO 法调整 clip 上限，但无法解决本质问题，还是会存在高熵 token 被 clip 的情况；相比于 CISPO 方法，GPPO 继承了 PPO 悲观更新的策略，有助于其保持更清晰的优化信号，并促进更稳定的策略训练。

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

图 1: 数学强化学习训练中 GPPO、GRPO（带 Clip Higher 策略）与 CISPO 的对比

两种方法均基于早期长链思维微调检查点（序列长度32K tokens）进行训练。对于GRPO，我们采用DAPO论文推荐的Clip-Higher策略 = 0.28。

未来展望

Klear-Reasoner 的推出，不仅是一份性能亮眼的开源权重，更为社区贡献了一条可复现、可推广的推理模型监督学习和强化学习路线。通过 GPPO，推理模型可以在稳定性与探索力之间找到新的平衡点，让它们既敢于尝试，也能迅速纠错。这对于未来的数学、代码，甚至其他 RLVR 任务，都有着重要的参考价值。

文章来自于微信公众号“AI前线”。

关键词: AI新闻 , 模型训练 , Klear-Reasoner , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

快手Klear-Reasoner登顶8B模型榜首，GPPO算法双效强化稳定性与探索能力！

传统 clip 的隐性代价

实验验证

更多实验洞察

未来展望