AI资讯新闻榜单内容搜索-GRPO

JustGRPO：扩散语言模型的极简主义回归

扩散语言模型（Diffusion LLMs, dLLMs）因支持「任意顺序生成」和并行解码而备受瞩目。直觉上，打破传统自回归（AR）「从左到右」的束缚，理应赋予模型更广阔的解空间，从而在数学、代码等复杂任务上解锁更强的推理潜力。

来自主题: AI技术研报

9662 点击 2026-01-29 14:55

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

7281 点击 2026-01-12 09:34

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

DeepSeek 一发布模型，总会引起业内的高度关注与广泛讨论，但也不可避免的暴露出一些小 Bug。

来自主题: AI技术研报

6089 点击 2025-12-05 10:05

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

DeepSeek-V3.2很强很火爆，但随着讨论的深入，还是有bug被发现了。并且是个老问题：浪费token。不少网友都提到，DeepSeek-V3.2的长思考增强版Speciale，确确实实以开源之姿又给闭源TOP们上了压力，但问题也很明显：

来自主题: AI资讯

7848 点击 2025-12-04 09:49

DeepSeek强势回归，开源IMO金牌级数学模型

就在刚刚，DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型：DeepSeek-Math-V2。顾名思义，这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时，这个模型只用 7B 参数量，就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO，显著提升了数学推理能力。

来自主题: AI资讯

8729 点击 2025-11-27 22:47