AI资讯新闻榜单内容搜索-RiskPO

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

大模型后训练的痛点：均值优化忽略低概率高信息路径，导致推理能力停滞。RiskPO双管齐下，MVaR目标函数推导梯度估计，多问题捆绑转化反馈，实验中Geo3K准确率54.5%，LiveCodeBench Pass@1提升1%，泛化能力强悍。

来自主题: AI技术研报

8225 点击 2025-10-25 14:32

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

7713 点击 2025-10-15 14:19