GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。
搜索
大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。
OpenAI版“豆包手机”,正在开足马力前进。
OpenAI 成立前夜,核心大脑 Ilya 差点反悔,选择继续留在谷歌。
OpenAI准备向企业主全量上线广告平台了。这个非常有意思,我觉得还是可以聊聊的。这玩意你可以理解成,ChatGPT的广告投放后台,美国的企业主可以直接注册账号,充钱,设预算,选竞价策略,上传广告素材,然后一键投放到ChatGPT的对话里,最后实时看数据,实时优化。
ChatGPT默认模型,今天大升级。
Realtime API 是 OpenAI 的实时语音交互接口,在 24 年的 DevDay 首次亮相,当时还是 beta,调用贵到离谱,音频输出 200 刀/百万 token:OpenAI 凌晨发布:Realtime 实时多模态 API,及其他
5月5日下午5:55,GPT-5.5要给自己办场party——时间是GPT-5.5自己挑的,客人由Codex从推文回复里挑。这场看起来像段子的活动背后,是一个真实的市场拐点:过去两个月,AI编程工具圈发生了一次明显的用户迁移,开发者开始从Claude Code转向Codex。
就在刚刚,OpenAI 正式发布了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。
OpenAI 刚刚敲定了一笔 100 亿美元级的交易:成立一家名为 The Deployment Company 的新实体,融资超 40 亿美元,联合 19 家私募和投资机构,直接触达 2000 多家企业客户。这一步的信号极其明确——
太炸裂了!刚刚,OpenAI总裁Brockman当庭承认:自己投入0美元,持有OpenAI营利部门300亿美元股份(马斯克捐了3800万,得到的是0)。更炸的是,Brockman和奥特曼都悄悄持有Cerebras个人股份。Gary Marcus直言,这是马斯克最接近赢的一次。