AI资讯新闻榜单内容搜索-G²RPO-A

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: G²RPO-A

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

8421 点击 2026-05-07 10:16