AI资讯新闻榜单内容搜索-ExGRPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: ExGRPO
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。

来自主题: AI技术研报
5219 点击    2025-10-23 15:42