AI资讯新闻榜单内容搜索-Rubicon-pr

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Rubicon-pr

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon，通过构建业界最大规模的 10,000+ 条「评分标尺」，成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型，让 AI 告别「机械味」。

来自主题: AI技术研报

7734 点击 2025-08-25 10:08