AI资讯新闻榜单内容搜索-BranchGRPO

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: BranchGRPO

加速近5倍！北大与字节团队提出BranchGRPO，用「树形分叉 + 剪枝」重塑扩散模型对齐

近期，北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO，BranchGRPO 通过在扩散反演过程中引入分叉（branching）与剪枝（pruning），让多个轨迹共享前缀、在中间步骤分裂，并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报

7234 点击 2025-09-23 10:07