可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25 可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25 关键词: AI新闻,VGG-Flow,微调,模型训练 用强化学习微调扩散模型,还有更好的办法吗? 来自主题: AI技术研报 7158 点击 2026-03-11 09:23