阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。
来自主题: AI技术研报
6808 点击 2026-05-06 14:27