一句话生图要过时了?开源图像生成Agent进化出「工具编排」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一句话生图要过时了?开源图像生成Agent进化出「工具编排」
7864点击    2026-07-01 15:16

图像生成正在从「一句话生成一张图」,走向更接近真实创作流程的开放任务。


在实际使用中,用户常常不只是给出一个 prompt:他可能要求画面对齐某个地标、人物、商品或事件,也可能要求参考图身份一致、材质特殊、或者要求模糊的描述也能表达清楚。面对这些需求,单靠生成模型一次前向推理很难稳定完成。


近期,来自香港科技大学(广州)、美团、香港科技大学、新加坡国立大学等机构的研究团队提出 GenEvolve,一个面向开放图像生成的自我进化智能体框架。它将一次生成建模为一「工具编排轨迹」:智能体先理解请求,再调用搜索、图像检索和生成知识工具,最后把外部证据、视觉参考和硬约束整理成 prompt-reference program,交给不同底层生成器渲染。


一句话生图要过时了?开源图像生成Agent进化出「工具编排」


  • 论文标题:GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
  • 论文链接:https://arxiv.org/abs/2605.21605
  • 项目页面:https://ephemeral182.github.io/GenEvolve/
  • 代码链接:https://github.com/MeiGen-AI/GenEvolve
  • 模型权重:https://huggingface.co/MeiGen-AI/GenEvolve
  • 数据与评测:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench


一句话生图要过时了?开源图像生成Agent进化出「工具编排」

GenEvolve 使用同一套智能体策略,分别搭配开源 Qwen-Image-Edit 与强生成器 Nano Banana Pro。


从 prompt 到工具轨迹


GenEvolve 关注两类开放生成需求。第一类是 Knowledge-Anchored:生成结果依赖外部世界知识,例如真实建筑、公众人物、商品结构或事件线索。第二类是 Quality-Anchored:结果依赖可校验的视觉质量约束,例如文字、计数、布局、属性绑定、解剖、材质和美学。


为此,GenEvolve 给智能体配置三类工具:文本搜索 search (q) 用于补充事实证据;图像搜索 image_search (q) 用于获取视觉参考;生成知识查询 query_knowledge (skill) 用于激活内部对于文字渲染、空间布局、材质一致性等复杂需求所需要的技能。


因此,一次生成不再只是「写一个更长的 prompt」,而是多轮决策:搜什么、看哪张参考图、调用哪类生成知识、最终程序里必须写入哪些约束。


数据与评测


为了训练这样的智能体,研究团队构建了 GenEvolve-Data 和 GenEvolve-Bench。作者团队没有直接收集普通 prompt-image 对,而是从约 2 万条结构化 recipe 出发,覆盖实体、地标、产品、事件、文字、布局、计数、属性、解剖、材质、美学和创意转化等场景。


每个请求都会先交给 Teacher Agent 走一遍完整工具流程:查事实、找参考、调用生成知识、写出最终 prompt-reference program。之后,数据还要经过程序检查、VLM 审计、GT 图像渲染和视觉过滤,最后切分成 SFT 轨迹、自我进化样本和 对应的 benchmark。


一句话生图要过时了?开源图像生成Agent进化出「工具编排」


GenEvolve-Data 数据闭环:从结构化 recipe 到工具轨迹、VLM 审计、GT 图像过滤,再切分为训练和评测视图。


自我进化:先筛出更好的轨迹


训练过程分为两步。


首先,GenEvolve 使用高质量 Teacher 轨迹对 Qwen3-VL-8B-Instruct 做 SFT 冷启动,让模型学会基本工具调用和程序写法。


随后进入自我进化的 Rollout 阶段:对同一请求采样多条 rollout,渲染成图像后由视觉判分器和文本判分器共同打分,并使用 GRPO 优化轨迹级奖励。


视觉经验自蒸馏:把「好在哪里」教给模型


仅有轨迹级奖励仍然不够。它能告诉模型「哪条轨迹更好」,却很难说明「好在哪里」。因此,GenEvolve 引入视觉经验自蒸馏:系统比较同一请求下的最优与最差轨迹,把差异总结成结构化 Decision Guide,例如该搜索什么、该选择哪类参考、该避免哪些失败写法。


接下来,这些经验只提供给训练阶段的 privileged teacher。Student 在同一批样本上仍然只看到普通输入,不直接读取经验库;teacher 则在 Decision Guide 的帮助下给出更好的 token 分布。我们再通过 token 级反向 KL,把 teacher 在关键决策 token 上的偏好蒸馏给 student。这样,模型学到的不是一条离线记忆,而是「看到类似请求时应该如何搜索、选参考、组织约束」的决策习惯。


这也是 GenEvolve 和只做 RL 打分优化的主要区别。GRPO 提供的是「哪条轨迹更值得强化」的方向,视觉经验自蒸馏提供的则是更细的 credit assignment:好轨迹到底好在工具计划、参考选择,还是最终 prompt-reference program 的某个约束写法。部署时,student 不需要再查 Decision Guide 或经验 buffer,经验已经被压进模型参数里。


一句话生图要过时了?开源图像生成Agent进化出「工具编排」

GenEvolve 方法总览:智能体采样多条工具轨迹,比较最优与最差结果,将视觉经验蒸馏回部署模型。


实验结果


在自建的 GenEvolve-Bench 上,研究团队比较了主流直接生成模型和 agentic 工作流。当底层生成器固定为开源 Qwen-Image-Edit-2511 时,GenEvolve 的整体 KScore 达到 0.3663,超过 Gen-Searcher 的 0.3493;在更依赖事实和视觉细节的 Knowledge-Anchored 任务上,提升尤其明显。


当搭配更强的 Nano Banana Pro 渲染器时,GenEvolve 的 KScore 进一步提升到 0.5739,高于 Nano Banana Pro 裸生成的 0.5298。这说明 GenEvolve 学到的不是某个生成器上的 prompt trick,而是一套可以迁移到不同渲染器上的工具编排策略。


一句话生图要过时了?开源图像生成Agent进化出「工具编排」

GenEvolve-Bench 主结果。GenEvolve 在开源生成器设置和强生成器设置下均取得稳定提升。


消融实验显示,未调优的 Qwen3-VL 工作流已经能利用工具入口,但结果不够稳定;SFT 提升工具调用和最终程序质量;GRPO 提供轨迹级优化信号;加入视觉经验自蒸馏后,模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等关键维度上继续提升。


研究团队还在公开的 WISE 知识密集型图像生成基准上进行了外推评估。在不做 in-domain 微调的情况下,GenEvolve 使用 8B 开源策略与开源 Qwen-Image-Edit 渲染器,整体 WiScore 达到 0.82,超过 GPT-4o 的 0.80


一句话生图要过时了?开源图像生成Agent进化出「工具编排」

WISE 结果。GenEvolve 在开源生成器设置和强生成器设置下超过了之前的开源和闭源模型。


一句话生图要过时了?开源图像生成Agent进化出「工具编排」

定性对比:橙色示例更依赖外部知识,蓝色示例更依赖内部生成技能。


小结


GenEvolve 的意义在于,它把开放图像生成从单次 prompt 优化,推进到可学习的工具编排过程。对于需要外部知识、参考图一致性和多重硬约束的任务,智能体不只是「调用工具」,而是在训练中学会如何把工具结果转化为有效的生成程序。


目前,GenEvolve 已开源模型、代码、数据与评测集。对于图像生成智能体、工具使用、视觉反馈强化学习和开放生成评测等方向,这套框架提供了一个可复现的起点。


作者与单位


论文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu,来自港科广、美团、港科大和新加坡国立大学。


文章来自于"机器之心",作者 "Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu"。

AI转型,免费服务,就找AITNT
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0