一句话生图要过时了？开源图像生成Agent进化出「工具编排」

7864点击 2026-07-01 15:16

图像生成正在从「一句话生成一张图」，走向更接近真实创作流程的开放任务。

在实际使用中，用户常常不只是给出一个 prompt：他可能要求画面对齐某个地标、人物、商品或事件，也可能要求参考图身份一致、材质特殊、或者要求模糊的描述也能表达清楚。面对这些需求，单靠生成模型一次前向推理很难稳定完成。

近期，来自香港科技大学（广州）、美团、香港科技大学、新加坡国立大学等机构的研究团队提出 GenEvolve，一个面向开放图像生成的自我进化智能体框架。它将一次生成建模为一「工具编排轨迹」：智能体先理解请求，再调用搜索、图像检索和生成知识工具，最后把外部证据、视觉参考和硬约束整理成 prompt-reference program，交给不同底层生成器渲染。

论文标题：GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
论文链接：https://arxiv.org/abs/2605.21605
项目页面：https://ephemeral182.github.io/GenEvolve/
代码链接：https://github.com/MeiGen-AI/GenEvolve
模型权重：https://huggingface.co/MeiGen-AI/GenEvolve
数据与评测：https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

GenEvolve 使用同一套智能体策略，分别搭配开源 Qwen-Image-Edit 与强生成器 Nano Banana Pro。

从 prompt 到工具轨迹

GenEvolve 关注两类开放生成需求。第一类是 Knowledge-Anchored：生成结果依赖外部世界知识，例如真实建筑、公众人物、商品结构或事件线索。第二类是 Quality-Anchored：结果依赖可校验的视觉质量约束，例如文字、计数、布局、属性绑定、解剖、材质和美学。

为此，GenEvolve 给智能体配置三类工具：文本搜索 search (q) 用于补充事实证据；图像搜索 image_search (q) 用于获取视觉参考；生成知识查询 query_knowledge (skill) 用于激活内部对于文字渲染、空间布局、材质一致性等复杂需求所需要的技能。

因此，一次生成不再只是「写一个更长的 prompt」，而是多轮决策：搜什么、看哪张参考图、调用哪类生成知识、最终程序里必须写入哪些约束。

数据与评测

为了训练这样的智能体，研究团队构建了 GenEvolve-Data 和 GenEvolve-Bench。作者团队没有直接收集普通 prompt-image 对，而是从约 2 万条结构化 recipe 出发，覆盖实体、地标、产品、事件、文字、布局、计数、属性、解剖、材质、美学和创意转化等场景。

每个请求都会先交给 Teacher Agent 走一遍完整工具流程：查事实、找参考、调用生成知识、写出最终 prompt-reference program。之后，数据还要经过程序检查、VLM 审计、GT 图像渲染和视觉过滤，最后切分成 SFT 轨迹、自我进化样本和对应的 benchmark。

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

GenEvolve-Data 数据闭环：从结构化 recipe 到工具轨迹、VLM 审计、GT 图像过滤，再切分为训练和评测视图。

自我进化：先筛出更好的轨迹

训练过程分为两步。

首先，GenEvolve 使用高质量 Teacher 轨迹对 Qwen3-VL-8B-Instruct 做 SFT 冷启动，让模型学会基本工具调用和程序写法。

随后进入自我进化的 Rollout 阶段：对同一请求采样多条 rollout，渲染成图像后由视觉判分器和文本判分器共同打分，并使用 GRPO 优化轨迹级奖励。

视觉经验自蒸馏：把「好在哪里」教给模型

仅有轨迹级奖励仍然不够。它能告诉模型「哪条轨迹更好」，却很难说明「好在哪里」。因此，GenEvolve 引入视觉经验自蒸馏：系统比较同一请求下的最优与最差轨迹，把差异总结成结构化 Decision Guide，例如该搜索什么、该选择哪类参考、该避免哪些失败写法。

接下来，这些经验只提供给训练阶段的 privileged teacher。Student 在同一批样本上仍然只看到普通输入，不直接读取经验库；teacher 则在 Decision Guide 的帮助下给出更好的 token 分布。我们再通过 token 级反向 KL，把 teacher 在关键决策 token 上的偏好蒸馏给 student。这样，模型学到的不是一条离线记忆，而是「看到类似请求时应该如何搜索、选参考、组织约束」的决策习惯。

这也是 GenEvolve 和只做 RL 打分优化的主要区别。GRPO 提供的是「哪条轨迹更值得强化」的方向，视觉经验自蒸馏提供的则是更细的 credit assignment：好轨迹到底好在工具计划、参考选择，还是最终 prompt-reference program 的某个约束写法。部署时，student 不需要再查 Decision Guide 或经验 buffer，经验已经被压进模型参数里。

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

GenEvolve 方法总览：智能体采样多条工具轨迹，比较最优与最差结果，将视觉经验蒸馏回部署模型。

实验结果

在自建的 GenEvolve-Bench 上，研究团队比较了主流直接生成模型和 agentic 工作流。当底层生成器固定为开源 Qwen-Image-Edit-2511 时，GenEvolve 的整体 KScore 达到 0.3663，超过 Gen-Searcher 的 0.3493；在更依赖事实和视觉细节的 Knowledge-Anchored 任务上，提升尤其明显。

当搭配更强的 Nano Banana Pro 渲染器时，GenEvolve 的 KScore 进一步提升到 0.5739，高于 Nano Banana Pro 裸生成的 0.5298。这说明 GenEvolve 学到的不是某个生成器上的 prompt trick，而是一套可以迁移到不同渲染器上的工具编排策略。

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

GenEvolve-Bench 主结果。GenEvolve 在开源生成器设置和强生成器设置下均取得稳定提升。

消融实验显示，未调优的 Qwen3-VL 工作流已经能利用工具入口，但结果不够稳定；SFT 提升工具调用和最终程序质量；GRPO 提供轨迹级优化信号；加入视觉经验自蒸馏后，模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等关键维度上继续提升。

研究团队还在公开的 WISE 知识密集型图像生成基准上进行了外推评估。在不做 in-domain 微调的情况下，GenEvolve 使用 8B 开源策略与开源 Qwen-Image-Edit 渲染器，整体 WiScore 达到 0.82，超过 GPT-4o 的 0.80。

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

WISE 结果。GenEvolve 在开源生成器设置和强生成器设置下超过了之前的开源和闭源模型。

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

定性对比：橙色示例更依赖外部知识，蓝色示例更依赖内部生成技能。

小结

GenEvolve 的意义在于，它把开放图像生成从单次 prompt 优化，推进到可学习的工具编排过程。对于需要外部知识、参考图一致性和多重硬约束的任务，智能体不只是「调用工具」，而是在训练中学会如何把工具结果转化为有效的生成程序。

目前，GenEvolve 已开源模型、代码、数据与评测集。对于图像生成智能体、工具使用、视觉反馈强化学习和开放生成评测等方向，这套框架提供了一个可复现的起点。

作者与单位

论文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu，来自港科广、美团、港科大和新加坡国立大学。

文章来自于"机器之心"，作者 "Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu"。

关键词: AI新闻 , 模型训练 , GenEvolve , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0