生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架
6771点击    2025-06-07 14:49

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。


有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢?


这一切,现在通过一个由港科大(广州)和字节联合出品的全新的开源框架——ComfyMind实现了。


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


ComfyMind是一个通用视觉生成框架,它旨在用一套系统,统一处理从文本到图像、从图像到视频等所有主流视觉生成任务。


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


在多个行业基准测试中,ComfyMind的性能全面超越现有开源方法,达到了与闭源的GPT-4o-Image相媲美的水平。


从“手工作坊”到“智能工厂”


无论是让棱镜散射出物理精确的彩虹,还是给蛋糕切上一块,甚至将一个Logo无缝融入产品,ComfyMind都能轻松胜任。

来看看效果。


结合光学知识,生成一张玻璃棱镜的光散射的图像:


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


给一张蛋糕的图像,将给定蛋糕切角:


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


给一张Logo图像,将Logo嵌入杯子:


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


生成一个长度为8秒的海边燃烧的篝火的视频:


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


虽然视觉生成模型突飞猛进,但真正能“一套系统包打所有任务”的开源框架依旧脆弱,难以支撑真实生产诉求;


相对地,闭源GPT-Image-1(即GPT-4o-Image)虽效果出众,却无法被社区自由扩展或调优。


ComfyUI的节点式设计为“可视化、模块化”奠定了基础,理论上任何任务都能通过组合节点完成;


然而,当工作流跨越多模态、多阶段时,手工搭建不仅耗时费力,更对专业知识要求极高,成为创作的门槛。


ComfyAgent等LLM-驱动方案已经开始尝试自动生成工作流,但它们依赖扁平JSON 解码,既难以表达模块层级,又缺乏执行端反馈,导致节点缺漏与语义漂移。


人类艺术家在构建复杂流程时,会先拆解任务,再局部试错、局部修正。


借鉴这一策略,该团队提出ComfyMind:以“原子工作流”为最小单位,以自然语言描述接口,结合树状规划加局部反馈执行,将视觉内容创作转化为分层决策问题,从而在保持灵活性的同时,显著提升稳健性与扩展性。


给Comfyui装上大脑,会规划,更会“返工”


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


上图展示了ComfyMind系统pipeline。


整体架构:“ComfyUI × 多代理协同”


ComfyMind将ComfyUI仅视为底层执行引擎:所有高层决策由规划-执行-评估三代理协作完成。


规划代理自顶向下拆解任务;


执行代理把每一步映射成JSON工作流并结合ComfyUI进行具体生成;


评估代理在生成流程结束时使用VLM判定生成质量与指令一致性,并把诊断信息返回给上一层级。


语义工作流接口:把节点图“函数化”


论文提出的语义工作流接口将社区验证的T2I、I2V、Mask生成等模板封装为“原子工作流”,并以自然语言标注其功能和必选/可选参数。


规划代理因此能够在纯语义空间像调用高阶函数那样组合模块,无需接触易错的JSON语法,彻底消除“漏节点”“拼接错误”等结构性故障。


所有SWI描述集中于单一文档直接注入LLM上下文,摆脱对3200+节点检索数据集的依赖,实现零-RAG的快速扩展能力。


树状规划+局部反馈:「分块-修补」策略


复杂指令被递归拆分为子目标,形成 语义搜索树;每个节点代表局部规划,边对应一次SWI调用。


系统在节点处仅执行链首函数并即时评估——若失败,错误与重规划被限制在当前层级,已通过的分支原地保留,避免全链重跑与策略振荡。


全面的性能评估,在三大基准对比


ComfyBench自动工作流构建


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


ComfyMind在ComfyBench全难度任务上取得100%的通过率,消除JSON级失败。


同时,将问题解决率在Vanilla、Complex、Creative难度上分别较ComfyAgent提升100%、292%和283%,凸显多代理-ComfyUI体系在通用生成与编辑任务上的卓越泛化能力与输出质量。


Geneval文生图


在GenEval中,ComfyMind获得0.90总分,较开源基线SD3与Janus-Pro-7B分别领先0.16和0.10,并在六大维度中的五项及总体成绩超越GPT-Image-1。


定性对比进一步显示,在各类约束下,本系统同时满足了指令并生成视觉连贯的高质量图像。


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


Reason-Edit图像编辑


在Reason-Edit基准上,ComfyMind以0.906的GPT-score较前开源SOTA SmartEdit提升+0.334,并接近GPT-Image-1(0.929)。


定性对比亦表明,ComfyMind相较于在精准完成复杂编辑指令的同时还保持了非编辑区域的细节与风格一致。


而GPT-Image-1常出现纹理丢失、色调漂移或比例失真等瑕疵。


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架


总结


论文提出了基于ComfyUI平台构建的全新框架ComfyMind。


ComfyMind将视觉内容创建概念化为一个模块化、语义结构化的规划流程,并将基于树的规划与局部反馈执行相结合。


ComfyMind框架性能超越了之前的开源方法,并取得了与GPT-Image-1相当的结果。


相关论文,在线Demo, 代码,项目主页等均已公开公布。


感兴趣的小伙伴可以进一步体验和探索。


论文链接: https://arxiv.org/abs/2505.17908


项目主页链接: https://litaoguo.github.io/ComfyMind.github.io/


在线Demo链接: https://envision-research.hkust-gz.edu.cn/ComfyMind/


文章来自公众号“量子位”,作者“ENVISION Lab团队”


生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

关键词: AI , AI生图 , ComfyMind , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/