告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher
6246点击    2026-04-10 08:34

过去两年,图像生成模型在质感和审美上一路狂飙,但大多仍是 “直接出图” 的范式。


一旦 prompt 涉及真实世界知识、最新信息、冷门事实,或者需要跨多个来源核对细节,传统文生图模型就很容易翻车。


因为生成模型缺乏面向真实世界的 Agent 能力,仍然依赖固化的参数知识,缺少主动搜索、验证和整合外部信息的能力。


最近,来自香港中文大学 MMLab、UC Berkeley 和 UCLA 的研究团队提出了 Gen-Searcher,首次尝试为图像生成任务训练一个 “深度搜索” 智能体。它让图像生成模型能够像 Agent 一样进行搜索、推理、找图和浏览网页,从而输出真正可靠的生成结果。所有数据,模型,和代码,均已开源。


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


  • 论文标题:Gen-Searcher: Reinforcing Agentic Search for Image Generation
  • 论文地址:https://arxiv.org/pdf/2603.28767
  • 项目主页:https://gen-searcher.vercel.app/


现实需求:从 “直接生成” 到 Agentic 生成


现实世界中的图像生成任务,往往不只是 “按 prompt 作画”。很多场景会涉及真实世界知识、最新信息、冷门事实,甚至需要跨多个来源核对细节。模型不仅要会生成,还要先判断哪些信息需要确认、哪些视觉细节需要参考、哪些内容必须依赖外部知识支撑。


在这种背景下,传统文生图模型有两个核心问题:一是主要依赖预训练学到的参数知识,缺乏主动搜索、验证和整合外部信息的能力;二是整体流程仍是 “输入 prompt,直接出图”,缺少像 Agent 那样先搜索、推理、整理证据的过程,因此在真实场景里很容易 “画得像,却画不对


为了解决这个问题,研究团队提出了 Gen-Searcher,希望把文生图从 “直接生成” 推进到 Agentic 生成


数据构建与 KnowGen 基准


为了训练这种能力,作者先构造了一批真实世界需要搜索才能完成的生成数据,覆盖名人、动漫、物理、化学、艺术、建筑、新闻等约 20 个类别。


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


随后,作者让强模型配合搜索工具生成多轮轨迹,收集文本知识和视觉证据,再用 Nano Banana Pro 合成目标图像,得到约 30k 条原始样本。经过 Seed1.8 筛选后,最终保留约 17k 条高质量数据,并整理成 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


在此基础上,作者还提出了新的 benchmark —— KnowGen。它包含 630 条人工验证样本,用于图像生成 Agent 评测。


模型训练


Gen-Searcher 的核心,是把生成前的信息获取过程做成一个可训练的 Agent。模型不再拿到 prompt 就直接生成,而是先在多轮交互中决定何时搜索、搜什么、是否浏览网页、是否补充视觉参考,最后输出准确的 prompt 和参考图。


它配备了三类工具:文本搜索、图像搜索和网页浏览。训练上则分两阶段进行:先通过 SFT 训练学会工具使用,再通过 agentic RL 优化搜索策略和长程决策。


论文还提出了双奖励反馈。因为只看最终图像效果并不稳定,作者额外加入了一个文本奖励,用来评估输出的 prompt 是否已经包含足够、正确、与生成相关的信息,再与图像奖励结合起来共同训练。这样,模型不仅要 “画得好”,也要 “搜得对”


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


实验结果


在 KnowGen 上,原始 Qwen-Image 的 K-Score 为 14.98,接入 Gen-Searcher-8B 后提升到 31.52,提高 16.54 分。而且这种能力还能迁移到其他图像生成器上:Seedream 4.5 从 31.01 提升到 47.29,Nano Banana Pro 也从 50.38 提升到 53.30。 


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


在 WISE 测试基准上,模型同样带来了巨大的提升。


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


可视化分析表明,Gen-Searcher 能够真正提高模型生图的准确性和质量。


告别直接生成,文生图进入Agent时代:港中文联合伯克利开源Gen-Searcher


写在最后


Gen-Searcher 的推出,不仅展示了 Agentic 生成在知识密集型图像生成任务上的潜力,也为构建真正能够连接搜索、推理与生成的一体化系统提供了清晰路径。


它不仅能 “画”,还能 “查”;不仅能完成传统的文本到图像生成,更能在生成之前主动搜索信息、核对事实、整合证据,展现出面向真实世界复杂任务的生成能力。


在大模型不断走向多模态、强推理与 Agent 化的趋势下,Gen-Searcher 的工作或许只是一个起点,但它所验证的方向,正在成为生成系统迈向 Agentic 时代的重要一步。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0