人类在创作艺术时,大脑并非一味地输出,而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。
现有的文生图(T2I)模型虽然强大,但往往表现得像是一个 “像素映射机器”,缺乏人类在创作过程中的动态思考与自我修正能力。虽然目前已有研究通过引入大语言模型(LLM)的推理链(CoT)来辅助生成,但这些方法大多依赖显式推理 —— 即必须把思考过程解码成文字或中间图像,再重新编码。
这种方式不仅效率低下,还会导致信息损耗,更不符合人类的创作直觉。为了打破这一瓶颈,来自香港科技大学的团队提出了 LatentMorph。这是一种全新的框架,它将隐式潜空间推理(Implicit Latent Reasoning) 无缝集成到 T2I 生成过程中。它不再需要繁琐的文本解码,而是直接在连续的潜空间中完成 “思考” 与 “修正”,让模型拥有了类似人类的 “创作直觉”。实验结果显示,LatentMorph 显著增强了基座模型 Janus-Pro,在 GenEval 和 T2I-CompBench 上分别提升了 16% 和 25% 的性能。在复杂的抽象推理任务中,它超越了显式范式 11%~15%,同时大幅削减了 44% 的推理延时与 51% 的 Token 消耗,并实现了高达 71% 的人机认知对齐。

在 LatentMorph 提出之前,赋予图像生成模型 “System-2” 推理能力的尝试主要集中在两种范式:
尽管这些方法有效,但这些范式普遍依赖将 “想法” 强制压缩进有限的离散文本通道。这种显式做法引发了三大核心缺陷:
1. 信息损耗: 自然语言难以精准描述光影、纹理等微妙的视觉逻辑。
2. 计算冗余: 频繁的解码 - 重编码循环带来了巨大的推理延迟和 Token 开销。
3. 认知失调: 强迫模型在每一笔之前都 “说出” 逻辑,违背了人类直觉式的视觉反馈机制。

受潜空间推理在语言模型中成功的启发,LatentMorph 应运而生,其核心研究课题在于:如何让模型在生成图像 Token 的同时,动态监控其视觉状态并隐式介入推理并优化?
LatentMorph 通过四个轻量化组件,共同构成了一个闭环的 “观察 - 决策 - 思考 - 引导” 系统。其中,冷凝器(Condensers)负责将海量生成状态提炼为紧凑的视觉记忆;调用器(Invoker)智能决定何时介入推理;翻译器(Translator)将抽象想法转化为生成指令;而整形器(Shaper)则精准驱动图像 Token 的最终修正。

2.1 视觉记忆凝结器(Memory Condensers)
为了让推理分支能够理解当前的生成进度,LatentMorph 设计了双重冷凝机制:

2.2 强化学习驱动的推理调用器 (Reason Invoker)

通过强化学习(GRPO)训练,LatentMorph 能够像人类一样,仅在遇到瓶颈或歧义时才激活思考,从而最大化推理效率并避免冗余计算。
2.3 潜空间翻译器 (Latent Translator)

2.4 潜空间整形器 (Latent Shaper)

这种注入方式不改动模型权重,也不占用 Token 的预测位置,而是通过修改注意力机制的上下文,潜移默化地引导后续 Token 的预测走向。这使得 LatentMorph 能够实现极致的生成连贯性。
LatentMorph 在五个权威基准测试中与十种主流方法进行了全方位对比,结果证明了其范式级的优势。
3.1 忠实度与组合性的新高度

在通用的 GenEval 和侧重组合能力的 T2I-CompBench 测试中,LatentMorph 表现优异:

3.2 抽象与极限推理能力的验证

LatentMorph 在处理抽象知识(WISE)和反物理直觉提示词(IPV-Txt)时展现了独特优势:
3.3 极速推理与超低消耗
LatentMorph 彻底终结了 “推理必低效” 的魔咒:

相比于需要多次全量生成的迭代方法(如 MILR),或受限于文本解码速度的方案(TWIG),LatentMorph 的推理时间减少了 44%,Token 消耗降低了 51%。这使其成为一种极其经济且可扩展的自回归生成增强方案。
3.4 认知一致性与消歧

LatentMorph 的调用策略与人类直觉达到了 71.8% 的对齐度。它表现出一种 “任务复杂度敏感” 的模式:对于简单的提示词仅进行少量干预,而面对复杂的抽象任务则会增加调用频率(在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次)。

通过 LatentMorph,团队证明了推理增强型模型正从 “显式说理” 向 “隐式直觉” 发生范式转移。
它成功将逻辑思考的深度与生成流程的效率统一在潜空间内,不仅显著提升了模型对复杂、抽象指令的遵循能力,更赋予了 AI 一种类人的创作节奏。正如论文标题所言:“Show, Don't Tell”,真正的智慧往往蕴含在无需言说的潜意识演化之中。
未来,这种潜空间推理框架有望拓展至视频生成、3D 构建等更多高维多模态领域,为构建真正具备自我演化能力的创作型 AI 奠定基础。
文章来自于“机器之心”,作者 “香港科技大学博士生陈浩东和西北工业大学本科生尹新祥”。